podcast transkription content-marketing ki-tools ki-praxis

KI für Podcasts: Transkription, Shownotes und Distribution automatisieren

Von der Aufnahme bis zum Newsletter: Wie ein KI-gestützter Post-Production-Workflow aussieht, welche Tools es gibt und wo du noch selbst Hand anlegen musst.

Daniel Sonnet · 7. April 2026 · 5 Min. Lesezeit

KI für Podcasts: Transkription, Shownotes und Distribution automatisieren

Die Aufnahme dauert 45 Minuten. Die Nachbereitung dauert vier Stunden. Wer regelmäßig podcastet, kennt dieses Verhältnis — und hasst es.

Transkript schreiben, Shownotes formulieren, Kapitelmarken setzen, Social-Media-Zitate rausziehen, Newsletter-Teaser verfassen, Cover beschriften. Alles manuell. Alles repetitiv. Alles Zeit, die nicht ins nächste Gespräch fließt.

KI kann den Großteil dieser Nachbearbeitungsschritte übernehmen — nicht perfekt, aber gut genug, um den Aufwand drastisch zu reduzieren.

Der Workflow: Schritt für Schritt

Schritt 1: Transkription

Hier fängt alles an. Ohne sauberes Transkript gibt es keine Shownotes, keine Kapitelmarken, keine Zitate.

Whisper von OpenAI ist die aktuell stärkste Open-Source-Option. Du kannst es lokal laufen lassen — kein Cloud-Upload, keine Datenschutzprobleme, keine Kosten pro Minute. Die Qualität bei klarem Audio ist beeindruckend. Eine browserbasierte Alternative mit eigenem Editor ist Otter.ai, das besonders bei englischsprachigen Inhalten und strukturierten Speaker-Zuweisungen punktet.

Descript bietet ebenfalls eine browserbasierte Oberfläche: Du siehst den transkribierten Text direkt neben der Tonspur, kannst Fehler anklicken und korrigieren und Abschnitte durch einfaches Löschen von Text kürzen. Für Einsteiger intuitiver als eine reine CLI-Lösung.

Castmagic, Riverside und Cleanfeed haben Transkription ebenfalls integriert — oft als Teil des gesamten Recording-und-Editing-Pakets.

Ein 45-Minuten-Gespräch ist in zwei bis vier Minuten transkribiert. Was früher ein halber Arbeitstag war.

Schritt 2: Shownotes und Kapitelmarken

Das fertige Transkript wandert als Kontext in ein Sprachmodell — Claude, ChatGPT oder Gemini. Der Prompt bestimmt das Ergebnis.

Ein funktionierender Ausgangsprompt:

“Hier ist das Transkript einer Podcast-Episode. Erstelle: 1) Eine kurze Zusammenfassung (3–5 Sätze), 2) Fünf Stichpunkte mit den Kernthemen der Episode, 3) Kapitelmarken mit Zeitstempeln im Format MM:SS — Titel, 4) Drei direkte Zitate, die sich als Social-Media-Posts eignen.”

Das Ergebnis brauchst du fast immer noch nach. Kapitelmarken stimmen nicht immer exakt, Zusammenfassungen glätten Nuancen, Zitate verlieren manchmal den Kontext. Aber du hast einen Rohling, der vielleicht 20 Minuten Überarbeitung kostet statt 90.

Wichtig: Den Prompt auf dein Format und deine Zielgruppe abstimmen. Ein Podcast über Steuerrecht braucht andere Shownotes als ein Gespräch über Musikproduktion. Einmal gut formuliert, funktioniert derselbe Prompt für jede Episode.

Aus den transkribierten Zitaten und der Zusammenfassung lassen sich direkt Postingvarianten generieren. LinkedIn-Post mit Hauptthese, Twitter/X-Thread mit drei Punkten, Instagram-Caption für das Audiogram.

Das spart nicht nur Schreibzeit. Es spart auch die Entscheidungsarbeit: Was poste ich überhaupt? Das Modell schlägt vor, du wählst aus oder passt an.

Achte darauf, KI-generierte Social-Media-Posts noch einmal mit deiner eigenen Stimme zu überarbeiten. Wer dich kennt, merkt sofort, wenn ein Post nicht klingt wie du. Rohling ja — Copy-Paste nein.

Der Teaser für deinen Newsletter ist oft die letzte Aufgabe — und eine, bei der der Kreativitätstank nach einer Produktion leer ist.

Hier hilft ein einfacher Prompt: “Schreib einen Newsletter-Teaser für diese Episode. Zielgruppe: [Beschreibung]. Ton: [Beschreibung]. Maximal 150 Wörter. Enden mit einem Klick-Anreiz.”

Das Ergebnis ist kein Meisterwerk, aber ein brauchbarer Ausgangspunkt, den du in fünf Minuten in Eigensprache umformst.

Was KI nicht gut kann

Ehrlichkeit ist hier wichtig, damit die Erwartungen stimmen.

Starke Akzente bereiten Whisper und anderen Systemen noch Probleme. Ein Interview mit jemandem mit ausgeprägtem bayerischen oder österreichischen Akzent, starkem Berliner Dialekt oder Deutsch als Zweitsprache produziert messbar mehr Fehler. Das Transkript muss dann sorgfältiger geprüft werden.

Fachvokabular wird oft falsch geschrieben oder ersetzt. “DSGVO” wird zu “des geworbenen”, Produktnamen werden verkürzt, technische Abkürzungen landen als Fantasiewörter im Text. Ein Glossar der wichtigsten Begriffe hilft Whisper und anderen Modellen, wenn du ein Fine-tuning oder eine lokale Konfiguration nutzt.

Mehr-Personen-Gespräche mit ähnlichen Stimmen werden nicht immer sauber getrennt. Speaker Diarization — also die Zuweisung von Gesprächsabschnitten zu einzelnen Personen — funktioniert bei zwei Sprechern gut, bei vier oder mehr lückenhaft.

Das heißt nicht, dass KI-Transkription nutzlos ist. Es heißt, dass du noch liest. Nur viel kürzer als vorher.

Kosten und Zeitersparnis

Whisper lokal: kostenlos. Rechenzeit auf einem modernen MacBook: 3–5 Minuten pro Stunde Audio.

Descript: ab etwa 12 Euro/Monat für Einzelnutzer. Castmagic: ähnliche Preisklasse, stärker auf automatische Content-Generierung ausgerichtet.

Für die KI-gestützte Textgenerierung (Shownotes, Social Posts, Newsletter): ein Abo für Claude Pro oder ChatGPT Plus liegt bei 20–25 Euro/Monat und reicht für mehrere Podcasts.

Gesamtinvestition für einen vollständigen Workflow: unter 50 Euro/Monat. Zeitersparnis pro Episode: erfahrungsgemäß zwei bis drei Stunden. Bei wöchentlichem Erscheinen sind das über 100 Stunden im Jahr.

Wie solche KI-Werkzeuge im Unternehmenskontext bewertet und eingeführt werden, beschreibt der Artikel KI einführen ohne zu scheitern. Wie automatische Transkription im professionellen Medienumfeld eingesetzt wird, zeigt der Anwendungsfall Automatisierte Transkription in Medienunternehmen.

Datenschutz bei Audio-Uploads

Ein Hinweis, der oft übersehen wird: Wenn du Interviews mit Gästen aufnimmst und das Audio in eine Cloud-Anwendung hochlädst, verarbeitest du personenbezogene Daten. Stimme ist ein biometrisches Merkmal im Sinne der DSGVO.

Whisper lokal gelöst: kein Problem. Für Cloud-Dienste gilt: Prüf, ob der Anbieter einen Datenverarbeitungsvertrag (DPA) anbietet, wo die Server stehen und ob Audiodaten zu Trainingszwecken genutzt werden.

Informiere deine Gäste vor der Aufnahme, welche Tools du nutzt. Ein Satz reicht: “Die Bearbeitung der Episode läuft über [Tool], das die Audiodatei verarbeitet.” Das ist kein Hexenwerk — aber es ist deine Pflicht.

Dein Workflow morgen früh

Du brauchst kein ausgeklügeltes System, um anzufangen. Lade Whisper lokal herunter oder erstell einen kostenlosen Descript-Account. Transkribiere deine nächste Episode. Kopiere das Ergebnis in Claude oder ChatGPT und bitte um Shownotes.

Schau, was herauskommt. Überarbeite es. Vergleiche den Aufwand mit dem, was du vorher gemacht hast.

Wenn es dir Zeit spart — was es wird — verfeinere von dort aus. Prompt anpassen, Tools konsolidieren, Workflow dokumentieren.

Post-Production ist die unbeliebteste Seite des Podcastens. Sie muss es nicht bleiben.

Alle Tools, die in diesem Artikel erwähnt werden und mehr, findest du in der KI-Tools-Übersicht.

KI für Podcasts: Transkription, Shownotes und Distribution automatisieren

Der Workflow: Schritt für Schritt

Schritt 1: Transkription

Schritt 2: Shownotes und Kapitelmarken

Was KI nicht gut kann

Kosten und Zeitersparnis

Datenschutz bei Audio-Uploads

Dein Workflow morgen früh

Das könnte dich auch interessieren

KI für Videoerstellung: Skript, Schnitt und Untertitel automatisieren

KI für SEO: Keywords, Texte und Rankings systematisch verbessern

KI für Social Media: Content erstellen, planen und auswerten

Kommentare

KI für Podcasts: Transkription, Shownotes und Distribution automatisieren

Der Workflow: Schritt für Schritt

Schritt 1: Transkription

Schritt 2: Shownotes und Kapitelmarken

Schritt 3: Social-Media-Content

Schritt 4: Newsletter-Teaser

Was KI nicht gut kann

Kosten und Zeitersparnis

Datenschutz bei Audio-Uploads

Dein Workflow morgen früh

Das könnte dich auch interessieren

KI für Videoerstellung: Skript, Schnitt und Untertitel automatisieren

KI für SEO: Keywords, Texte und Rankings systematisch verbessern

KI für Social Media: Content erstellen, planen und auswerten

Kommentare

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI