Die Aufnahme dauert 45 Minuten. Die Nachbereitung dauert vier Stunden. Wer regelmäßig podcastet, kennt dieses Verhältnis — und hasst es.
Transkript schreiben, Shownotes formulieren, Kapitelmarken setzen, Social-Media-Zitate rausziehen, Newsletter-Teaser verfassen, Cover beschriften. Alles manuell. Alles repetitiv. Alles Zeit, die nicht ins nächste Gespräch fließt.
KI kann den Großteil dieser Nachbearbeitungsschritte übernehmen — nicht perfekt, aber gut genug, um den Aufwand drastisch zu reduzieren.
Der Workflow: Schritt für Schritt
Schritt 1: Transkription
Hier fängt alles an. Ohne sauberes Transkript gibt es keine Shownotes, keine Kapitelmarken, keine Zitate.
Whisper von OpenAI ist die aktuell stärkste Open-Source-Option. Du kannst es lokal laufen lassen — kein Cloud-Upload, keine Datenschutzprobleme, keine Kosten pro Minute. Die Qualität bei klarem Audio ist beeindruckend. Eine browserbasierte Alternative mit eigenem Editor ist Otter.ai, das besonders bei englischsprachigen Inhalten und strukturierten Speaker-Zuweisungen punktet.
Descript bietet ebenfalls eine browserbasierte Oberfläche: Du siehst den transkribierten Text direkt neben der Tonspur, kannst Fehler anklicken und korrigieren und Abschnitte durch einfaches Löschen von Text kürzen. Für Einsteiger intuitiver als eine reine CLI-Lösung.
Castmagic, Riverside und Cleanfeed haben Transkription ebenfalls integriert — oft als Teil des gesamten Recording-und-Editing-Pakets.
Ein 45-Minuten-Gespräch ist in zwei bis vier Minuten transkribiert. Was früher ein halber Arbeitstag war.
Schritt 2: Shownotes und Kapitelmarken
Das fertige Transkript wandert als Kontext in ein Sprachmodell — Claude, ChatGPT oder Gemini. Der Prompt bestimmt das Ergebnis.
Ein funktionierender Ausgangsprompt:
“Hier ist das Transkript einer Podcast-Episode. Erstelle: 1) Eine kurze Zusammenfassung (3–5 Sätze), 2) Fünf Stichpunkte mit den Kernthemen der Episode, 3) Kapitelmarken mit Zeitstempeln im Format MM:SS — Titel, 4) Drei direkte Zitate, die sich als Social-Media-Posts eignen.”
Das Ergebnis brauchst du fast immer noch nach. Kapitelmarken stimmen nicht immer exakt, Zusammenfassungen glätten Nuancen, Zitate verlieren manchmal den Kontext. Aber du hast einen Rohling, der vielleicht 20 Minuten Überarbeitung kostet statt 90.
Wichtig: Den Prompt auf dein Format und deine Zielgruppe abstimmen. Ein Podcast über Steuerrecht braucht andere Shownotes als ein Gespräch über Musikproduktion. Einmal gut formuliert, funktioniert derselbe Prompt für jede Episode.
Schritt 3: Social-Media-Content
Aus den transkribierten Zitaten und der Zusammenfassung lassen sich direkt Postingvarianten generieren. LinkedIn-Post mit Hauptthese, Twitter/X-Thread mit drei Punkten, Instagram-Caption für das Audiogram.
Das spart nicht nur Schreibzeit. Es spart auch die Entscheidungsarbeit: Was poste ich überhaupt? Das Modell schlägt vor, du wählst aus oder passt an.
Achte darauf, KI-generierte Social-Media-Posts noch einmal mit deiner eigenen Stimme zu überarbeiten. Wer dich kennt, merkt sofort, wenn ein Post nicht klingt wie du. Rohling ja — Copy-Paste nein.
Schritt 4: Newsletter-Teaser
Der Teaser für deinen Newsletter ist oft die letzte Aufgabe — und eine, bei der der Kreativitätstank nach einer Produktion leer ist.
Hier hilft ein einfacher Prompt: “Schreib einen Newsletter-Teaser für diese Episode. Zielgruppe: [Beschreibung]. Ton: [Beschreibung]. Maximal 150 Wörter. Enden mit einem Klick-Anreiz.”
Das Ergebnis ist kein Meisterwerk, aber ein brauchbarer Ausgangspunkt, den du in fünf Minuten in Eigensprache umformst.
Was KI nicht gut kann
Ehrlichkeit ist hier wichtig, damit die Erwartungen stimmen.
Starke Akzente bereiten Whisper und anderen Systemen noch Probleme. Ein Interview mit jemandem mit ausgeprägtem bayerischen oder österreichischen Akzent, starkem Berliner Dialekt oder Deutsch als Zweitsprache produziert messbar mehr Fehler. Das Transkript muss dann sorgfältiger geprüft werden.
Fachvokabular wird oft falsch geschrieben oder ersetzt. “DSGVO” wird zu “des geworbenen”, Produktnamen werden verkürzt, technische Abkürzungen landen als Fantasiewörter im Text. Ein Glossar der wichtigsten Begriffe hilft Whisper und anderen Modellen, wenn du ein Fine-tuning oder eine lokale Konfiguration nutzt.
Mehr-Personen-Gespräche mit ähnlichen Stimmen werden nicht immer sauber getrennt. Speaker Diarization — also die Zuweisung von Gesprächsabschnitten zu einzelnen Personen — funktioniert bei zwei Sprechern gut, bei vier oder mehr lückenhaft.
Das heißt nicht, dass KI-Transkription nutzlos ist. Es heißt, dass du noch liest. Nur viel kürzer als vorher.
Kosten und Zeitersparnis
Whisper lokal: kostenlos. Rechenzeit auf einem modernen MacBook: 3–5 Minuten pro Stunde Audio.
Descript: ab etwa 12 Euro/Monat für Einzelnutzer. Castmagic: ähnliche Preisklasse, stärker auf automatische Content-Generierung ausgerichtet.
Für die KI-gestützte Textgenerierung (Shownotes, Social Posts, Newsletter): ein Abo für Claude Pro oder ChatGPT Plus liegt bei 20–25 Euro/Monat und reicht für mehrere Podcasts.
Gesamtinvestition für einen vollständigen Workflow: unter 50 Euro/Monat. Zeitersparnis pro Episode: erfahrungsgemäß zwei bis drei Stunden. Bei wöchentlichem Erscheinen sind das über 100 Stunden im Jahr.
Wie solche KI-Werkzeuge im Unternehmenskontext bewertet und eingeführt werden, beschreibt der Artikel KI einführen ohne zu scheitern. Wie automatische Transkription im professionellen Medienumfeld eingesetzt wird, zeigt der Anwendungsfall Automatisierte Transkription in Medienunternehmen.
Datenschutz bei Audio-Uploads
Ein Hinweis, der oft übersehen wird: Wenn du Interviews mit Gästen aufnimmst und das Audio in eine Cloud-Anwendung hochlädst, verarbeitest du personenbezogene Daten. Stimme ist ein biometrisches Merkmal im Sinne der DSGVO.
Whisper lokal gelöst: kein Problem. Für Cloud-Dienste gilt: Prüf, ob der Anbieter einen Datenverarbeitungsvertrag (DPA) anbietet, wo die Server stehen und ob Audiodaten zu Trainingszwecken genutzt werden.
Informiere deine Gäste vor der Aufnahme, welche Tools du nutzt. Ein Satz reicht: “Die Bearbeitung der Episode läuft über [Tool], das die Audiodatei verarbeitet.” Das ist kein Hexenwerk — aber es ist deine Pflicht.
Dein Workflow morgen früh
Du brauchst kein ausgeklügeltes System, um anzufangen. Lade Whisper lokal herunter oder erstell einen kostenlosen Descript-Account. Transkribiere deine nächste Episode. Kopiere das Ergebnis in Claude oder ChatGPT und bitte um Shownotes.
Schau, was herauskommt. Überarbeite es. Vergleiche den Aufwand mit dem, was du vorher gemacht hast.
Wenn es dir Zeit spart — was es wird — verfeinere von dort aus. Prompt anpassen, Tools konsolidieren, Workflow dokumentieren.
Post-Production ist die unbeliebteste Seite des Podcastens. Sie muss es nicht bleiben.
Alle Tools, die in diesem Artikel erwähnt werden und mehr, findest du in der KI-Tools-Übersicht.
Du willst keine Ausgabe verpassen? Melde dich für den Newsletter an.