Automatisierte Transkription
KI transkribiert Interviews und O-Töne in Minuten statt Stunden.
Das Problem
Manuelle Transkription kostet Journalisten Stunden pro Interview.
Die Lösung
KI transkribiert Audio und Video mit hoher Genauigkeit und erstellt durchsuchbare Transkripte.
Der Nutzen
90% weniger Transkriptionszeit, mehr Zeit für Analyse und Schreiben.
Produktansatz
Whisper API oder vergleichbare Speech-to-Text-Lösung mit Sprecherdiarisierung.
Das echte Ausmaß des Problems
Eine Faustregel im Journalismus: Manuelle Transkription dauert das Vier- bis Sechsfache der Aufnahmelänge. Ein 45-minütiges Interview kostet also drei bis viereinhalb Stunden Transkriptionsarbeit — bevor der erste Satz des Artikels geschrieben ist. Wer regelmäßig Interviews führt, verbringt damit leicht 30 bis 40 Prozent der Gesamtarbeitszeit an einem Artikel nur mit Abtippen.
Das ist nicht nur ein Zeitproblem. Transkription ist eine mechanische Tätigkeit, die mentale Energie bindet und nach der Sitzung oft einen gewissen “kognitiven Kater” hinterlässt — die eigentliche analytische Arbeit am Interview fällt danach schwerer. Journalisten, die viel transkribieren, berichten häufig, dass sie Interviews weniger gründlich analysieren, weil nach vier Stunden Tippen die Energie fehlt.
Für kleine Redaktionen und freie Journalisten, die vielleicht zwei bis drei Interviews pro Woche führen, summiert sich das auf 6 bis 12 Stunden reiner Transkriptionsarbeit — bei oft 35-Stunden-Wochen ein erheblicher Anteil. Dieser Aufwand ist seit Jahren bekannt und wurde bislang nur mit externem Transkriptionsservice gelöst — zu Kosten von 1 bis 1,50 Euro pro Minute, also 45 bis 67 Euro für ein 45-Minuten-Interview, mit Lieferzeiten von einem bis zwei Werktagen.
So funktioniert es in der Praxis
Schritt 1 — Audiodatei aufbereiten: Die Qualität des Transkripts hängt direkt von der Audioqualität ab. Ein Interview mit Hintergrundrauschen oder schlechter Verbindung liefert schlechtere Ergebnisse als ein sauber aufgezeichnetes Gespräch. Investiere in ein einfaches externes Mikrofon (40–80 Euro) — das verbessert die KI-Transkriptionsqualität erheblich und ist die sinnvollste Vorarbeit.
Schritt 2 — Tool auswählen und Datei hochladen: Für deutschsprachige Interviews gibt es mehrere gute Optionen (dazu gleich mehr). Du lädst die Audiodatei hoch — bei den meisten Tools bis 500 MB oder 120 Minuten im Standardplan — und bekommst innerhalb von Minuten das Transkript zurück.
Schritt 3 — Transkript prüfen und nachbearbeiten: KI-Transkripte haben eine Genauigkeit von 85 bis 95 Prozent für klares Deutsch. Bei Fachbegriffen, Eigennamen, Dialekt oder schlechter Audioqualität sinkt die Genauigkeit. Die Nachbearbeitung eines 45-minütigen Interviews dauert statt vier Stunden manuell nun 20 bis 35 Minuten — du liest mit dem Audio mit und korrigierst Fehler.
Schritt 4 — Transkript für Analyse nutzen: Das fertige Transkript kannst du in Claude oder ChatGPT laden und auswerten lassen: “Welche Kernthesen hat der Interviewpartner genannt? Welche Widersprüche gibt es zwischen seinen Aussagen?” Das beschleunigt die inhaltliche Analyse erheblich.
Welche Tools passen hierzu
Whisper (OpenAI) ist das technische Fundament vieler Transkriptionstools — eine der leistungsstärksten frei verfügbaren Speech-to-Text-Lösungen mit exzellenter Deutsch-Unterstützung. Direkt nutzbar über die OpenAI API für 0,006 Euro pro Minute — ein 45-Minuten-Interview kostet also ca. 0,27 Euro. Für technisch versierte Nutzer oder Redaktionen mit höherem Volumen ist das der günstigste Weg.
Otter.ai ist eine benutzerfreundliche Oberfläche für automatische Transkription mit Sprecherdiarisierung (wer hat wann gesprochen) und Zusammenfassungsfunktion. Englisch sehr stark, Deutsch ebenfalls gut. Kostenloser Plan für 300 Minuten/Monat, Pro-Plan für ca. 10 Euro/Monat. Für regelmäßige Interview-Transkription gut geeignet.
Fireflies.ai fokussiert auf Meeting-Transkription, funktioniert aber auch für Interview-Aufzeichnungen. Stärke: Es erstellt automatisch Zusammenfassungen, Action Items und durchsuchbare Transkripte. Kostenloser Plan verfügbar.
Claude als Analyseschicht nach der Transkription: Transkript reinkopieren, Fragen stellen, Kernaussagen extrahieren lassen. Das ist kein Transkriptionstool, aber ein starker Ergänzungsschritt für die inhaltliche Auswertung.
Was es kostet — realistisch gerechnet
Kostenloser Einstieg:
- Otter.ai kostenlos: 300 Minuten/Monat — bei 3–4 Interviews à 45 Minuten gerade knapp ausreichend
- Zeitersparnis: sofort spürbar, erste Transkription in Minuten statt Stunden
Professioneller Ansatz (freie Journalisten oder kleine Redaktionen):
- Otter.ai Pro: ca. 10 Euro/Monat — unlimitiert
- Claude Pro: 18 Euro/Monat für Analyseunterstützung
- Gesamt: ca. 28 Euro/Monat
ROI-Rechnung am Beispiel: Freie Journalistin, 3 Interviews à 45 Minuten pro Woche. Bisher: ca. 9 Stunden Transkriptionszeit pro Woche. Mit KI: ca. 1,5 Stunden Nachbearbeitung. Ersparnis: 7,5 Stunden/Woche. Bei einem Stundensatz von 45 Euro sind das 337 Euro/Woche an Zeitwert — für 10 Euro Toolkosten pro Monat. Wer diesen Vergleich einmal aufmacht, wundert sich, warum er nicht schon früher gewechselt hat.
Realistischer Zeitplan
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Tool-Auswahl und Erstnutzung | Tag 1–3 | Otter.ai oder Whisper ausprobieren, erstes Interview hochladen | Enttäuschung bei erstem Test mit schlechter Audioqualität |
| Workflow einschleifen | Woche 1–2 | Festen Ablauf entwickeln: Aufnahme → Upload → Prüfung → Analyse | Kein fester Ablauf — jedes Interview wird anders behandelt |
| Qualitätsoptimierung | Woche 2–4 | Audiosetup verbessern (Mikrofon), Prüfzeit reduzieren, Analyse-Prompts verfeinern | Zu viel Zeit in Nachbearbeitung — Qualität der Aufnahme ist der Hebel |
| Routine | Ab Monat 2 | Transkription ist kein Thema mehr — läuft einfach | Keine Investition in Audioqualität, Prüfzeit bleibt hoch |
Häufige Einwände
„Für Interviews auf Deutsch funktioniert das doch gar nicht gut.” Das war vor zwei Jahren noch eine berechtigte Sorge. Whisper und die darauf aufbauenden Tools haben sich seitdem erheblich verbessert. Klares Standarddeutsch wird mit 90 bis 95 Prozent Genauigkeit transkribiert — was bedeutet, du musst pro Minute etwa zwei bis vier Wörter korrigieren statt von Null zu tippen. Dialekt und starke Akzente liegen niedriger, aber selbst dort ist die Zeitersparnis erheblich.
„Vertrauliche Interviews kann ich nicht in Cloud-Tools hochladen.” Das ist eine berechtigte Datenschutzüberlegung. Für sensibles Material gibt es zwei Optionen: erstens On-Premise-Lösungen, bei denen die Audio-Dateien das eigene System nicht verlassen (technisch aufwendiger, aber möglich), oder zweitens anonymisierte Aufnahmen — wenn du den Interviewpartner vorher fragst, ob eine Cloud-Verarbeitung okay ist. Für Hintergrundgespräche ohne Namensnennung ist das oft kein Problem. Die meisten Redaktionen trennen: Standard-Interviews über Cloud, sensible Quellen über lokale Lösungen.
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
KI-gestützte Recherche
KI durchsucht Quellen und aggregiert relevante Informationen für Journalisten.
Mehr erfahrenSEO-Optimierung Redaktion
KI optimiert Artikel-Überschriften und Metatexte für Suchmaschinen.
Mehr erfahrenContent-Personalisierung Digital
KI zeigt jedem Leser die für ihn relevantesten Artikel.
Mehr erfahren