Zum Inhalt springen
Kostenlos 🇩🇪 Deutschsprachig 🇺🇸 US-Server Geprüft: April 2026

Whisper

OpenAI

4/5
Tool öffnen

OpenAIs Open-Source-Spracherkennungsmodell transkribiert Audio und Video in über 90 Sprachen — Deutsch mit sehr hoher Qualität, auch bei Dialekten und Fachsprache. Lokal betrieben vollständig kostenlos und DSGVO-konform; für Nicht-Entwickler ungeeignet.

Kosten: Open-Source und kostenlos bei lokalem Betrieb; OpenAI API: 0,006 USD/Minute (0,36 USD/Stunde); GPT-4o Mini Transcribe: 0,003 USD/Minute

Stärken

  • Hervorragende Deutsch-Transkription auch bei Dialekten, Akzenten und Fachvokabular
  • Open-Source und kostenlos — keine Lizenzkosten bei lokalem Betrieb
  • Datenschutzkonform durch lokale Ausführung ohne Cloud-Verbindung
  • Unterstützt über 90 Sprachen mit automatischer Spracherkennung
  • Flexible Modellgrößen von tiny (schnell, weniger akkurat) bis large (langsam, top Qualität)

Einschränkungen

  • Erfordert Python-Kenntnisse und technisches Setup — keine Benutzeroberfläche
  • Auf CPU sehr langsam: 1 Stunde Audio kann Stunden dauern ohne GPU
  • Kein Echtzeit-Streaming — Whisper verarbeitet Dateien, keine Live-Aufnahmen
  • Keine eingebaute Sprechertrennung (Diarization) — muss separat integriert werden
  • Halluzinationen bei sehr schlechter Audioqualität oder langen Stille-Passagen

Passt gut zu

Entwickler Datenschutzkritische Unternehmen Marktforschung Medienproduktion Batch-Transkription

Wann ja, wann nein

Wann ja

  • Du willst große Mengen Audio kostenlos und datenschutzkonform transkribieren
  • Du baust eine eigene Applikation und brauchst Transkription als Basisfunktion
  • Dein Team hat technisches Know-how und eine GPU-Infrastruktur
  • Du verarbeitest vertrauliche Aufnahmen und willst keine Cloud-Übertragung

Wann nein

  • Du brauchst Meeting-Transkription ohne technisches Setup
  • Du willst Live-Echtzeit-Transkription während Videokonferenzen
  • Du hast kein Python-Wissen und keinen Entwickler im Team
  • Du brauchst eine fertige App mit Oberfläche, Export und Teilen-Funktion

Kurzfazit

Whisper ist das beste frei verfügbare Spracherkennungsmodell für Deutsch — mit einer entscheidenden Einschränkung: Es ist ein Werkzeug für Entwickler, keine App. Wer Whisper nutzen will, braucht Python, eine Kommandozeile und idealerweise eine GPU. Wer das mitbringt, bekommt dafür Transkriptionsqualität auf kommerziellem Niveau, vollständige Datenkontrolle und null laufende Kosten. Für alle anderen gibt es bessere Optionen.

Für wen ist Whisper?

Entwickler und technische Teams: Whisper ist die erste Wahl, wenn Transkription als Funktion in eine eigene Anwendung eingebaut werden soll. Die Python-API ist klar dokumentiert, die Modelle frei verfügbar. In wenigen Zeilen Code können Audiodateien jeder Länge verarbeitet werden.

Unternehmen mit hohen Datenschutzanforderungen: Kanzleien, Arztpraxen, Marktforschungsinstitute — wer vertrauliche Gespräche transkribiert und keine Audiodaten an US-Server übermitteln darf, findet in Whisper die einzige praktikable Open-Source-Alternative zu kommerziellen Diensten.

Medienproduktion und Broadcast: Produktionshäuser, Podcaster und Videoplattformen, die regelmäßig große Mengen Audio verarbeiten, profitieren von Whispers Batch-Verarbeitung. Ein GPU-Server amortisiert sich gegenüber kommerziellen APIs schnell.

Forschung und Wissenschaft: Akademiker, die Interview-Korpora transkribieren oder Sprachmodelle feinabstimmen wollen, nutzen Whisper als Grundlage — auch wegen der offenen Lizenz (MIT).

Weniger geeignet für: Teams ohne Entwickler, Unternehmen die eine fertige Lösung mit Oberfläche brauchen, und alle, die Live-Transkription in Videokonferenzen benötigen. Hierfür gibt es spezialisierte Tools wie Otter.ai oder Fireflies.ai.

Preise im Detail

OptionKostenWas du bekommst
Lokal (Open Source)0 €Vollständiges Modell, keine API-Limits, keine Cloud, eigene Hardware nötig
OpenAI API (whisper-1)0,006 USD/MinuteManaged Inference, keine GPU nötig, Daten auf US-Servern
OpenAI API (GPT-4o Mini Transcribe)0,003 USD/MinuteGünstigere Alternative mit vergleichbarer Qualität
GPT-4o Transcribe0,006 USD/MinuteNeueres Modell, höhere Genauigkeit bei schwierigen Aufnahmen
Drittanbieter-APIs0,001–0,004 USD/MinuteGünstigere Whisper-Hosting-Dienste (z.B. Replicate, Groq)

Einordnung: Für gelegentliche Transkription über die OpenAI API sind die Kosten vernachlässigbar — 100 Stunden Audio kosten ca. 36 USD. Bei regelmäßigen großen Volumen (>500 Stunden/Monat) lohnt sich eine eigene GPU-Instanz: Eine NVIDIA A10G (ca. 800 EUR/Monat auf AWS) verarbeitet 1 Stunde Audio in ca. 3 Minuten und ist ab einem gewissen Volumen günstiger als die API.

Stärken im Detail

Deutsch-Qualität ist klasse branchenführend. Whisper wurde auf 680.000 Stunden multilingualer Audiodaten trainiert, davon ein substanzieller Anteil deutschsprachig. In internen und externen Benchmarks schlägt es kommerzielle Dienste bei deutschen Aufnahmen mit Akzenten, Fachvokabular oder Hintergrundgeräuschen. Das Ergebnis: Weniger Nachbearbeitungszeit als bei vergleichbaren Tools.

Open-Source bedeutet vollständige Kontrolle. Der Quellcode ist unter MIT-Lizenz veröffentlicht, die Modellgewichte frei herunterladbar. Du kannst Whisper ohne Internetverbindung betreiben, auf eigener Hardware deployen, fine-tunen und kommerziell nutzen — ohne Lizenzgebühren oder Nutzungsbeschränkungen.

Modellgrößen für jeden Anwendungsfall. Von tiny (39M Parameter, läuft auf einem Laptop) bis large-v3 (1,5B Parameter, beste Qualität) gibt es fünf Modellvarianten. Für Batch-Verarbeitung auf einem Server ist medium oder large die richtige Wahl; für Echtzeit-ähnliche Anwendungen auf eingeschränkter Hardware small oder base.

Automatische Sprachkennung und Übersetzung. Whisper erkennt die Sprache einer Aufnahme automatisch und kann direkt ins Englische übersetzen — nützlich für internationale Teams, die mehrsprachige Aufnahmen verarbeiten, ohne für jede Sprache ein eigenes Modell zu betreiben.

Schwächen ehrlich betrachtet

Kein Setup ohne Python-Kenntnisse. Es gibt keine offizielle Benutzeroberfläche. Die Installation (pip install openai-whisper) und Nutzung über die Kommandozeile sind für nicht-technische Nutzer unzumutbar. Inoffizielle GUI-Apps existieren (Whisper Desktop, MacWhisper), sind aber Drittanbieter-Projekte mit eigenem Support-Aufwand.

Lokaler Betrieb braucht eine GPU. Auf einem modernen MacBook M3 dauert die Transkription einer 1-stündigen Aufnahme mit dem large-Modell ca. 15–20 Minuten — akzeptabel für gelegentliche Nutzung, untauglich für Produktivbetrieb. Ohne dedizierte GPU oder Cloud-API wird Whisper zum Bottleneck.

Kein Echtzeit-Streaming. Whisper arbeitet auf vollständigen Audiodateien und kann keine laufenden Audio-Streams verarbeiten. Für Live-Untertitel oder Echtzeit-Protokollierung während Meetings braucht man zusätzliche Infrastruktur (z.B. das Paket faster-whisper mit Chunking-Logik).

Halluzinationen bei schlechter Qualität. Bei sehr rauscharmen Passagen, langen Stille-Abschnitten oder stark verzerrtem Audio neigt Whisper dazu, Texte zu erfinden, die im Original nicht gesprochen wurden. Das ist bekannt und dokumentiert — bei qualitätskritischen Transkriptionen sollte immer eine Plausibilitätsprüfung stattfinden.

Alternativen im Vergleich

Wenn du……nimm stattdessen
Meeting-Transkription ohne technisches Setup willstOtter.ai oder Fireflies.ai
Medizinische Diktate in Deutschland transkribieren willstDragon Medical
Podcasts und Videos mit fertiger App schneiden und transkribieren willstDescript
Auf der OpenAI-Infrastruktur bleiben, aber mehr Kontrolle willstAzure ML mit Whisper-Deployment

Whisper ist kein Fertigprodukt — es ist eine Technologie. Wer eine Anwendung baut oder Datenverarbeitungs-Pipelines betreibt, findet hier die beste Open-Source-Basis. Wer eine fertige Lösung braucht, ist besser bei spezialisierten Tools aufgehoben.

So steigst du ein

Schritt 1: Installiere Whisper via pip: pip install openai-whisper. Transkribiere eine erste Audiodatei mit einem Befehl: whisper audio.mp3 --language de --model medium. Das Modell wird beim ersten Aufruf automatisch heruntergeladen (ca. 1,5 GB für medium). Für beste Qualität bei deutschen Aufnahmen empfiehlt sich medium oder large-v3.

Schritt 2: Integriere Whisper in deinen Python-Workflow: Lade das Modell einmalig (model = whisper.load_model("medium")), dann kannst du Dateien in einer Schleife verarbeiten und erhältst Transkriptionen als Text mit Zeitstempeln — direkt verwendbar für automatische Protokolle, Untertitel (SRT/VTT) oder Volltext-Suche in Audio-Archiven.

Schritt 3: Für datenschutzsensible Umgebungen installiere Whisper auf einem eigenen Server ohne Internetverbindung. Nutze faster-whisper (Drittanbieter-Reimplementierung) statt des Original-Pakets — es ist 2–4x schneller bei gleichem Speicherverbrauch. Eine NVIDIA A10G GPU verarbeitet 1 Stunde Audio in ca. 3 Minuten, was 200 Stunden/Monat in einem Arbeitstag erlaubt.

Ein konkretes Beispiel

Ein Münchner Marktforschungsinstitut transkribiert monatlich 200 Stunden Interviewaufnahmen mit deutschen Teilnehmern. Bisher wurden externe Transkriptionsdienste für ca. 1,20 EUR/Minute genutzt — monatlich 14.400 EUR. Mit Whisper auf einem gemieteten GPU-Server (ca. 800 EUR/Monat) werden dieselben 200 Stunden in unter 12 Stunden verarbeitet. Alle Audiodaten bleiben im eigenen Netzwerk — ein zentrales Datenschutzargument für die Klienten des Instituts, von denen mehrere dem Berufsgeheimnis unterliegen. Die Kosteneinsparung liegt bei über 160.000 EUR pro Jahr. Der einmalige Integrationsaufwand betrug ca. 3 Entwicklertage.

DSGVO & Datenschutz

  • Lokaler Betrieb: Vollständig DSGVO-konform — keine Datenübertragung, keine Cloud, keine Drittparteien. Ideal für besonders sensible Aufnahmen (Arzt-Patienten-Gespräche, anwaltliche Mandate).
  • OpenAI API: Daten werden auf US-Servern verarbeitet. Kein AVV für Standardpläne; für Enterprise auf Anfrage verfügbar. Für DSGVO-kritische Anwendungen ungeeignet ohne Rechtsgrundlage.
  • Datennutzung: OpenAI nutzt API-Daten laut aktuellen Nutzungsbedingungen nicht für Modelltraining; lokale Nutzung schließt das technisch aus.
  • Empfehlung: Für Unternehmen mit Datenschutzpflichten (Gesundheit, Recht, Finanzen) den lokalen Betrieb wählen. Die Einrichtung dauert einen Tag — und schützt dauerhaft vor Datentransfer-Risiken.
  • Auftragsverarbeitung: Lokal kein AVV nötig. Bei OpenAI API: AVV über die Enterprise-Vereinbarung oder den Data Processing Addendum (DPA) von OpenAI abschließen.

Gut kombiniert mit

  • Fireflies.ai — Fireflies.ai für automatische Meeting-Transkription ohne Setup; Whisper für programmatische Batch-Verarbeitung und datenschutzkritische Aufnahmen — komplementäre Einsatzgebiete
  • Notion AI — Whisper-Transkriptionen als Basis: Audio transkribieren, Transkript in Notion einfügen, dort per Notion AI zusammenfassen und in durchsuchbares Wiki-Wissen verwandeln
  • Make.com — Automatisierungspipelines: Neue Audiodatei in Dropbox → Whisper-API → Transkript in Google Docs speichern → Team per Slack benachrichtigen, ohne eine Zeile Code zu schreiben

Unser Testurteil

Whisper verdient 4 von 5 Sternen. Die Transkriptionsqualität für Deutsch ist herausragend — besser als viele kommerzielle Dienste, und das kostenlos. Den fünften Stern verhindert die fehlende Benutzerfreundlichkeit: Wer kein Python kann, kann Whisper nicht nutzen. Für Entwickler und technische Teams, die Transkription als Basistechnologie brauchen, ist Whisper schlicht das beste verfügbare Werkzeug.

Was wir bemerkt haben

  • November 2023 — OpenAI veröffentlichte Whisper large-v3 mit deutlich verbesserter Genauigkeit, besonders für Nicht-Englisch-Sprachen wie Deutsch. Das Modell ist auf Hugging Face frei verfügbar.
  • März 2024 — OpenAI stellte zwei neue API-Transkriptionsmodelle vor: GPT-4o Transcribe (höchste Qualität, 0,006 USD/Minute) und GPT-4o Mini Transcribe (günstiger, 0,003 USD/Minute). Das klassische Whisper-API-Modell bleibt weiterhin verfügbar.
  • Laufend — Lokaler Betrieb bleibt vollständig kostenlos und ist für datenschutzsensible Anwendungen die empfohlene Option; die OpenAI-API speichert Audiodaten vorübergehend auf US-Servern.

Diesen Inhalt teilen:

Empfohlen in 48 Use Cases

+ 31 weitere Use Cases in 22 Branchen anzeigen

Redaktionell bewertet · Preise und Funktionen können sich ändern.

Stimmt etwas nicht?

Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Nicht sicher, ob Whisper zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen
Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar