Bezahlt 🇩🇪 Deutschsprachig 🇪🇺 EU-Server Zuletzt geprüft: Juni 2026

Deepgram

Deepgram Inc.

4/5

Deepgram ist eine Sprach-KI-[API](/glossar/#api) für Unternehmen, die Transkription, Sprechertrennung, Text-to-Speech und Echtzeit-Voice-Agents in eigene Anwendungen einbauen wollen. Das Flaggschiff Nova-3 liefert Transkripte in unter 300 ms, Industry-Tuned-Varianten für Healthcare, Legal und Finance sind verfügbar. EU-Endpoint und Self-Hosted-Deployment für strikte DSGVO-Anforderungen sind buchbar. Kunden reichen von Spotify und NASA bis zu mittelständischen Voice-AI-Startups.

Kosten: 200 USD Startkredit kostenlos; Pay-as-you-go: Nova-3 Pre-Recorded 0,0077 USD/Min, Streaming 0,0048 USD/Min, Multilingual 0,0092/0,0058 USD/Min; Growth-Plan ab 4.000 USD/Jahr mit bis zu 20 % Rabatt; Aura-2 TTS 0,030 USD/1.000 Zeichen; Voice Agent API 0,075 USD/Min (Standard) bis 0,163 USD/Min (Advanced); Enterprise und Self-Hosted auf Anfrage.

Kategorien

Transkription & Meetings API

Stärken

Nova-3 als state-of-the-art Modell mit Latenz unter 300 ms und industriespezifischen Tunings (Healthcare, Legal)
Voll API-getrieben: Echtzeit-Streaming und Batch-Transkription aus einer Schnittstelle
EU-Endpoint verfügbar, Datenverarbeitung innerhalb der EU-Rechtsgrenze
Self-Hosted-Deployment für On-Premises und Air-Gapped-Umgebungen
Aura-2 TTS und Voice Agent API runden die Plattform zu einem vollständigen Voice-AI-Stack ab
HIPAA, SOC 2 Type II und DSGVO-konform; DPA mit Standardvertragsklauseln verfügbar
Sprechertrennung, Keyterm-Prompting (+90 % Keyword-Recall), Redaction und Konfidenz-Scores je Wort

Einschränkungen

Erfordert Entwickler-Integration, keine Benutzeroberfläche für Endanwender
EU-Endpoint nicht für alle Modelle und Regionen sofort verfügbar, teilweise Waitlist
Self-Hosted benötigt eigene GPU-Infrastruktur und DevOps-Know-how (containerisiert via Kubernetes)
Keine eingebaute Qualitätsprüfung oder strukturierte Extraktion, muss nachgelagert aufgebaut werden
Deutsche Transkription gut, aber für Fachterminologie (Recht, Medizin DE) schwächer als englischsprachige Industry-Modelle
Growth-Plan ab 4.000 USD/Jahr ist eine reale Hürde für kleine Teams

Passt gut zu

Medizintechnik-Unternehmen mit Hotline-Dokumentationspflicht nach MDR Entwicklerteams, die Transkription in QM-Systeme, CRM oder Voice-Agents integrieren Datenschutzkritische Branchen (Gesundheit, Recht, Pharma) Voice-AI-Startups, die Latenz und Skalierbarkeit brauchen

Kurzfazit

Deepgram ist die API-First-Referenz für Sprach-KI im Enterprise-Segment. Wo Whisper Open-Source und do-it-yourself ist, liefert Deepgram fertige Streaming-Latenz unter 300 ms, Industry-Tunings für Healthcare und Legal sowie eine vollständige Voice-AI-Plattform inklusive Text-to-Speech (Aura-2) und Voice-Agent-Orchestrierung. Für Entwicklerteams, die Spracherkennung skalierbar und mit klaren Compliance-Garantien einbinden müssen, ist Deepgram der pragmatischste Weg, schneller als Self-Hosting, robuster als Konsumenten-APIs. Schwächen: Es ist eine reine API (keine UI für Endanwender), der EU-Endpoint ist teilweise auf Warteliste, und das Pricing der höheren Voice-Agent-Stufen kann bei Skalierung beachtlich werden. Für DSGVO-strenge Anwendungen ist Deepgram trotzdem eine der besten Optionen im Markt.

Für wen ist Deepgram?

Entwicklerteams in der Medizintechnik: Wer nach MDR Service-Calls dokumentieren oder Hotlinegespräche auf Vigilanzfälle prüfen muss, bekommt mit Nova-3 (perspektivisch auch mit dem Healthcare-Industry-Tuning) eine fachsprachlich gut funktionierende Transkriptionsbasis. In Kombination mit dem EU-Endpoint oder Self-Hosted-Deployment lässt sich der Workflow DSGVO-konform aufbauen.

Voice-AI-Startups und Plattform-Anbieter: Deepgrams Voice Agent API kombiniert Speech-to-Text (Nova-3 oder das neue Flux-Modell), LLM-Orchestrierung und Text-to-Speech (Aura-2) in einer Schnittstelle. Für Teams, die einen Voice-Agent bauen wollen, ist das deutlich schneller als ein Custom-Stack aus Whisper + GPT + ElevenLabs, bei vergleichbarer Qualität und einheitlicher Latenzkontrolle.

Customer-Support-Plattformen: Echtzeit-Transkription von Support-Calls für Qualitätssicherung, Compliance-Aufzeichnungen und nachgelagerte Sentiment-Analyse. Die Sprechertrennung (Diarization) ordnet Aussagen zuverlässig Agent oder Kunde zu, Redaction entfernt sensible Daten (Kreditkarten, PII) automatisch aus dem Transkript.

Legal-Tech und Compliance: Anwaltskanzleien und Compliance-Abteilungen, die Audio- und Video-Aufnahmen prozessieren (Vernehmungen, Sitzungsmitschnitte, Telefonate), bekommen mit Deepgram eine API, die Sprechertrennung, Zeitstempel und Konfidenz-Scores liefert, die Basis für jeden auditfähigen Transkriptionsprozess.

Produktteams, die Transcription-Features einbauen: Notizen-Apps, Meeting-Tools, Podcast-Plattformen oder Lernsoftware integrieren Deepgram als Backend für ihre Transkriptionsfunktion. Die Skalierbarkeit (Hunderte von parallelen Streams ohne aufwendiges Tuning) ist hier der entscheidende Vorteil gegenüber Selbstbetrieb.

Weniger geeignet für: Endanwender, die nur gelegentlich Meetings transkribieren wollen (dafür ist oder mit fertiger UI gedacht), Teams ohne Entwickler-Ressourcen, kleine Budgets unter 50–100 USD/Monat (Whisper Self-Hosted ist dann oft günstiger) und reine Studio-Anwendungen für Voiceover (dafür ist auf Stimmenqualität spezialisierter).

Preise im Detail

Modell / Plan	Preis (Pay-as-you-go)	Growth (ab 4.000 USD/Jahr)	Anmerkung
Nova-3 Pre-Recorded (monolingual)	0,0077 USD/Min	0,0065 USD/Min	Batch-Transkription, höchste Genauigkeit
Nova-3 Streaming (monolingual)	0,0048 USD/Min	0,0042 USD/Min	Echtzeit, Latenz unter 300 ms
Nova-3 Pre-Recorded Multilingual	0,0092 USD/Min	0,0078 USD/Min	Inkl. automatischer Spracherkennung
Nova-3 Streaming Multilingual	0,0058 USD/Min	0,0050 USD/Min	Echtzeit, mehrsprachig
Aura-2 (TTS)	0,030 USD/1.000 Zeichen	0,027 USD/1.000 Zeichen	Premium-Stimmen
Aura-1 (TTS)	0,015 USD/1.000 Zeichen	0,0135 USD/1.000 Zeichen	Basis-Stimmen
Voice Agent API	0,075 USD/Min (Standard), 0,163 USD/Min (Advanced)	0,068 / 0,146 USD/Min	Orchestrierter Voice-Agent-Stack, abgerechnet über die WebSocket-Verbindungszeit
Self-Hosted / Enterprise	Auf Anfrage	-	On-Premises, Air-Gapped, setzt Enterprise-Plan-Vertrag voraus

Einordnung: Das 200-USD-Startkredit reicht für rund 26.000 Minuten Nova-3-Pre-Recorded-Transkription, also realistische 4–6 Wochen Test mit produktivem Volumen. Bei industriellem Nutzen (z. B. 600 Calls × 12 Minuten/Monat = 7.200 Minuten) kostet die reine Transkription etwa 55 USD. Der Sprung zum Growth-Plan lohnt sich rechnerisch ab etwa 50.000 USD Pay-as-you-go-Volumen pro Jahr, also rund 4.500 USD/Monat Verbrauch, bis dahin ist Pay-as-you-go meist sinnvoller. Self-Hosted lohnt sich erst bei sehr großen Volumina oder bei Compliance-Anforderungen, die Cloud-APIs grundsätzlich ausschließen. Die Voice Agent API ist deutlich teurer, weil sie LLM-Inferenz und TTS einbezieht, hier sollten Teams die Kosten pro Conversation kalkulieren, nicht pro Minute.

Stärken im Detail

Nova-3 als state-of-the-art Modell. Deepgrams aktuelle Modellgeneration liefert in unabhängigen Tests eine Word Error Rate, die mit OpenAI Whisper Large v3 und AssemblyAI Universal-2 wettbewerbsfähig ist, bei deutlich besserer Streaming-Latenz (unter 300 ms gegenüber 1–3 Sekunden bei reinen Batch-orientierten Alternativen). Die Industry-Tunings für Healthcare, Legal und Finance heben die Fachterminologie-Erkennung in englischsprachigen Anwendungen messbar an. Für deutschsprachige Fachdomänen ist die Verbesserung weniger ausgeprägt, aber spürbar.

Voll API-getrieben mit klarer Architektur. Deepgram trennt sauber zwischen Pre-Recorded (Batch via POST) und Streaming (WebSocket). Die Parameter sind dokumentiert und stabil: Diarization, Punctuation, Smart Formatting, Redaction, Keyterm-Prompting, Konfidenz-Scores. Wer eine Voice-Pipeline baut, hat in 30 Minuten den ersten POC laufen, das ist im Enterprise-API-Markt nicht selbstverständlich.

EU-Endpoint und Self-Hosted für Compliance. Deepgram bietet einen EU-Region-Endpoint, der Daten ausschließlich in europäischen Rechenzentren verarbeitet, wichtig für DSGVO-strenge Branchen. Self-Hosted-Deployment via Container (Kubernetes/Docker) erlaubt es, die Modelle komplett im eigenen Rechenzentrum laufen zu lassen, bis hin zu Air-Gapped-Umgebungen für Verteidigung, Pharma oder kritische Infrastrukturen. Diese Bandbreite an Deployment-Optionen ist im Sprach-KI-Markt eine Seltenheit.

Voice Agent API als vollständiger Stack. Statt Speech-to-Text, LLM und Text-to-Speech aus drei verschiedenen Anbietern zusammenzubauen, liefert Deepgram die Voice Agent API als orchestrierte Lösung. Latenzkontrolle, Interrupt-Handling (der Agent merkt, wenn der Anrufer einsteigt), Turn-Taking-Logik, alles im selben System. Für Teams, die einen Voice-Agent in Wochen statt Monaten produktiv haben wollen, ist das ein realer Beschleuniger.

Keyterm-Prompting für Fachvokabular. Mit Keyterm-Prompting kann das Modell zur Laufzeit auf domänenspezifische Begriffe (Markennamen, Medikamente, Gerätebezeichnungen, juristische Termini) geprimt werden. Deepgram nennt eine bis zu 90 % höhere Keyword-Recall-Rate für gepromptete Begriffe. Für Anwendungen mit stabilem Vokabular (Support-Calls eines bestimmten Produkts, medizinische Hotlines mit feststehenden Wirkstoffnamen) ist das ein wirksamer Hebel ohne aufwendiges Fine-Tuning.

Compliance-Substanz. SOC 2 Type II, HIPAA, DSGVO mit AVV/SCCs, die Compliance-Abdeckung ist auf Enterprise-Niveau. Das macht Deepgram zur seltenen Sprach-KI, die in regulierten Branchen (Healthcare, Banking, Versicherungen) ohne lange Vendor-Risk-Reviews durch die IT-Sicherheit kommt.

Schwächen ehrlich betrachtet

Reine API, keine UI. Deepgram liefert keine Benutzeroberfläche für Endanwender. Wer das eigene Team Meetings transkribieren lassen will, braucht zusätzlich ein Frontend, entweder selbst gebaut oder über ein Drittprodukt. Für Use Cases mit Endnutzer-Bedienung sind Otter, Amberscript oder ähnliche Komplettlösungen oft passender.

EU-Endpoint nicht in allen Konstellationen sofort verfügbar. Deepgram baut den EU-Endpoint seit 2024 schrittweise aus. Für einige Modelle (insbesondere die neuesten wie Flux) und für bestimmte Voice-Agent-Konfigurationen ist die EU-Verfügbarkeit noch nicht vollständig, Teams sollten die Verfügbarkeit für ihre spezifische Konfiguration vor der Implementierung explizit prüfen. Eine vollständige Feature-Parität zwischen US- und EU-Endpoint gibt es noch nicht.

Self-Hosted braucht Infrastruktur und Know-how. Die Container-Variante erfordert ein produktionsfähiges Kubernetes-Cluster mit GPU-Knoten (typisch NVIDIA A100 oder H100), aktives Monitoring und einen DevOps-Prozess für Modell-Updates. Das ist nicht trivial, und für Mittelständler ohne dedizierte ML-Ops-Kompetenz oft die größere Investition als die Lizenzkosten selbst.

Deutsche Fachsprache ist schwächer als englische. Die Industry-Tunings (Healthcare, Legal) sind primär auf englischsprachige Fachvokabulare optimiert. Für deutsche Medizin-, Rechts- oder Finanzbegriffe ist die Erkennungsrate gut, aber nicht auf demselben Niveau wie für Englisch. Hier sollten Teams den Use Case explizit testen, Keyterm-Prompting hilft, kompensiert aber nicht alles.

Keine eingebaute Strukturierung. Deepgram liefert Transkripte mit Metadaten (Sprecher, Zeitstempel, Konfidenz), aber keine fachliche Extraktion. Wer aus Support-Calls automatisch CRM-Tickets, Vigilanzhinweise oder Compliance-Reports erzeugen will, braucht eine nachgelagerte LLM- oder Regelschicht. Das ist sauber architektonisch, bedeutet aber Mehraufwand gegenüber spezialisierten Vertical-Tools, die Transkription + Extraktion in einem liefern.

Growth-Plan-Hürde. Mit Mindestabnahme von 4.000 USD/Jahr (rund 333 USD/Monat) ist der Growth-Plan eine reale Schwelle für kleine Teams, auch wenn der Pay-as-you-go-Tarif keinen Mindestumsatz hat. Wer regelmäßig zwischen 100 und 300 USD/Monat liegt, zahlt Pay-as-you-go-Preise ohne Mengenrabatt, profitiert aber auch nicht vom planmäßigen Support.

Voice Agent kann teuer skalieren. Die Voice Agent API kostet 0,075 USD/Min (Standard) bis 0,163 USD/Min (Advanced), bei einem Call-Center mit 1.000 Stunden/Monat sind das 4.500–9.780 USD/Monat allein für die Voice-Agent-Schicht. Das ist nicht zwingend zu teuer (LLM- und TTS-Kosten sind eingerechnet), aber Teams sollten die TCO klar gegen ein selbstgebautes Whisper + GPT + ElevenLabs-Setup vergleichen.

Alternativen im Vergleich

Wenn du…	…nimm stattdessen
Open-Source-Modell für Self-Hosting brauchst
Fertige UI für Team-Meetings willst
DSGVO-konforme Transkription mit europäischer Anbieter-UI brauchst
Premium-TTS für Voiceover und Audio-Branding suchst
Deutsche Foundation-Model-Alternative mit ASR willst

Erwähnenswert ohne eigene Tool-Seite: AssemblyAI (US-Wettbewerber mit ähnlichem API-Fokus, etwas mehr LLM-Postprocessing eingebaut), Speechmatics (britischer Anbieter mit starkem EU-Hosting und sehr guter Akzent-Robustheit), Google Cloud Speech-to-Text (für Teams, die ohnehin auf GCP sind), Azure AI Speech (Microsoft-Stack-Integration), Rev.ai (US-Lösung mit Fokus auf hohe Genauigkeit, oft teurer) und Faster-Whisper als optimierte Whisper-Variante für eigenes Hosting. Deepgram bleibt im Enterprise-API-Segment einer der profiliertesten Anbieter, wer einen Voice-Stack mit Compliance-Anforderungen baut, sollte Deepgram, Speechmatics und AssemblyAI parallel evaluieren.

So steigst du ein

Schritt 1: Account und API-Schlüssel. Erstelle ein Konto auf deepgram.com (200 USD Startkredit inklusive, keine Kreditkarte für Test) und generiere einen API-Schlüssel im Dashboard. Wähle direkt das passende Modell: Nova-3 monolingual für reines Englisch oder Deutsch, Nova-3 multilingual für Mischbetrieb. Starte mit einer Beispieldatei aus deinem realen Anwendungsfall, nicht mit synthetischen Test-Audios, weil reale Aufnahmen Hintergrundgeräusche, Akzente und Sprechertempo zeigen, die die Qualität spürbar beeinflussen.

Schritt 2: Parameter sauber setzen. Aktiviere Sprechertrennung (diarize=true), Smart Formatting (smart_format=true) und Konfidenz-Scores. Bei Fachvokabular Keyterm-Prompting nutzen, definiere 5–15 zentrale Begriffe (Produktnamen, Fachtermini), die zuverlässig erkannt werden müssen. Für DSGVO-Workloads explizit den EU-Endpoint einsetzen (Base-URL in den SDK-Konfigurationen umstellen) und den Datenschutz-Vertrag (DPA) im Deepgram-Account aktivieren.

Schritt 3: Nachgelagerte Pipeline bauen. Deepgram liefert das Transkript, die Wertschöpfung entsteht in der nachgelagerten Verarbeitung. Typische Pipelines: (a) LLM-basierte Extraktion (GPT-4o, Claude über Azure Bedrock) für strukturierte Outputs wie CRM-Felder, Compliance-Trigger oder Meeting-Notizen; (b) regelbasierte Vigilanz-Erkennung mit definierten Keywords für regulierte Branchen; (c) Übergabe an Workflow-Tools wie n8n oder Zapier für CRM- oder Ticket-System-Integration. Plane einen Human-in-the-Loop-Schritt für unsichere Passagen (niedrige Konfidenz) ein, das ist in regulierten Branchen auditrechtlich praktisch immer Pflicht.

Ein konkretes Beispiel

Ein mittelständischer Medizintechnik-Hersteller aus Tuttlingen (Kardiologie-Geräte, 8 Hotline-Mitarbeitende) verarbeitet monatlich rund 600 Service-Calls von je 8–15 Minuten. Mit Deepgram Nova-3 (über den EU-Endpoint) kostet die Transkription etwa 55 USD/Monat (ca. 7.200 Minuten × 0,0077 USD/Min Pre-Recorded). Die Transkripte werden per GPT-4o-Aufruf über Azure OpenAI in Frankfurt in ein strukturiertes Formular überführt (Gerätebezeichnung, Fehlersymptom, Schweregradeinschätzung, Patient-Bezug ja/nein) und in das QM-System eingespielt. Der zuständige Regulatory-Affairs-Mitarbeitende prüft nur noch die als “Vigilanz-verdächtig” markierten Fälle, statt alle 600 Anrufe manuell zu sichten. Zeitersparnis: rund 60 Stunden/Monat im Regulatory-Team. Die Inbetriebnahme dauerte 6 Wochen, davon 2 Wochen für die Compliance-Freigabe durch Datenschutz und IT-Sicherheit. Ein zusätzlicher Vorteil: Die Transkripte sind durchsuchbar, bei der nächsten Audit-Anfrage findet das Team relevante Calls innerhalb von Minuten statt durch tagelanges Anhören.

DSGVO & Datenschutz

Datenhosting: US-Region als Standard; EU-Region (typischerweise Frankfurt/AWS) für DSGVO-Workloads explizit buchbar, Feature-Parität wächst, ist aber nicht vollständig für alle Modelle gegeben.
Self-Hosted: Container-Deployment via Docker/Podman oder Kubernetes (auch Amazon SageMaker), geeignet für On-Premises und Air-Gapped-Umgebungen. Audio und Transkripte bleiben in der eigenen Infrastruktur, nur Metadaten (Dauer, angeforderte Features) erreichen den Lizenzserver. Setzt einen Enterprise-Plan-Vertrag voraus.
Datennutzung: Standardmäßig keine Nutzung von Kundeneingaben für Modelltraining bei Enterprise- und Growth-Verträgen. Pay-as-you-go-Nutzung erlaubt diesen Opt-out ebenfalls; explizit in den Account-Einstellungen prüfen.
Aufbewahrung: Transkripte werden in der Standardkonfiguration nicht dauerhaft gespeichert; Log-Daten zu Abrechnungszwecken können in begrenztem Umfang vorgehalten werden.
Auftragsverarbeitung (AVV): DPA mit Standardvertragsklauseln (SCCs) verfügbar; HIPAA-BAA für US-Healthcare-Kunden separat.
Compliance-Zertifikate: SOC 2 Type II, HIPAA, DSGVO-konform.
Empfehlung für deutsche Unternehmen: Für DSGVO-relevante Workloads (Healthcare, Legal, Finance) zwingend den EU-Endpoint nutzen und AVV abschließen. Für besonders sensible Bereiche (Pharma, Verteidigung, kritische Infrastruktur) die Self-Hosted-Variante prüfen, sie kostet mehr Aufwand, eliminiert aber das Cross-Border-Risiko vollständig.

Gut kombiniert mit

oder , Claude oder GPT-4o als nachgelagerte Extraktionsschicht über die Deepgram-Transkripte: strukturierte CRM-Felder, Compliance-Marker, Meeting-Zusammenfassungen. Klassisches Tandem aus Transkription (Deepgram) und semantischer Verarbeitung (LLM).
, Wenn der Voice-Stack Output-Stimmen in Studio-Qualität braucht (Markenstimme, IVR-Premium-Audio), ergänzt ElevenLabs den Deepgram-Aura-2-TTS um die hochwertigsten verfügbaren Stimmenmodelle. Pragmatische Aufteilung: Aura für Bulk, ElevenLabs für Marken-Touchpoints.
, n8n als No-Code-Orchestrator zwischen Deepgram, LLM und Zielsystem (CRM, QM, Ticket-Tool). Workflow-Trigger auf neue Audio-Uploads, automatische Verarbeitung, Routing der Ergebnisse, ohne dass Entwicklerzeit für jede neue Pipeline aufgewendet werden muss.

Unser Testurteil

Deepgram verdient 4 von 5 Sternen. Für die Aufgabe “produktionsreife Sprach-KI als API” ist es eine der besten Wahlen im Markt, schnelle Streaming-Latenz, ehrliche Compliance-Substanz (SOC 2, HIPAA, DSGVO, EU-Region, Self-Hosted), ein vollständiger Voice-Stack inklusive TTS und Voice-Agent-Orchestrierung. Den fünften Stern verliert es durch die teilweise eingeschränkte EU-Feature-Parität, die schwächere deutsche Fachvokabular-Erkennung gegenüber englischen Industry-Tunings, das deutliche Pricing der Voice-Agent-Stufen bei Skalierung und die Tatsache, dass die Plattform reine Entwickler-Infrastruktur ist, Endanwender-UIs müssen externe Produkte oder Eigenbau liefern. Für DSGVO-sensible Branchen, die einen Voice-Stack produktiv betreiben wollen, ist Deepgram trotzdem die naheliegende erste Wahl.

Was wir bemerkt haben

2024, Veröffentlichung von Nova-3 als neue Modellgeneration mit Latenz unter 300 ms und Industry-Tunings für Healthcare, Legal und Finance. Damit hat Deepgram den Abstand zu Whisper Large v3 und AssemblyAI Universal-2 in englischen Benchmarks deutlich verkürzt.
2024/2025, Ausbau des EU-Endpoints in Frankfurt. Die Feature-Parität wächst, ist aber für neueste Modelle und Voice-Agent-Konfigurationen noch nicht vollständig, Teams sollten ihre konkrete Konfiguration vor der Implementierung explizit prüfen.
2025, Vorstellung des Flux-Modells für besonders niedrige Latenzen in Voice-Agents. Das ist eine Reaktion auf den Konkurrenzdruck durch OpenAI Realtime API und ElevenLabs Conversational AI.
2025, Voice Agent API als orchestrierter Stack veröffentlicht. Damit positioniert sich Deepgram nicht mehr nur als Transkriptions-API, sondern als komplette Voice-AI-Plattform, ein deutlicher strategischer Pivot, der den TAM (Total Addressable Market) für Deepgram substanziell erweitert.
Mai 2026, Pay-as-you-go-Pricing für Nova-3 bleibt mit 0,0077 USD/Min Pre-Recorded und 0,0048 USD/Min Streaming stabil. Im Markt der Sprach-KI-APIs ist das im mittleren Preissegment, günstiger als Rev.ai, teurer als Speechmatics in Basisrahmen, aber mit deutlich besserer Latenz.
Mai 2026, Self-Hosted-Deployment bleibt ein wichtiges Differenzierungsmerkmal gegenüber rein cloudbasierten Wettbewerbern. Für Branchen, in denen Audio das Rechenzentrum nicht verlassen darf (Verteidigung, Pharma-Studien, kritische Infrastruktur), gibt es weiterhin wenige ernstzunehmende Alternativen.

Quellen

Deepgram – Preisübersicht. https://deepgram.com/pricing (abgerufen am 2026-06-13). 200 USD Startkredit; Nova-3 Streaming 0,0048 USD/Min und Pre-Recorded 0,0077 USD/Min (monolingual), Multilingual 0,0058/0,0092 USD/Min; Aura-2 0,030 USD/1.000 Zeichen; Voice Agent 0,075 USD/Min (Standard) bis 0,163 USD/Min (Advanced); Growth-Plan ab 4.000 USD/Jahr mit bis zu 20 % Rabatt.
Deepgram – Self-Hosted Deployment. https://developers.deepgram.com/docs/self-hosted-introduction (abgerufen am 2026-06-13). Container-Deployment via Docker/Podman oder Kubernetes (auch Amazon SageMaker); Audio und Transkripte bleiben in der eigenen Infrastruktur, nur Metadaten erreichen den Lizenzserver; setzt einen Enterprise-Plan-Vertrag voraus.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Empfohlen für diese Branchen

Medizintechnik Verlag & Medienproduktion

Arthur Atlas

KI-Analyst

So entsteht diese Bewertung

Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.

Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.

Preise geändert, Feature veraltet oder etwas fehlt?

Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Du arbeitest bei Deepgram Inc.?

Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.

Testzugang anbieten

Nicht sicher, ob Deepgram zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen

KI-Tools und Trends

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Zurück zur Tool-Übersicht