Zum Inhalt springen
Freemium Ohne Setup 🇩🇪 Deutschsprachig 🇪🇺 EU-Server Geprüft: Mai 2026

Auphonic

Auphonic GmbH

4/5
Tool öffnen

Österreichisches Podcast-Nachbearbeitungstool, das Audiokorrekturen (Lautstärke-Normalisierung nach EBU R128, Rauschunterdrückung, Pegelausgleich) und KI-Transkription in einem Schritt kombiniert. Nutzt OpenAI Whisper für 80+ Sprachen und liefert Transkript, Kapitelmarken und Shownotes direkt im Editor. EU-Hosting in Österreich — einer der wenigen Anbieter, die Broadcast-Audioqualität und Volltext-Transkription DSGVO-konform in einem Arbeitsschritt verbinden.

Kosten: Kostenlos 2 Std./Monat; One-Time-Credits ab 0,10 €/Std.; Monats-Abos S 9 Std., M 21 Std., L 45 Std., XL 100 Std., XXL 250 Std. (Preise auf der Auphonic-Pricing-Seite)

Stärken

  • Audioproduktion und Transkription in einem Schritt — kein separates Tool für Lautstärke-Normalisierung
  • EU-Datenhosting in Österreich — DSGVO-konform ohne Datentransfer in die USA
  • Automatische EBU R128/LUFS-Normalisierung: Audio wird broadcast-tauglich für ARD, ZDF, Spotify
  • Transkription, Kapitelmarken und Shownotes in einem Durchlauf, bearbeitbar im integrierten Editor
  • Unterstützt 80+ Sprachen via Whisper, darunter Deutsch mit solider Qualität
  • Pay-per-Use-Credits laufen nicht ab — ideal für unregelmäßige Produktionen
  • Integrationen mit Podcast-Hosts (Podigee, Buzzsprout, Libsyn), YouTube, SoundCloud, Zapier, CLI, API

Einschränkungen

  • Transkriptionsqualität bei starkem Dialekt, Übersprechen oder schlechter Audioqualität begrenzt
  • Deutsch-Qualität hängt von Whisper ab — kein eigenes deutschoptimiertes Modell
  • KI-generierte Shownotes auf Englisch deutlich besser als auf Deutsch
  • Keine Echtzeit- oder Live-Transkription — reines Batch-Tool
  • Video-Untertitel-Ausgabe (Burn-in) nicht im Funktionsumfang, nur SRT/VTT als Export
  • Editor-Oberfläche ist funktional, aber nicht so poliert wie bei Descript oder Riverside

Passt gut zu

Podcast-Produktion Verlage Redaktionen Medienhäuser Hörbuch-Produktion

Wann ja, wann nein

Wann ja

  • Du produzierst regelmäßig Podcasts oder Audio-Beiträge und brauchst Broadcast-Qualität
  • Du willst Audioproduktion und Transkription in einem Schritt erledigen
  • Du arbeitest in einer DSGVO-sensiblen Branche und brauchst EU-Hosting
  • Du produzierst unregelmäßig und willst keine Monatsgebühr — Credits laufen nicht ab

Wann nein

  • Du brauchst Echtzeit- oder Live-Transkription (z. B. Untertitel im Stream)
  • Du willst eine vollwertige Audio-DAW mit Multitrack-Editing — Auphonic ist Nachbearbeitung, nicht Schnitt
  • Du brauchst perfekte deutsche Shownotes ohne Nachbearbeitung
  • Du suchst einen Video-Editor mit eingebrannten Untertiteln (dann eher Descript oder CapCut)

Kurzfazit

Auphonic ist die naheliegende Wahl für deutschsprachige Podcast-Produktionen, die Broadcast-taugliches Audio und Transkription aus einer Hand brauchen — und es ist eines der wenigen ernstzunehmenden KI-Audio-Tools mit Datenhaltung in der EU (Wien, Österreich). Statt nacheinander durch Lautstärke-Normalisierung, Rauschunterdrückung und Transkription zu laufen, erledigt Auphonic alles in einem Produktionslauf. Die Stärke liegt klar in der Nachbearbeitung gemischter Sprachaufnahmen; die Schwächen sind Whisper-typisch — deutscher Output braucht eine Korrekturrunde — und die Editor-Oberfläche wirkt eher pragmatisch als modern. Für alle, die wöchentlich produzieren und DSGVO ernst nehmen, gibt es im deutschsprachigen Raum kaum eine bessere Option.

Für wen ist Auphonic?

Podcast-Produzenten und Redaktionen: Wer mehr als gelegentlich Audio veröffentlicht, spart mit Auphonic das Jonglieren zwischen drei oder vier Tools. Lautstärke-Normalisierung nach EBU R128, automatischer Pegelausgleich zwischen Sprechern, optionale Rauschunterdrückung und Transkription laufen in einem Schritt — das Ergebnis ist Spotify-konform und gleich mit Shownotes vorbereitet.

Verlage und Medienhäuser mit DSGVO-Anforderungen: Die Hosting-Region in Österreich ist das stärkste Verkaufsargument gegenüber US-zentrischen Wettbewerbern. Wer journalistisch arbeitet, Quellenschutz wahren muss oder mit Interviewpartnern aus regulierten Branchen spricht, kann Auphonic ohne komplizierte Zusatzverträge einsetzen.

Hörbuch- und Audiobook-Produktionen: Für lange Aufnahmen mit Sprecherwechseln sind der Intelligent Leveler und die Multitrack-Funktionen (mit automatischer Ducking-Logik) ein realer Produktivitätshebel. Kapitelmarken werden automatisch gesetzt, das Transkript wird als Begleitmaterial gleich mitgeneriert.

Bildung und Wissenschaft: Vorlesungsaufzeichnungen, Konferenzvorträge oder Interview-Studien können in einem Lauf auf Hörqualität gebracht und transkribiert werden — relevant für Universitäten, die DSGVO-konform arbeiten müssen und keine US-Cloud zulassen.

Solo-Podcaster: Auch im 9 €-Plan (S, 9 Std./Monat) bekommst du den vollen Funktionsumfang. Wer einmal die Woche eine 45-Minuten-Episode produziert, bewegt sich genau in dieser Größenordnung — günstiger als die meisten DAW+Transkriptions-Bundles.

Weniger geeignet für: Live-Streamer (Auphonic ist Batch, keine Echtzeit-Verarbeitung), Video-First-Produktionen mit Untertitel-Burn-in (dafür ist Descript besser), Anwender, die einen vollwertigen Multitrack-Editor brauchen (Adobe Audition oder Reaper), und alle, die ohne Nachkorrektur perfekte deutsche Shownotes erwarten.

Preise im Detail

PlanPreisWas du bekommst
Free0 €2 Std./Monat verarbeitete Audio, Auphonic-Jingle im Output, kein Credit-Übertrag
One-Time Creditsab 0,10 €/Std.Pay-as-you-go ab 5 Std., laufen nicht ab, Volumenstaffelung ab 500/1.000/2.000+ Std.
S9 €/Monat9 Std./Monat, alle Funktionen, kein Jingle
M29 €/Monat21 Std./Monat, ideal für 1–2 wöchentliche Episoden
L59 €/Monat45 Std./Monat, Redaktions-Volumen
XL119 €/Monat100 Std./Monat, Verlage und größere Teams
XXLauf Anfrage250 Std./Monat, Enterprise-Volumen, Team-Konten, Priorität
Business / Customauf AnfragePläne über 1.000 Std./Monat, AVV, manuelle Rechnung, Priority Processing

Einordnung: Die kostenlosen 2 Stunden reichen für einen ehrlichen Test einer halben Episode plus Re-Run nach Korrekturen. Für Solo-Podcaster ist der S-Plan für 9 €/Monat oder der Pay-per-Use-Tarif der Sweetspot — letzterer ist besonders attraktiv, weil Credits nicht ablaufen und du in Wochen ohne Produktion nichts zahlst. Redaktionen mit ein bis zwei wöchentlichen Episoden landen meist beim M-Plan (21 Std.). Auphonic rechnet die tatsächliche Audiolänge ab (Minimum 3 Minuten pro Production), nicht den hochgeladenen Rohschnitt — kalkuliert wird also die finale Sendezeit, nicht das verbrauchte Material. Yearly-Abos und Business-Pläne enthalten Priority Processing und Team-Konten; wer in größerem Umfang produziert, sollte direkt anfragen.

Stärken im Detail

Alles in einem Lauf — und genau das ist der Hebel. Konkurrenten machen entweder Audioproduktion (Adobe Audition, Hindenburg) oder Transkription (Otter, rev.com) oder Shownote-Generation (Castmagic). Auphonic kombiniert alle drei in einer Pipeline. Du lädst eine Rohdatei hoch, drückst „Start” und bekommst nach wenigen Minuten ein gemastertes Audiofile, ein Transkript (TXT/SRT/VTT/JSON), Kapitelmarken und einen Shownote-Entwurf. Das spart nicht nur Zeit, sondern auch Konsistenz: alle Outputs stammen aus derselben Quelle.

EBU R128 / LUFS-Normalisierung als Default. Auphonic war eines der ersten Consumer-Tools, das den Broadcast-Standard EBU R128 automatisch umsetzt. Das Ergebnis: Episoden klingen auf Spotify, Apple Podcasts und im Radio gleich laut, ohne dass du den Limiter selbst ansetzen musst. Wer schon einmal eine zu leise produzierte Episode nachträglich anpassen musste, erkennt den Wert sofort.

EU-Hosting in Wien. Anthropic, OpenAI, ElevenLabs, AssemblyAI — die meisten KI-Audio-Stacks führen am Ende in die USA. Auphonic betreibt seine Infrastruktur in Österreich. Für deutschsprachige Verlage, öffentlich-rechtliche Anstalten und Bildungseinrichtungen ist das ein Argument, das man nicht überschätzen kann: kein Schrems-II-Problem, keine Schrems-III-Prophylaxe, kein angeflanschter SCC-Workflow.

Whisper als Transkriptions-Backend. Auphonic nutzt OpenAI Whisper für die Spracherkennung — das aktuell beste Open-Source-Modell für mehrsprachige Transkription. Für Deutsch erreicht Whisper bei sauberen Aufnahmen Wortfehlerraten von 5–10 %, was eine Korrekturrunde notwendig macht, aber den manuellen Transkriptionsaufwand massiv reduziert.

Multitrack mit automatischem Ducking. Wer Interviews auf getrennten Spuren aufnimmt (Riverside, SquadCast, Zoom-Audio mit Einzelspuren), kann diese parallel hochladen. Auphonic mischt automatisch ab, dämpft das Mikrofon des Sprechers, der gerade nicht redet (Ducking), entfernt seit Oktober 2025 auch Mic-Bleed und liefert ein professionell gemixtes Endprodukt. Das ist ein Feature, das im Profi-Studio mehrere Plugins und manuelles Tweaking erfordert.

Integrationen ohne Bastelei. Die Veröffentlichung an Podcast-Hosts (Podigee, Buzzsprout, Libsyn, Spreaker), Cloud-Speicher (Dropbox, Google Drive, S3) und YouTube läuft direkt aus dem Production-Job heraus. Für Redaktionen mit eigenem CMS gibt es eine offene REST-API, seit März 2026 ergänzt durch ein CLI für Skript-basierte Workflows.

Faire Preise und keine Bindung. Pay-per-Use-Credits laufen nie ab. Wer im Sommer Pause macht oder unregelmäßig produziert, zahlt nur die tatsächlich verarbeiteten Stunden. Diese Flexibilität ist im SaaS-Markt selten geworden und ein klarer Pluspunkt für Indie-Produzenten.

Schwächen ehrlich betrachtet

Deutscher Whisper-Output ist nicht fehlerfrei. Bei sauberen Studioaufnahmen funktioniert die deutsche Transkription gut, aber Fachbegriffe, Eigennamen, regionale Aussprache und Dialekte führen regelmäßig zu Fehlern. Plane mindestens 15–30 Minuten Nachbearbeitung pro Stunde Audio ein — der integrierte Editor ist dafür ausreichend, aber die Korrektur bleibt manuell. Spezialisierte deutsche Anbieter wie Aleph Alpha oder kommerzielle Dienste mit deutsch optimierten Modellen liefern bei rein deutschem Material teilweise bessere Roh-Outputs.

Shownotes auf Deutsch sind ausbaufähig. Die automatische Shownote-Generierung ist auf Englisch deutlich treffsicherer als auf Deutsch — was an den dahinterliegenden LLM-Prompts liegt. Wer Shownotes professionell veröffentlicht, wird sie ohnehin neu schreiben; als Erstentwurf taugen sie, aber rohgekupfert wird sie kein seriöses Medium verwenden.

Keine Echtzeit-Transkription. Auphonic ist ein Batch-Tool. Wer live Untertitel braucht (Konferenz-Stream, Webinar, Tagung), muss zu spezialisierten Anbietern wie Otter.ai oder Web Captioner greifen. Auphonic verarbeitet immer fertige Aufnahmen.

Editor-UX ist funktional, nicht modern. Der Web-Editor erfüllt seinen Zweck, aber die Bedienung wirkt im Vergleich zu Descript oder Riverside altbacken. Wer eine fließende, „Word-für-Audio”-Erfahrung sucht, wird mit Auphonic nicht glücklich. Die Stärke liegt im automatisierten Hintergrund, nicht im Editor-Erlebnis.

Kein vollwertiger Schnitt. Auphonic schneidet seit April 2026 zwar einfache Pausen und Stillen automatisch aus Videos, ersetzt aber keinen klassischen Audio-Editor. Wer Wortpassagen umstellen, ganze Abschnitte herausschneiden oder kreative Übergänge bauen will, braucht weiterhin eine DAW (Reaper, Audition, Hindenburg) oder ein Tool wie Descript.

Video-Workflow ist Beifang, kein Kern. Auphonic verarbeitet zwar Videoaudio und liefert SRT/VTT, aber Untertitel-Burn-in (also fest eingebrannte Untertitel im Video) ist nicht im Funktionsumfang. Für Video-First-Produktionen brauchst du immer einen zweiten Schritt — entweder im NLE (DaVinci Resolve, Premiere) oder via Descript.

Alternativen im Vergleich

Wenn du……nimm stattdessen
Video-First arbeitest und Untertitel-Burn-in brauchstDescript
Eine vollwertige Audio-DAW willstAdobe Creative Cloud (Audition)
Pure Transkription ohne Audioproduktion brauchstWhisper direkt oder NotebookLM
Studio-Aufnahme und Postproduktion in einem Tool willstRiverside.fm

Erwähnenswert ohne eigene Tool-Seite: Hindenburg Pro (klassische Podcast-DAW mit eigener Auto-Mixing-Funktion), Castmagic und Podcastle (Shownote- und Repurposing-Fokus), rev.com (manuelle Transkription, teurer, aber höhere Qualität für regulierte Branchen). Auphonic bleibt die einzige uns bekannte Lösung, die Broadcast-Audio + KI-Transkription + EU-Hosting in einem Anbieter bündelt — das ist der Grund, warum Verlage und öffentlich-rechtliche Sender es seit Jahren einsetzen.

So steigst du ein

Schritt 1: Lege ein kostenloses Konto auf auphonic.com an. Die 2 Freistunden pro Monat reichen für eine halbe Test-Episode plus Re-Run nach Korrektur. Lade eine echte Folge hoch (MP3 oder WAV), nicht eine synthetische Beispieldatei — du willst sehen, wie Auphonic mit deiner Mikrofon-Charakteristik und deinem Raumklang umgeht.

Schritt 2: Aktiviere in den Service-Einstellungen „Speech Recognition” (Modell „Whisper”) und stelle die Sprache explizit auf Deutsch — automatische Erkennung funktioniert, ist aber bei Mischsprachen unzuverlässig. Aktiviere „Chapter Marks”, „Show Notes” und „Loudness Normalization” (Standard: -16 LUFS für Podcasts, -23 LUFS für Broadcast). Multitrack-Aufnahmen lädst du als getrennte Spuren hoch, damit Ducking funktioniert.

Schritt 3: Prüfe im integrierten Transkript-Editor die Ausgabe und korrigiere Namen, Fachbegriffe und Dialektpassagen. Exportiere das fertige Audio (MP3/AAC/Opus), das Transkript (TXT/SRT/VTT/JSON) und die Shownotes. Richte für wiederkehrende Episoden ein „Preset” ein — damit übernimmst du dieselben Service-Einstellungen automatisch. Für vollautomatische Workflows: API oder CLI nutzen, Watch-Folder einrichten, Auto-Publishing an deinen Podcast-Host aktivieren.

Ein konkretes Beispiel

Die Redaktion eines deutschen Fachverlags in Köln produziert wöchentlich eine 45-minütige Interview-Podcast-Episode mit zwei Gästen. Bisher liefen drei Tools parallel: Adobe Audition für Lautstärke-Normalisierung und Mix (ca. 90 Minuten Arbeitszeit pro Folge), ein externer Transkriptionsdienst zu rund 48 € pro Episode, und Notion für die manuelle Shownote-Erstellung (60 Minuten). Mit Auphonic im M-Plan (29 €/Monat, 21 Std. Volumen) läuft jetzt alles in einem Job: die drei Mikrofon-Spuren werden als Multitrack hochgeladen, Auphonic mischt automatisch ab, normalisiert auf -16 LUFS, transkribiert, setzt Kapitelmarken und liefert einen Shownote-Entwurf. Die Redakteurin korrigiert anschließend in 25 Minuten das Transkript (Eigennamen, Fachbegriffe), kürzt die Shownotes auf das Wesentliche und exportiert direkt an Podigee. Zeitersparnis pro Episode: ca. 2,5 Stunden. Jahres-Einsparung gegenüber dem externen Dienst: rund 2.150 € (48 € × 52 Wochen − 348 € Jahresgebühr). Das DSGVO-Argument war der Grund, warum die Verlagsleitung diesen Weg überhaupt freigegeben hat — eine Lösung mit US-Hosting wäre wegen Interview-Vorbereitung und O-Tönen aus regulierten Branchen nicht durchsetzbar gewesen.

DSGVO & Datenschutz

  • Datenhosting: Server in Österreich (EU), betrieben von Auphonic GmbH, Wien. Kein Transfer in Drittländer für Standard-Verarbeitung.
  • Transkriptions-Backend: Whisper läuft auf Auphonic-eigener Infrastruktur in der EU — nicht über die OpenAI-API. Damit verlassen Audiodaten den EU-Raum nicht.
  • Datennutzung: Hochgeladene Audiodateien werden ausschließlich zur Auftragsverarbeitung genutzt. Keine Verwendung für Modelltraining.
  • Aufbewahrung: Production-Jobs bleiben dauerhaft im Account gespeichert, bis du sie manuell löschst. Auto-Delete kann pro Job konfiguriert werden.
  • Auftragsverarbeitung (AVV): Für Business- und Custom-Pläne verfügbar. Für Standard-Abos lassen sich AVVs typischerweise auf Anfrage abschließen — sinnvoll für Verlage und Redaktionen mit eigener DSGVO-Compliance.
  • Konto und Login: 2-Faktor-Authentifizierung seit September 2025 verfügbar — sollte aktiviert werden, sobald sensible Aufnahmen im Account liegen.
  • Empfehlung für Unternehmen: Für regulierte Branchen ist Auphonic eine der wenigen sauberen Optionen, da keine US-Cloud beteiligt ist. AVV mit der Auphonic GmbH abschließen und Auto-Delete für sensible Jobs aktivieren.

Gut kombiniert mit

  • Riverside.fm — Riverside ist das Studio für die Aufnahme (lokale High-Quality-Spuren), Auphonic übernimmt die Nachbearbeitung. Beide gemeinsam decken den kompletten Remote-Interview-Workflow ab, ohne dass du Audio Engineering selbst beherrschen musst.
  • Descript — wenn du Wortpassagen umsortieren, Versprecher schnell rausschneiden oder Overdubs einbauen willst, ist Descript der bessere Editor. Auphonic kommt danach für die finale Klangoptimierung und Veröffentlichung an den Podcast-Host.
  • Notion — die Auphonic-Shownotes landen via Zapier oder API direkt in einer Notion-Datenbank, wo Redaktion und Marketing sie weiterverarbeiten. Damit wird die Podcast-Produktion in den allgemeinen Content-Workflow integriert.

Unser Testurteil

Auphonic verdient 4 von 5 Sternen. Das Tool macht das, was es verspricht, exzellent — Broadcast-taugliches Audio plus Transkription in einem Schritt, mit EU-Hosting und fairer Preisgestaltung. Im deutschsprachigen Raum kennen wir keinen Anbieter, der diese Kombination so kompakt liefert. Den fünften Stern verliert es durch zwei Punkte: Die Whisper-Transkription ist auf Deutsch solide, aber nicht so gut wie spezialisierte deutsche Anbieter; und die Editor-Oberfläche fühlt sich neben modernen Wettbewerbern (Descript, Riverside) altbacken an. Für reine Audio-Produktionen mit DSGVO-Anspruch bleibt Auphonic die erste Wahl — für Video-First-Workflows oder maximalen Editor-Komfort gibt es bessere Optionen.

Was wir bemerkt haben

  • April 2026 — Auphonic hat automatisches Video-Cutting eingeführt (Silence Cutter und Filler-Word-Entfernung auch für Video). Damit wird die Pipeline für Vlog- und Video-Podcast-Produzenten interessanter — der Burn-in von Untertiteln bleibt aber weiterhin Aufgabe externer Tools.
  • März 2026 — Ein offizielles CLI ist verfügbar. Für Redaktionen mit Skript-basierten Workflows (Watch-Folder, automatische Ablieferung) eine echte Erleichterung — bisher war API-Integration der einzige programmatische Weg.
  • Dezember 2025 — Ein Denoising-Editor wurde eingeführt, mit dem sich Rauschen selektiv (statt pauschal über die ganze Datei) entfernen lässt. Praktisch für Aufnahmen mit Phasen, in denen Klimaanlage oder Lüfter nur stellenweise stören.
  • Oktober 2025 — Mic-Bleed-Removal für Multitrack-Aufnahmen ergänzt. Das war ein Schmerzpunkt für Remote-Interviews, bei denen Gäste in Lautsprechern statt Kopfhörern hörten — wird jetzt automatisch sauber getrennt.
  • September 2025 — 2-Faktor-Authentifizierung im Account verfügbar. Für Redaktionen mit mehreren Bearbeitern und sensiblen Aufnahmen ein überfälliger Schritt.
  • 2024–2026 — Auphonic ist konsequent bei der EU-Datenhaltung geblieben, obwohl viele Wettbewerber inzwischen Hybrid-Architekturen mit US-Backends fahren. Diese Linientreue ist im KI-Audio-Markt selten und ein Hauptgrund, warum öffentlich-rechtliche Sender und große Verlage das Tool verwenden.

Diesen Inhalt teilen:

Empfohlen in 1 Use Cases

Verlag & Medienproduktion

Redaktionell bewertet · Preise und Funktionen können sich ändern.

Stimmt etwas nicht?

Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Nicht sicher, ob Auphonic zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen
Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar