Stell dir vor, du könntest jeden Text mit deiner eigenen Stimme vorlesen lassen — ohne Mikrofon, ohne Aufnahme, ohne Nachbearbeitung. Eine Minute Aufnahme reicht. Das ist Voice Cloning mit ElevenLabs.
Stufe 1: Anfänger — Dein erstes Audio in 5 Minuten
Was ist ElevenLabs?
ElevenLabs ist der Marktführer für KI-Sprachsynthese. Das Tool verwandelt jeden Text in natürlich klingende Sprache — mit professionellen Stimmen aus der Bibliothek oder deiner eigenen geklonten Stimme. Der kostenlose Plan gibt dir 10.000 Zeichen pro Monat, das entspricht etwa 8–10 Minuten fertiges Audio.
So legst du los:
- Gehe auf elevenlabs.io
- Klick auf „Sign Up” — der Google-Login reicht vollständig
- Wähle links im Menü „Text to Speech”
- Wähle eine Stimme aus der Bibliothek (z. B. „Rachel” oder „Adam”)
- Füge deinen Text ein und klick „Generate”
- Hör dir das Ergebnis an und lade es als MP3 herunter
Die wichtigsten Einstellungen kurz erklärt:
- Stability (0–1): Hoch bedeutet gleichmäßige, konsistente Ausgaben. Niedrig bedeutet mehr Ausdrucksstärke, aber etwas Varianz zwischen Generierungen. Für Podcasts empfiehlt sich ein Wert um 0.5.
- Similarity Boost (0–1): Wie eng soll die KI der gewählten Stimme folgen? Hoch bedeutet weniger Interpretation, niedrig mehr Flexibilität. Starte mit 0.75.
Die Stimmenbibliothek:
ElevenLabs bietet hunderte vorgefertigte Stimmen — gefiltert nach Sprache, Geschlecht, Alter und Stil. Unter dem Reiter „Voice Library” findest du auch Community-Stimmen. Für Deutsch eignen sich zum Beispiel Stimmen mit dem Tag „German” oder „Deutsch” besonders gut. Hör dir immer ein Sample an, bevor du generierst.
ElevenLabs Text-to-Speech Workflow
Kosten im Überblick
| Plan | Preis | Zeichen/Monat | Voice Cloning |
|---|---|---|---|
| Kostenlos | 0 € | 10.000 | Instant (1 Stimme) |
| Starter | ~5 $/Monat | 30.000 | Ja |
| Creator | ~22 $/Monat | 100.000 | Ja, professionell |
| Pro | ~99 $/Monat | 500.000 | Ja, unbegrenzt |
Stufe 2: Fortgeschritten — Voice Cloning
Was du brauchst
Für gutes Voice Cloning brauchst du eine saubere Audioaufnahme deiner Stimme. Das Handy-Sprachmemo reicht — wichtig ist ein ruhiger Raum ohne Hintergrundgeräusche.
So funktioniert Instant Voice Cloning:
- Nimm 1–5 Minuten auf — natürlich sprechen, nicht zu schnell, variierte Sätze
- Gehe in ElevenLabs auf „Voices” → „Add Voice” → „Instant Voice Clone”
- Lade deine Aufnahme hoch (MP3 oder WAV)
- Gib deiner Stimme einen Namen, z. B. „Meine Stimme”
- Klick „Add Voice” — fertig
- Teste mit einem kurzen Text, ob der Klang stimmt
Tipps für eine gute Aufnahme:
- Kein Hall, kein Echo — im Schlafzimmer oder einem Raum mit Teppichen aufnehmen
- Natürliches Sprechtempo, keine übertriebene Modulation
- Abwechslungsreiche Sätze: Fragen, Aussagen, kurze und lange Sätze
- Vermeide Räuspern, Atemgeräusche und Pausen im Schnittmittelbereich
Speech to Speech — deine Ausdrucksstärke, andere Stimme
Speech to Speech ist das Gegenteil von Text-to-Speech: Du sprichst einen Text selbst ein — ausdrucksstark, mit natürlichem Rhythmus — und ElevenLabs überträgt diesen Rhythmus auf eine andere Stimme. Das ergibt deutlich natürlichere Betonungen als reines TTS, weil die emotionale Kurve erhalten bleibt.
Einstellungen für geklonte Stimmen:
- Stability: Etwas niedriger als bei Bibliotheksstimmen setzen (0.4–0.5), damit die individuelle Eigenheit deiner Stimme durchkommt
- Similarity Boost: Auf 0.75–0.85 für ein gutes Gleichgewicht zwischen Konsistenz und Natürlichkeit
Stufe 3: Experte — Projects und Podcast-Produktion
Audiobooks und lange Produktionen mit Projects
Für Inhalte, die länger als ein paar Absätze sind, nutzt du den Projects-Bereich. Dort kannst du ein ganzes Dokument hochladen, verschiedenen Abschnitten verschiedene Stimmen zuweisen und Kapitel einzeln generieren.
So funktioniert es:
- Gehe in ElevenLabs auf „Projects” → „New Project”
- Lade ein Textdokument hoch oder füge deinen Text direkt ein
- Weise verschiedenen Sprechrollen unterschiedliche Stimmen zu
- Generiere Kapitel für Kapitel — so behältst du die Kontrolle
- Exportiere einzelne Abschnitte oder alles auf einmal
Praktischer Produktions-Workflow:
- Skript schreiben — Claude oder ChatGPT für die Rohfassung nutzen
- ElevenLabs generieren — Stimme wählen oder eigene Stimme klonen
- Audio nachbearbeiten — CapCut (kostenlos, einfach) oder Descript für Schnitt und Pegel
- Veröffentlichen — Podbean, Spotify for Podcasters oder Buzzsprout als Hosting
Grenzen der aktuellen Technologie:
- Sehr schnelles Sprechen wird manchmal verwaschen — bei schnellen Sätzen Stability erhöhen
- Ungewöhnliche Namen und Fremdwörter werden manchmal falsch betont — mit phonetischer Schreibweise experimentieren (z. B. „Kwee” statt „Qi”)
- Sehr emotionale Passagen (Weinen, Lachen) klingen noch synthetisch — Speech to Speech hilft hier
- Dialekte werden nur unvollständig unterstützt — Standardsprache liefert zuverlässigere Ergebnisse
Voice Cloning Pipeline
Ethik und rechtliche Grundregeln:
- Deine eigene Stimme: Darfst du klonen und kommerziell nutzen — ab dem Starter-Plan sind die Rechte an generierten Audios dir.
- Stimmen anderer Personen: Ohne ausdrückliche schriftliche Einwilligung verboten — auch wenn du das Ausgangsmaterial besitzt (z. B. ein Interview).
- Deepfakes: ElevenLabs erkennt und löscht missbräuchliche Nutzungen. Der Verstoß kann zur Sperrung des Accounts führen.
- Prominente und öffentliche Personen: Gilt dasselbe wie bei Privatpersonen — keine Ausnahmen.
Häufige Fragen
Klingt ElevenLabs-Audio erkennbar als KI?
Bei guten Einstellungen und klarem Text: für die meisten Zuhörer nicht. Der Unterschied zu echter menschlicher Stimme liegt vor allem in sehr langen Sätzen, ungewöhnlichen Wortfolgen und sehr emotionalen Momenten. Für Podcasts, Audiobooks und Voiceovers ist die Qualität seit 2024 auf professionellem Niveau.
Wie gut ist die deutsche Sprachqualität?
Sehr gut. ElevenLabs unterstützt Deutsch nativ — Betonung, Satzkadenz und Aussprache stimmen bei klaren, grammatisch korrekten Texten sehr gut. Dialekte und Umgangssprache sind schwächer. Englisch klingt nach wie vor etwas natürlicher, aber der Abstand hat sich stark verringert.
Darf ich Audiobooks kommerziell verkaufen?
Ab dem Starter-Plan (und höher) gehören dir die kommerziellen Rechte an allem, was du generierst. Du darfst Audiobooks produzieren und verkaufen. Auf dem kostenlosen Plan sind kommerzielle Rechte ausgeschlossen.
Kann ich die Stimme einer Prominenten klonen?
Nein. Das verstößt gegen ElevenLabs Nutzungsbedingungen und in den meisten Ländern auch gegen das Persönlichkeitsrecht. ElevenLabs hat eine aktive Moderation und löscht entsprechende Stimmen. Du brauchst die explizite Einwilligung der Person.
Was passiert, wenn die kostenlosen 10.000 Zeichen aufgebraucht sind?
Du kannst im laufenden Monat keine weiteren Audios mehr generieren — die Zeichen werden nicht nachgeladen. Am Ersten des nächsten Monats wird das Kontingent zurückgesetzt. Für mehr Zeichen musst du upgraden.
Funktioniert ElevenLabs auch auf dem Handy?
Ja. Die Web-App ist mobiloptimiert und funktioniert im Browser auf iOS und Android. Eine native App gibt es ebenfalls — allerdings mit etwas weniger Einstellungsmöglichkeiten als die Desktop-Variante.
Dein nächster Schritt
Du hast jetzt alle Werkzeuge, um professionelle Sprachaufnahmen zu erstellen — ohne Tonstudio, ohne Mikrofon, ohne Nachbearbeitung. Eine saubere Handy-Aufnahme, eine Minute Sprechen, und deine eigene KI-Stimme ist fertig.
Starte jetzt: Gehe auf elevenlabs.io, erstelle einen kostenlosen Account und füge den Testtext aus Stufe 1 ein. Das erste Audio ist in unter 5 Minuten fertig.
Wie gut kennst du ElevenLabs jetzt?
10 Fragen — von den kostenlosen Zeichenlimiten bis zu ethischen Regeln beim Voice Cloning. Wer alle schafft, bekommt ein Zertifikat zum Teilen.