Zum Inhalt springen
Alle Levels ⏱ 25 Min. 🔨 elevenlabs

Deine eigene KI-Stimme erstellen — mit ElevenLabs

Dein Ziel nach diesem Tutorial:

Du generierst heute noch dein erstes Audio mit einer KI-Stimme

Tutorial teilen:

Stell dir vor, du könntest jeden Text mit deiner eigenen Stimme vorlesen lassen — ohne Mikrofon, ohne Aufnahme, ohne Nachbearbeitung. Eine Minute Aufnahme reicht. Das ist Voice Cloning mit ElevenLabs.


Stufe 1: Anfänger — Dein erstes Audio in 5 Minuten

Was ist ElevenLabs?

ElevenLabs ist der Marktführer für KI-Sprachsynthese. Das Tool verwandelt jeden Text in natürlich klingende Sprache — mit professionellen Stimmen aus der Bibliothek oder deiner eigenen geklonten Stimme. Der kostenlose Plan gibt dir 10.000 Zeichen pro Monat, das entspricht etwa 8–10 Minuten fertiges Audio.

So legst du los:

  1. Gehe auf elevenlabs.io
  2. Klick auf „Sign Up” — der Google-Login reicht vollständig
  3. Wähle links im Menü „Text to Speech”
  4. Wähle eine Stimme aus der Bibliothek (z. B. „Rachel” oder „Adam”)
  5. Füge deinen Text ein und klick „Generate”
  6. Hör dir das Ergebnis an und lade es als MP3 herunter
Dein erster Text zum Ausprobieren
Willkommen zum KI-Syndikat Podcast. Heute schauen wir uns an, wie künstliche Intelligenz das Arbeiten und Lernen verändert — und was das konkret für dich bedeutet. Ich bin dein Host, und das hier ist Folge eins.
Funktioniert mit ElevenLabs

Die wichtigsten Einstellungen kurz erklärt:

  • Stability (0–1): Hoch bedeutet gleichmäßige, konsistente Ausgaben. Niedrig bedeutet mehr Ausdrucksstärke, aber etwas Varianz zwischen Generierungen. Für Podcasts empfiehlt sich ein Wert um 0.5.
  • Similarity Boost (0–1): Wie eng soll die KI der gewählten Stimme folgen? Hoch bedeutet weniger Interpretation, niedrig mehr Flexibilität. Starte mit 0.75.

Die Stimmenbibliothek:

ElevenLabs bietet hunderte vorgefertigte Stimmen — gefiltert nach Sprache, Geschlecht, Alter und Stil. Unter dem Reiter „Voice Library” findest du auch Community-Stimmen. Für Deutsch eignen sich zum Beispiel Stimmen mit dem Tag „German” oder „Deutsch” besonders gut. Hör dir immer ein Sample an, bevor du generierst.


ElevenLabs Text-to-Speech Workflow

Dein Text+ Stimmauswahlaus BibliothekElevenLabs KIanalysiert & synthetisiertnatürliche ProsodieMP3-Downloadsofort bereitfür alle PlayerPodcastVideo

Kosten im Überblick

PlanPreisZeichen/MonatVoice Cloning
Kostenlos0 €10.000Instant (1 Stimme)
Starter~5 $/Monat30.000Ja
Creator~22 $/Monat100.000Ja, professionell
Pro~99 $/Monat500.000Ja, unbegrenzt

Stufe 2: Fortgeschritten — Voice Cloning

Was du brauchst

Für gutes Voice Cloning brauchst du eine saubere Audioaufnahme deiner Stimme. Das Handy-Sprachmemo reicht — wichtig ist ein ruhiger Raum ohne Hintergrundgeräusche.

So funktioniert Instant Voice Cloning:

  1. Nimm 1–5 Minuten auf — natürlich sprechen, nicht zu schnell, variierte Sätze
  2. Gehe in ElevenLabs auf „Voices” → „Add Voice” → „Instant Voice Clone”
  3. Lade deine Aufnahme hoch (MP3 oder WAV)
  4. Gib deiner Stimme einen Namen, z. B. „Meine Stimme”
  5. Klick „Add Voice” — fertig
  6. Teste mit einem kurzen Text, ob der Klang stimmt

Tipps für eine gute Aufnahme:

  • Kein Hall, kein Echo — im Schlafzimmer oder einem Raum mit Teppichen aufnehmen
  • Natürliches Sprechtempo, keine übertriebene Modulation
  • Abwechslungsreiche Sätze: Fragen, Aussagen, kurze und lange Sätze
  • Vermeide Räuspern, Atemgeräusche und Pausen im Schnittmittelbereich
Testtext für deine geklonte Stimme
Heute teste ich meine eigene KI-Stimme. Klingt das wirklich wie ich? Ich finde es faszinierend, wie natürlich sich das anhört — und gleichzeitig leicht unheimlich. Die Technologie hinter Voice Cloning analysiert Tonhöhe, Rhythmus und Akzent aus einer einzigen Minute Aufnahme.
Funktioniert mit ElevenLabs

Speech to Speech — deine Ausdrucksstärke, andere Stimme

Speech to Speech ist das Gegenteil von Text-to-Speech: Du sprichst einen Text selbst ein — ausdrucksstark, mit natürlichem Rhythmus — und ElevenLabs überträgt diesen Rhythmus auf eine andere Stimme. Das ergibt deutlich natürlichere Betonungen als reines TTS, weil die emotionale Kurve erhalten bleibt.

Einstellungen für geklonte Stimmen:

  • Stability: Etwas niedriger als bei Bibliotheksstimmen setzen (0.4–0.5), damit die individuelle Eigenheit deiner Stimme durchkommt
  • Similarity Boost: Auf 0.75–0.85 für ein gutes Gleichgewicht zwischen Konsistenz und Natürlichkeit

Stufe 3: Experte — Projects und Podcast-Produktion

Audiobooks und lange Produktionen mit Projects

Für Inhalte, die länger als ein paar Absätze sind, nutzt du den Projects-Bereich. Dort kannst du ein ganzes Dokument hochladen, verschiedenen Abschnitten verschiedene Stimmen zuweisen und Kapitel einzeln generieren.

So funktioniert es:

  1. Gehe in ElevenLabs auf „Projects” → „New Project”
  2. Lade ein Textdokument hoch oder füge deinen Text direkt ein
  3. Weise verschiedenen Sprechrollen unterschiedliche Stimmen zu
  4. Generiere Kapitel für Kapitel — so behältst du die Kontrolle
  5. Exportiere einzelne Abschnitte oder alles auf einmal
Podcast-Skript für Multi-Voice-Workflow (zwei Sprecher)
Host: Willkommen zurück. Heute haben wir einen besonderen Gast — jemanden, der täglich mit KI-Tools arbeitet und uns erzählt, was wirklich funktioniert. Gast: Danke für die Einladung. Ich freue mich, darüber zu sprechen — weil ich glaube, dass viele Leute KI falsch einsetzen. Host: Was meinst du damit genau? Gast: Die meisten nutzen KI wie eine Suchmaschine — sie fragen einmal und nehmen die erste Antwort. Aber KI wird wirklich mächtig, wenn du im Dialog bleibst. Nachfragen, verfeinern, iterieren. Host: Das ist ein guter Punkt. Hast du ein konkretes Beispiel? Gast: Klar. Wenn ich einen Artikel schreibe, fange ich mit einem groben Entwurf an und bitte die KI dann, bestimmte Abschnitte zu schärfen — nicht alles auf einmal, sondern gezielt.
Funktioniert mit ElevenLabs

Praktischer Produktions-Workflow:

  1. Skript schreiben — Claude oder ChatGPT für die Rohfassung nutzen
  2. ElevenLabs generieren — Stimme wählen oder eigene Stimme klonen
  3. Audio nachbearbeiten — CapCut (kostenlos, einfach) oder Descript für Schnitt und Pegel
  4. Veröffentlichen — Podbean, Spotify for Podcasters oder Buzzsprout als Hosting

Grenzen der aktuellen Technologie:

  • Sehr schnelles Sprechen wird manchmal verwaschen — bei schnellen Sätzen Stability erhöhen
  • Ungewöhnliche Namen und Fremdwörter werden manchmal falsch betont — mit phonetischer Schreibweise experimentieren (z. B. „Kwee” statt „Qi”)
  • Sehr emotionale Passagen (Weinen, Lachen) klingen noch synthetisch — Speech to Speech hilft hier
  • Dialekte werden nur unvollständig unterstützt — Standardsprache liefert zuverlässigere Ergebnisse

Voice Cloning Pipeline

Aufnahme1–5 Min.sauberes AudioElevenLabsanalysiert Klang,Rhythmus, AkzentKlon-Modellgespeichert in„My Voices”Beliebiger Text→ Audio-AusgabeSpeech to Speech→ Betonung erhalten

Ethik und rechtliche Grundregeln:

  • Deine eigene Stimme: Darfst du klonen und kommerziell nutzen — ab dem Starter-Plan sind die Rechte an generierten Audios dir.
  • Stimmen anderer Personen: Ohne ausdrückliche schriftliche Einwilligung verboten — auch wenn du das Ausgangsmaterial besitzt (z. B. ein Interview).
  • Deepfakes: ElevenLabs erkennt und löscht missbräuchliche Nutzungen. Der Verstoß kann zur Sperrung des Accounts führen.
  • Prominente und öffentliche Personen: Gilt dasselbe wie bei Privatpersonen — keine Ausnahmen.

Häufige Fragen

Klingt ElevenLabs-Audio erkennbar als KI?

Bei guten Einstellungen und klarem Text: für die meisten Zuhörer nicht. Der Unterschied zu echter menschlicher Stimme liegt vor allem in sehr langen Sätzen, ungewöhnlichen Wortfolgen und sehr emotionalen Momenten. Für Podcasts, Audiobooks und Voiceovers ist die Qualität seit 2024 auf professionellem Niveau.

Wie gut ist die deutsche Sprachqualität?

Sehr gut. ElevenLabs unterstützt Deutsch nativ — Betonung, Satzkadenz und Aussprache stimmen bei klaren, grammatisch korrekten Texten sehr gut. Dialekte und Umgangssprache sind schwächer. Englisch klingt nach wie vor etwas natürlicher, aber der Abstand hat sich stark verringert.

Darf ich Audiobooks kommerziell verkaufen?

Ab dem Starter-Plan (und höher) gehören dir die kommerziellen Rechte an allem, was du generierst. Du darfst Audiobooks produzieren und verkaufen. Auf dem kostenlosen Plan sind kommerzielle Rechte ausgeschlossen.

Kann ich die Stimme einer Prominenten klonen?

Nein. Das verstößt gegen ElevenLabs Nutzungsbedingungen und in den meisten Ländern auch gegen das Persönlichkeitsrecht. ElevenLabs hat eine aktive Moderation und löscht entsprechende Stimmen. Du brauchst die explizite Einwilligung der Person.

Was passiert, wenn die kostenlosen 10.000 Zeichen aufgebraucht sind?

Du kannst im laufenden Monat keine weiteren Audios mehr generieren — die Zeichen werden nicht nachgeladen. Am Ersten des nächsten Monats wird das Kontingent zurückgesetzt. Für mehr Zeichen musst du upgraden.

Funktioniert ElevenLabs auch auf dem Handy?

Ja. Die Web-App ist mobiloptimiert und funktioniert im Browser auf iOS und Android. Eine native App gibt es ebenfalls — allerdings mit etwas weniger Einstellungsmöglichkeiten als die Desktop-Variante.


Dein nächster Schritt

Du hast jetzt alle Werkzeuge, um professionelle Sprachaufnahmen zu erstellen — ohne Tonstudio, ohne Mikrofon, ohne Nachbearbeitung. Eine saubere Handy-Aufnahme, eine Minute Sprechen, und deine eigene KI-Stimme ist fertig.

Starte jetzt: Gehe auf elevenlabs.io, erstelle einen kostenlosen Account und füge den Testtext aus Stufe 1 ein. Das erste Audio ist in unter 5 Minuten fertig.


Wie gut kennst du ElevenLabs jetzt?

10 Fragen — von den kostenlosen Zeichenlimiten bis zu ethischen Regeln beim Voice Cloning. Wer alle schafft, bekommt ein Zertifikat zum Teilen.

ElevenLabs-Quiz
1 / 10

Wofür wird ElevenLabs hauptsächlich genutzt?