Text-to-Speech meistern
Stimmen auswählen, Parameter steuern und lange Texte professionell vertonen
Die Voice Library ist das Herzstück von ElevenLabs. Tausende Stimmen – kostenlos nutzbar.
So findest du die passende Stimme:
- Klicke in der Seitenleiste auf «Voice Library».
- Oben im Filter-Bereich: Language → German auswählen.
- Weitere nützliche Filter:
- Gender – männlich/weiblich/neutral
- Age – jung/mittel/älter (wichtig für Schüler:innen-Nähe)
- Accent – Standarddeutsch, österreichisch, schweizerdeutsch (begrenzt verfügbar)
- Use Case – Narration, Conversational, News
- Höre direkt im Browser Probebeispiele an (Play-Button neben jeder Stimme).
- Mit «Add to VoiceLab» kommt die Stimme in deine persönliche Sammlung.
Empfehlungen für den Schulkontext:
- Hörverstehen Fremdsprachen: Muttersprachler:innen mit klarer Aussprache wählen, am besten im passenden Alter (Teenager-Stimmen existieren, wirken aber oft synthetisch).
- Erzählende Texte: «Narration»-Use-Case mit ruhiger, warmer Stimme.
- Erklärvideos: «Conversational», lebendiger, mit leichter Betonung.

Unterhalb der Stimmenauswahl findest du vier Schieberegler. Sie entscheiden, wie deine Stimme klingt.
Stability (0–100%):
- Tief (30–40%): expressiver, emotionaler, aber weniger vorhersagbar – manchmal sogar abweichend in der Aussprache.
- Hoch (70–90%): sehr konsistent, aber emotional flacher – ideal für lange Erklärtexte.
- Empfehlung für Schule: 50–60% (guter Kompromiss).
Similarity (0–100%):
- Wie stark die Stimme den Trainingsbeispielen ähnelt.
- Empfehlung: 70–80% (nahe am Original, aber nicht zu starr).
Style Exaggeration (0–100%):
- Verstärkt den charakteristischen Stil der Stimme.
- Hohe Werte können zu künstlichen Betonungen führen.
- Empfehlung: 0–30% für neutrale Texte.
Speaker Boost:
- Verbessert Ähnlichkeit zur Originalstimme, kostet leicht Geschwindigkeit.
- Empfehlung: für wichtige Materialien aktivieren.
Teste die Parameter an einem kurzen Probesatz, bevor du lange Texte generierst – jede Generierung kostet Zeichen!

Für längere Unterrichtsmaterialien brauchst du Steuerung: Pausen, Betonungen, korrekte Aussprache von Fachwörtern.
Pausen einfügen:
ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags. Der zuverlässigste ist <break>:
<break time="1s" />– eine Sekunde Pause<break time="500ms" />– halbe Sekunde (ideal zwischen Sätzen)<break time="2s" />– längere Pause zwischen Abschnitten
Andere SSML-Tags (z.B. <prosody>, <emphasis>) werden nicht garantiert unterstützt – für Betonung sind Satzzeichen (Kommas, Ausrufezeichen) verlässlicher.
Beispiel: «Heute lernen wir die Fotosynthese. <break time="1s" /> Fotosynthese ist der Prozess, bei dem Pflanzen Energie aus Sonnenlicht gewinnen.»
Betonung durch Satzzeichen:
- Kommas erzeugen kleine Pausen (natürlich).
- Drei Punkte (…) erzeugen eine nachdenkliche Pause.
- Ausrufezeichen und Fragezeichen werden korrekt intoniert.
Aussprache-Korrekturen:
- Eigennamen und Fachbegriffe phonetisch schreiben: «Fotosyn-these», «Göh-te» statt «Goethe».
- Abkürzungen ausschreiben: «zum Beispiel» statt «z.B.».
- Zahlen immer als Wörter eingeben, wenn du die Aussprache sicher steuern willst: «zweitausend-sechsundzwanzig» statt «2026».

Eine der besten Eigenschaften von ElevenLabs: Dieselbe Stimme spricht 30+ Sprachen.
Sprachwechsel in einem Text:
Schreibe einfach den fremdsprachigen Text in das Feld – die Stimme erkennt die Sprache automatisch und wechselt den Akzent.
Beispiel: «Heute üben wir Französisch. Bonjour la classe, comment allez-vous aujourd'hui ?» – dieselbe Stimme spricht den deutschen Teil auf Deutsch, den französischen auf Französisch.
Wichtig für Fremdsprachen-Unterricht:
- Teste die fremdsprachliche Aussprache vor dem Einsatz im Unterricht.
- Manche Stimmen klingen in der Zweitsprache weniger authentisch.
- In der Voice Library gibt es auch spezialisierte Muttersprachler:innen-Stimmen für jede Zielsprache.
Export-Optionen (nach dem Generieren):
- MP3 (Standard): kleine Dateigrösse, universell abspielbar, für fast alle Unterrichtsszenarien passend.
- WAV: unkomprimiert, beste Qualität, für Weiterverarbeitung in iMovie/Audacity.
- Qualitätsstufen (im Bezahl-Tier): 128 kbps (Standard) bis 192 kbps (Studio).

Quiz
1. Welchen Stability-Wert empfiehlt sich für lange Erklärtexte im Unterricht?
- 10–20% – maximale Expressivität.
- 50–60% – ausgewogen zwischen Konsistenz und Lebendigkeit.
- 100% – vollkommen konstante Stimme.
- Der Wert spielt keine Rolle.
Lösung anzeigen
Richtige Antwort: b) — Werte zwischen 50–60% sind ein guter Kompromiss: Die Stimme klingt nicht monoton, bleibt aber über längere Texte hinweg konsistent. Zu tiefe Werte können zu unerwarteten Aussprache-Varianten führen, zu hohe lassen die Stimme flach wirken.
2. Wie fügst du eine 1-Sekunde-Pause in einen Text ein?
- Mit drei Leerzeichen.
- Mit `<pause>1</pause>`.
- Mit `<break time="1s" />`.
- Mit `[pause:1s]`.
Lösung anzeigen
Richtige Antwort: c) — ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags – der zuverlässigste ist `<break time="1s" />`. Damit fügst du gezielte Pausen ein, was besonders bei Hörverstehen-Texten hilft, wo Schüler:innen Verarbeitungszeit brauchen.
3. Kann eine geklonte Stimme automatisch auch Französisch sprechen?
- Nein, Voice Clones funktionieren nur in der Trainings-Sprache.
- Ja, dank des mehrsprachigen Modells – die Aussprache sollte aber immer gegengehört werden.
- Nur wenn du sie in jeder Sprache einzeln trainierst.
- Nur mit einem zusätzlichen Dubbing-Modul.
Lösung anzeigen
Richtige Antwort: b) — Das mehrsprachige Modell von ElevenLabs überträgt eine Stimme automatisch in 30+ Sprachen. Die Qualität variiert je nach Sprache – deshalb immer ein Probebeispiel erstellen und anhören, bevor du es im Unterricht einsetzt.