Text-to-Speech meistern

Digitales Pausenbrot · 16. April 2026

Stimmen auswählen, Parameter steuern und lange Texte professionell vertonen

1 Die richtige Stimme finden

Die Voice Library ist das Herzstück von ElevenLabs. Tausende Stimmen – kostenlos nutzbar.

So findest du die passende Stimme:

  1. Klicke in der Seitenleiste auf «Voice Library».
  2. Oben im Filter-Bereich: Language → German auswählen.
  3. Weitere nützliche Filter:
    • Gender – männlich/weiblich/neutral
    • Age – jung/mittel/älter (wichtig für Schüler:innen-Nähe)
    • Accent – Standarddeutsch, österreichisch, schweizerdeutsch (begrenzt verfügbar)
    • Use Case – Narration, Conversational, News
  4. Höre direkt im Browser Probebeispiele an (Play-Button neben jeder Stimme).
  5. Mit «Add to VoiceLab» kommt die Stimme in deine persönliche Sammlung.

Empfehlungen für den Schulkontext:

  • Hörverstehen Fremdsprachen: Muttersprachler:innen mit klarer Aussprache wählen, am besten im passenden Alter (Teenager-Stimmen existieren, wirken aber oft synthetisch).
  • Erzählende Texte: «Narration»-Use-Case mit ruhiger, warmer Stimme.
  • Erklärvideos: «Conversational», lebendiger, mit leichter Betonung.
elevenlabs-tts-step-1.png
Speichere dir 3–5 «Lieblingsstimmen» – eine für Erklärtexte, eine für Hörverstehen, eine für Vorlese-Material. So musst du nicht jedes Mal suchen.
2 Stimmparameter steuern

Unterhalb der Stimmenauswahl findest du vier Schieberegler. Sie entscheiden, wie deine Stimme klingt.

Stability (0–100%):

  • Tief (30–40%): expressiver, emotionaler, aber weniger vorhersagbar – manchmal sogar abweichend in der Aussprache.
  • Hoch (70–90%): sehr konsistent, aber emotional flacher – ideal für lange Erklärtexte.
  • Empfehlung für Schule: 50–60% (guter Kompromiss).

Similarity (0–100%):

  • Wie stark die Stimme den Trainingsbeispielen ähnelt.
  • Empfehlung: 70–80% (nahe am Original, aber nicht zu starr).

Style Exaggeration (0–100%):

  • Verstärkt den charakteristischen Stil der Stimme.
  • Hohe Werte können zu künstlichen Betonungen führen.
  • Empfehlung: 0–30% für neutrale Texte.

Speaker Boost:

  • Verbessert Ähnlichkeit zur Originalstimme, kostet leicht Geschwindigkeit.
  • Empfehlung: für wichtige Materialien aktivieren.

Teste die Parameter an einem kurzen Probesatz, bevor du lange Texte generierst – jede Generierung kostet Zeichen!

elevenlabs-tts-step-2.png
Generiere einen Testsatz immer zweimal mit identischen Einstellungen. Bei tiefer Stability klingen die Varianten unterschiedlich – bei hoher Stability fast identisch. So siehst du sofort, wo die Grenze deiner Einstellung liegt.
3 Lange Texte strukturieren

Für längere Unterrichtsmaterialien brauchst du Steuerung: Pausen, Betonungen, korrekte Aussprache von Fachwörtern.

Pausen einfügen:

ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags. Der zuverlässigste ist <break>:

  • <break time="1s" /> – eine Sekunde Pause
  • <break time="500ms" /> – halbe Sekunde (ideal zwischen Sätzen)
  • <break time="2s" /> – längere Pause zwischen Abschnitten

Andere SSML-Tags (z.B. <prosody>, <emphasis>) werden nicht garantiert unterstützt – für Betonung sind Satzzeichen (Kommas, Ausrufezeichen) verlässlicher.

Beispiel: «Heute lernen wir die Fotosynthese. <break time="1s" /> Fotosynthese ist der Prozess, bei dem Pflanzen Energie aus Sonnenlicht gewinnen.»

Betonung durch Satzzeichen:

  • Kommas erzeugen kleine Pausen (natürlich).
  • Drei Punkte (…) erzeugen eine nachdenkliche Pause.
  • Ausrufezeichen und Fragezeichen werden korrekt intoniert.

Aussprache-Korrekturen:

  • Eigennamen und Fachbegriffe phonetisch schreiben: «Fotosyn-these», «Göh-te» statt «Goethe».
  • Abkürzungen ausschreiben: «zum Beispiel» statt «z.B.».
  • Zahlen immer als Wörter eingeben, wenn du die Aussprache sicher steuern willst: «zweitausend-sechsundzwanzig» statt «2026».
elevenlabs-tts-step-3.png
Für Hörverstehen-Texte: Baue bewusst Pausen von 500ms zwischen Sätzen ein. Das gibt Schüler:innen Verarbeitungszeit und wirkt natürlicher als der Standard-Flow.
4 Mehrsprachige Projekte und Export

Eine der besten Eigenschaften von ElevenLabs: Dieselbe Stimme spricht 30+ Sprachen.

Sprachwechsel in einem Text:

Schreibe einfach den fremdsprachigen Text in das Feld – die Stimme erkennt die Sprache automatisch und wechselt den Akzent.

Beispiel: «Heute üben wir Französisch. Bonjour la classe, comment allez-vous aujourd'hui ?» – dieselbe Stimme spricht den deutschen Teil auf Deutsch, den französischen auf Französisch.

Wichtig für Fremdsprachen-Unterricht:

  • Teste die fremdsprachliche Aussprache vor dem Einsatz im Unterricht.
  • Manche Stimmen klingen in der Zweitsprache weniger authentisch.
  • In der Voice Library gibt es auch spezialisierte Muttersprachler:innen-Stimmen für jede Zielsprache.

Export-Optionen (nach dem Generieren):

  • MP3 (Standard): kleine Dateigrösse, universell abspielbar, für fast alle Unterrichtsszenarien passend.
  • WAV: unkomprimiert, beste Qualität, für Weiterverarbeitung in iMovie/Audacity.
  • Qualitätsstufen (im Bezahl-Tier): 128 kbps (Standard) bis 192 kbps (Studio).
📋 Stelle eine Sammlung getesteter ElevenLabs-Prompts für häufige Unterrichtssituationen als PDF bereit – inklusive SSML-Beispielen und Stimmempfehlungen für DE/FR/EN.
elevenlabs-tts-step-4.png
Prompt-Sammlung für ElevenLabs (.pdf)
MP3 ist fast immer die richtige Wahl: klein genug für E-Mail-Versand, gut genug für Klassen-Lautsprecher und direkt in alle Lernplattformen einbindbar.

Quiz

1. Welchen Stability-Wert empfiehlt sich für lange Erklärtexte im Unterricht?

  1. 10–20% – maximale Expressivität.
  2. 50–60% – ausgewogen zwischen Konsistenz und Lebendigkeit.
  3. 100% – vollkommen konstante Stimme.
  4. Der Wert spielt keine Rolle.
Lösung anzeigen

Richtige Antwort: b) — Werte zwischen 50–60% sind ein guter Kompromiss: Die Stimme klingt nicht monoton, bleibt aber über längere Texte hinweg konsistent. Zu tiefe Werte können zu unerwarteten Aussprache-Varianten führen, zu hohe lassen die Stimme flach wirken.

2. Wie fügst du eine 1-Sekunde-Pause in einen Text ein?

  1. Mit drei Leerzeichen.
  2. Mit `<pause>1</pause>`.
  3. Mit `<break time="1s" />`.
  4. Mit `[pause:1s]`.
Lösung anzeigen

Richtige Antwort: c) — ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags – der zuverlässigste ist `<break time="1s" />`. Damit fügst du gezielte Pausen ein, was besonders bei Hörverstehen-Texten hilft, wo Schüler:innen Verarbeitungszeit brauchen.

3. Kann eine geklonte Stimme automatisch auch Französisch sprechen?

  1. Nein, Voice Clones funktionieren nur in der Trainings-Sprache.
  2. Ja, dank des mehrsprachigen Modells – die Aussprache sollte aber immer gegengehört werden.
  3. Nur wenn du sie in jeder Sprache einzeln trainierst.
  4. Nur mit einem zusätzlichen Dubbing-Modul.
Lösung anzeigen

Richtige Antwort: b) — Das mehrsprachige Modell von ElevenLabs überträgt eine Stimme automatisch in 30+ Sprachen. Die Qualität variiert je nach Sprache – deshalb immer ein Probebeispiel erstellen und anhören, bevor du es im Unterricht einsetzt.