Text-to-Speech meistern – Digitales Pausenbrot

Digitales Pausenbrot · 16. April 2026

Stimmen auswählen, Parameter steuern und lange Texte professionell vertonen

1 Die richtige Stimme finden ▾

Die Voice Library ist das Herzstück von ElevenLabs. Tausende Stimmen – kostenlos nutzbar.

So findest du die passende Stimme:

Klicke in der Seitenleiste auf «Voice Library».
Oben im Filter-Bereich: Language → German auswählen.
Weitere nützliche Filter:
- Gender – männlich/weiblich/neutral
- Age – jung/mittel/älter (wichtig für Schüler:innen-Nähe)
- Accent – Standarddeutsch, österreichisch, schweizerdeutsch (begrenzt verfügbar)
- Use Case – Narration, Conversational, News
Höre direkt im Browser Probebeispiele an (Play-Button neben jeder Stimme).
Mit «Add to VoiceLab» kommt die Stimme in deine persönliche Sammlung.

Empfehlungen für den Schulkontext:

Hörverstehen Fremdsprachen: Muttersprachler:innen mit klarer Aussprache wählen, am besten im passenden Alter (Teenager-Stimmen existieren, wirken aber oft synthetisch).
Erzählende Texte: «Narration»-Use-Case mit ruhiger, warmer Stimme.
Erklärvideos: «Conversational», lebendiger, mit leichter Betonung.

Speichere dir 3–5 «Lieblingsstimmen» – eine für Erklärtexte, eine für Hörverstehen, eine für Vorlese-Material. So musst du nicht jedes Mal suchen.

Als erledigt markieren

2 Stimmparameter steuern ▾

Unterhalb der Stimmenauswahl findest du vier Schieberegler. Sie entscheiden, wie deine Stimme klingt.

Stability (0–100%):

Tief (30–40%): expressiver, emotionaler, aber weniger vorhersagbar – manchmal sogar abweichend in der Aussprache.
Hoch (70–90%): sehr konsistent, aber emotional flacher – ideal für lange Erklärtexte.
Empfehlung für Schule: 50–60% (guter Kompromiss).

Similarity (0–100%):

Wie stark die Stimme den Trainingsbeispielen ähnelt.
Empfehlung: 70–80% (nahe am Original, aber nicht zu starr).

Style Exaggeration (0–100%):

Verstärkt den charakteristischen Stil der Stimme.
Hohe Werte können zu künstlichen Betonungen führen.
Empfehlung: 0–30% für neutrale Texte.

Speaker Boost:

Verbessert Ähnlichkeit zur Originalstimme, kostet leicht Geschwindigkeit.
Empfehlung: für wichtige Materialien aktivieren.

Teste die Parameter an einem kurzen Probesatz, bevor du lange Texte generierst – jede Generierung kostet Zeichen!

Generiere einen Testsatz immer zweimal mit identischen Einstellungen. Bei tiefer Stability klingen die Varianten unterschiedlich – bei hoher Stability fast identisch. So siehst du sofort, wo die Grenze deiner Einstellung liegt.

Als erledigt markieren

3 Lange Texte strukturieren ▾

Für längere Unterrichtsmaterialien brauchst du Steuerung: Pausen, Betonungen, korrekte Aussprache von Fachwörtern.

Pausen einfügen:

ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags. Der zuverlässigste ist <break>:

<break time="1s" /> – eine Sekunde Pause
<break time="500ms" /> – halbe Sekunde (ideal zwischen Sätzen)
<break time="2s" /> – längere Pause zwischen Abschnitten

Andere SSML-Tags (z.B. <prosody>, <emphasis>) werden nicht garantiert unterstützt – für Betonung sind Satzzeichen (Kommas, Ausrufezeichen) verlässlicher.

Beispiel: «Heute lernen wir die Fotosynthese. <break time="1s" /> Fotosynthese ist der Prozess, bei dem Pflanzen Energie aus Sonnenlicht gewinnen.»

Betonung durch Satzzeichen:

Kommas erzeugen kleine Pausen (natürlich).
Drei Punkte (…) erzeugen eine nachdenkliche Pause.
Ausrufezeichen und Fragezeichen werden korrekt intoniert.

Aussprache-Korrekturen:

Eigennamen und Fachbegriffe phonetisch schreiben: «Fotosyn-these», «Göh-te» statt «Goethe».
Abkürzungen ausschreiben: «zum Beispiel» statt «z.B.».
Zahlen immer als Wörter eingeben, wenn du die Aussprache sicher steuern willst: «zweitausend-sechsundzwanzig» statt «2026».

Für Hörverstehen-Texte: Baue bewusst Pausen von 500ms zwischen Sätzen ein. Das gibt Schüler:innen Verarbeitungszeit und wirkt natürlicher als der Standard-Flow.

Als erledigt markieren

4 Mehrsprachige Projekte und Export ▾

Eine der besten Eigenschaften von ElevenLabs: Dieselbe Stimme spricht 30+ Sprachen.

Sprachwechsel in einem Text:

Schreibe einfach den fremdsprachigen Text in das Feld – die Stimme erkennt die Sprache automatisch und wechselt den Akzent.

Beispiel: «Heute üben wir Französisch. Bonjour la classe, comment allez-vous aujourd'hui ?» – dieselbe Stimme spricht den deutschen Teil auf Deutsch, den französischen auf Französisch.

Wichtig für Fremdsprachen-Unterricht:

Teste die fremdsprachliche Aussprache vor dem Einsatz im Unterricht.
Manche Stimmen klingen in der Zweitsprache weniger authentisch.
In der Voice Library gibt es auch spezialisierte Muttersprachler:innen-Stimmen für jede Zielsprache.

Export-Optionen (nach dem Generieren):

MP3 (Standard): kleine Dateigrösse, universell abspielbar, für fast alle Unterrichtsszenarien passend.
WAV: unkomprimiert, beste Qualität, für Weiterverarbeitung in iMovie/Audacity.
Qualitätsstufen (im Bezahl-Tier): 128 kbps (Standard) bis 192 kbps (Studio).

📋 Stelle eine Sammlung getesteter ElevenLabs-Prompts für häufige Unterrichtssituationen als PDF bereit – inklusive SSML-Beispielen und Stimmempfehlungen für DE/FR/EN.

Prompt-Sammlung für ElevenLabs (.pdf)

MP3 ist fast immer die richtige Wahl: klein genug für E-Mail-Versand, gut genug für Klassen-Lautsprecher und direkt in alle Lernplattformen einbindbar.

Als erledigt markieren

Quiz

1. Welchen Stability-Wert empfiehlt sich für lange Erklärtexte im Unterricht?

10–20% – maximale Expressivität.
50–60% – ausgewogen zwischen Konsistenz und Lebendigkeit.
100% – vollkommen konstante Stimme.
Der Wert spielt keine Rolle.

Lösung anzeigen

Richtige Antwort: b) — Werte zwischen 50–60% sind ein guter Kompromiss: Die Stimme klingt nicht monoton, bleibt aber über längere Texte hinweg konsistent. Zu tiefe Werte können zu unerwarteten Aussprache-Varianten führen, zu hohe lassen die Stimme flach wirken.

2. Wie fügst du eine 1-Sekunde-Pause in einen Text ein?

Mit drei Leerzeichen.
Mit `<pause>1</pause>`.
Mit `<break time="1s" />`.
Mit `[pause:1s]`.

Lösung anzeigen

Richtige Antwort: c) — ElevenLabs unterstützt einen eingeschränkten Satz SSML-ähnlicher Tags – der zuverlässigste ist `<break time="1s" />`. Damit fügst du gezielte Pausen ein, was besonders bei Hörverstehen-Texten hilft, wo Schüler:innen Verarbeitungszeit brauchen.

3. Kann eine geklonte Stimme automatisch auch Französisch sprechen?

Nein, Voice Clones funktionieren nur in der Trainings-Sprache.
Ja, dank des mehrsprachigen Modells – die Aussprache sollte aber immer gegengehört werden.
Nur wenn du sie in jeder Sprache einzeln trainierst.
Nur mit einem zusätzlichen Dubbing-Modul.

Lösung anzeigen

Richtige Antwort: b) — Das mehrsprachige Modell von ElevenLabs überträgt eine Stimme automatisch in 30+ Sprachen. Die Qualität variiert je nach Sprache – deshalb immer ein Probebeispiel erstellen und anhören, bevor du es im Unterricht einsetzt.