Einrichtung und erste Schritte

Digitales Pausenbrot · 16. April 2026

Was ElevenLabs ist, wie du ein Konto erstellst und deine erste Sprachausgabe generierst

1 Was ist ElevenLabs?

ElevenLabs ist ein KI-Tool für hochwertige Sprachsynthese. Du gibst Text ein – ElevenLabs macht daraus eine natürlich klingende Audiodatei. Auf Deutsch, Englisch, Französisch und in über 30 weiteren Sprachen.

Was es besonders gut kann:

  • Natürliche Stimmen – Intonation, Pausen und Betonungen wirken nicht mehr roboterhaft.
  • Voice-Cloning – deine eigene Stimme in 1–3 Minuten klonen.
  • Mehrsprachigkeit – eine geklonte Stimme spricht automatisch 30+ Sprachen.
  • Feinsteuerung – Geschwindigkeit, Stabilität, Emotionalität einstellbar.

Abgrenzung zu NotebookLM Audio Overview:

  • NotebookLM Audio Overview: Erstellt aus deinen Quellen einen Podcast-Dialog – zwei KI-Stimmen unterhalten sich.
  • ElevenLabs: Erstellt aus deinem eigenen Text eine klare Erzähl-Stimme. Du steuerst jedes Wort.

Kurz gesagt: NotebookLM für den Podcast-Einstieg, ElevenLabs für kontrollierte Audioausgaben (Hörverstehen, Erklärvideos, Arbeitsblatt-Audio).

elevenlabs-einrichtung-step-1.png
ElevenLabs ersetzt keine Podcast-Aufnahme. Aber es spart dir Stunden, wenn du z.B. ein Hörverstehen-Material in perfektem Französisch brauchst – und niemand im Kollegium Muttersprachler:in ist.
2 Konto erstellen und Gratis-Kontingent

ElevenLabs hat ein grosszügiges Gratis-Kontingent. Perfekt zum Ausprobieren.

Registrierung in 3 Schritten:

  1. Gehe auf elevenlabs.io und klicke oben rechts auf «Sign Up».
  2. Registriere dich mit Google-Konto oder E-Mail.
  3. Bestätige die E-Mail – du landest direkt im Studio.

Free-Tier (Stand 2026):

  • 10 000 Zeichen pro Monat – etwa 10 Minuten generiertes Audio mit Multilingual v2.
  • Zugriff auf alle Standard-Stimmen aus der Voice Library.
  • Kein Voice Cloning (das gibt's erst ab Starter).
  • Kommerzielle Nutzung nicht erlaubt – für den eigenen Unterricht aber unproblematisch.

Bezahl-Tiers (wenn du Voice Cloning brauchst oder das Free-Tier nicht reicht):

  • Starter (ca. 5 $/Monat): 30 000 Zeichen, Instant Voice Cloning (bis 10 eigene Stimmen), kommerzielle Lizenz.
  • Creator (ca. 22 $/Monat): 100 000 Zeichen, Professional Voice Clone.

Für einzelne Lehrpersonen reicht das Free-Tier fast immer. Teste es zuerst gründlich aus, bevor du etwas zahlst.

elevenlabs-einrichtung-step-2.png
Rechne mit ca. 1000 Zeichen pro Minute gesprochenem Text. Das Free-Tier reicht also für rund zehn Minuten Audio pro Monat – genug für 2–3 Hörverstehen-Aufgaben.
3 Oberfläche kennenlernen

Nach dem Login landest du im Dashboard. Die wichtigsten Bereiche in der linken Seitenleiste:

Text to Speech:

  • Das Herzstück: Text eingeben, Stimme wählen, Audio generieren.
  • Ideal für kurze Texte (bis ca. 5000 Zeichen pro Generierung).

Studio:

  • Editor für längere Audioprojekte (Hörbücher, mehrteilige Lektionen) mit Kapitelstruktur und Sprecherwechsel.

Voices:

  • Deine persönliche Stimmensammlung – Favoriten aus der Voice Library, eigene Klonungen.

Voice Library:

  • Riesige Sammlung von Community-Stimmen (Tausende, nach Sprache/Alter/Akzent filterbar).
  • Stimmen mit einem Klick in deine persönliche Sammlung übernehmen.

Dubbing:

  • Videos automatisch in andere Sprachen synchronisieren (inklusive Lippensynchronisation).

Für den Einstieg reicht Text to Speech vollkommen. Alles andere lernst du später kennen.

elevenlabs-einrichtung-step-3.png
Die Oberfläche ist auf Englisch – lässt sich aber nicht umstellen. Mit DeepL oder der Browser-Übersetzung kommst du problemlos klar.
4 Erste Sprachausgabe in 2 Minuten

Jetzt generierst du deine erste Audiodatei. Ziel: ein kurzer deutscher Begrüssungstext.

Schritt für Schritt:

  1. Klicke in der Seitenleiste auf «Studio».
  2. Wähle oben rechts eine deutsche Stimme (z.B. «Liam» oder «Charlotte» – beide mehrsprachig).
  3. Stelle das Modell auf «Eleven Multilingual v2» – eine verlässliche Wahl für Deutsch. Falls in deinem Konto verfügbar: v3 (alpha) klingt bei Deutsch oft noch natürlicher.
  4. Gib in das grosse Textfeld ein: «Guten Morgen, liebe Klasse! Heute beschäftigen wir uns mit einem spannenden Thema: der Fotosynthese. Seid ihr bereit?»
  5. Klicke unten auf «Generate».
  6. Nach wenigen Sekunden erscheint ein Audio-Player. Probehören – bei Bedarf nachjustieren.
  7. Mit dem Download-Button (↓) speicherst du die MP3 auf deinem Gerät.

Fertig – deine erste KI-Sprachausgabe.

elevenlabs-einrichtung-step-4.png
Klingt die Stimme unnatürlich abgehackt? Prüfe das Modell: «Multilingual v2» oder (falls verfügbar) «v3» ist für Deutsch meist besser als die Turbo/Flash-Varianten, die auf Geschwindigkeit optimiert sind.

Quiz

1. Was ist der Hauptunterschied zwischen ElevenLabs und NotebookLMs Audio Overview?

  1. ElevenLabs ist kostenpflichtig, NotebookLM gratis.
  2. ElevenLabs erstellt eine klare Erzählstimme aus deinem Text, NotebookLM generiert einen Dialog aus Quellen.
  3. ElevenLabs funktioniert nur auf Englisch.
  4. NotebookLM ist präziser bei Fachbegriffen.
Lösung anzeigen

Richtige Antwort: b) — ElevenLabs nimmt deinen eigenen Text und macht daraus eine kontrollierte Erzählstimme – du bestimmst jedes Wort. NotebookLM erstellt einen automatischen Dialog zwischen zwei KI-Stimmen aus deinen Quellen. Für Hörverstehen-Material eignet sich ElevenLabs besser, für Einstiegs-Podcasts NotebookLM.

2. Wie viel Audio kannst du im Free-Tier pro Monat generieren?

  1. Unbegrenzt.
  2. Etwa 1 Minute.
  3. Etwa 10 Minuten (10 000 Zeichen).
  4. Etwa 60 Minuten.
Lösung anzeigen

Richtige Antwort: c) — Das Free-Tier bietet 10 000 Zeichen pro Monat – das entspricht etwa 10 Minuten gesprochenem Audio. Genug für 2–3 Hörverstehen-Aufgaben oder ein kurzes Erklärvideo.

3. Welches Modell solltest du für deutsche Texte wählen?

  1. Eleven English v1 – das Originalmodell.
  2. Eleven Multilingual v2 oder v3 – natürliche Qualität für Deutsch.
  3. Eleven Turbo v2.5 oder Flash v2.5 – das schnellste Modell.
  4. Es spielt keine Rolle, alle Modelle sind gleich.
Lösung anzeigen

Richtige Antwort: b) — «Multilingual v2» (oder v3, falls verfügbar) ist auf Mehrsprachigkeit optimiert und klingt bei Deutsch natürlich. Turbo v2.5 und Flash v2.5 sind schneller, bei Deutsch aber meist weniger ausdrucksstark – für Unterrichtsmaterialien lohnt sich die bessere Qualität.