Stimmen klonen
Voice Cloning mit klarem Datenschutz-Rahmen: nur eigene Stimme, nur mit Einwilligung
🔒 Dieser Schritt ist der wichtigste im ganzen Tutorial. Lies ihn sorgfältig.
⚠️ Bezahl-Abo nötig: Voice Cloning gibt's erst ab Starter-Abo (ca. 5 $/Monat). Im Free-Tier kannst du diesen Schritt nicht ausführen.
Voice Cloning ist mächtig – und mit dieser Macht kommen klare rechtliche und ethische Grenzen.
Was erlaubt ist:
- Deine eigene Stimme klonen – du darfst immer über deine eigene Stimme verfügen.
- Fremde Stimmen mit schriftlicher Einwilligung – nie ohne. Auch nicht «nur zum Testen».
- Lizenzfreie Voice-Library-Stimmen – explizit für diesen Zweck freigegeben.
Was nicht erlaubt ist:
- ❌ Schüler:innen-Stimmen klonen – absolutes Tabu. Auch mit Einwilligung der Eltern. Schutzbedürftige Minderjährige, Missbrauchsrisiken, Persönlichkeitsrechte.
- ❌ Kolleg:innen heimlich klonen – auch wenn du «nur einen Spass» machen willst.
- ❌ Prominente / öffentliche Personen klonen – Persönlichkeitsrechte, auch wenn viel Material online ist.
- ❌ Geklonte Stimmen in irreführendem Kontext nutzen – Deepfakes, gefälschte Ankündigungen, Identity Theft.
Schweizer Rechtsrahmen (revidiertes DSG seit 2023):
- Stimmdaten sind biometrische Personendaten – besonders schützenswert.
- Verarbeitung braucht eine ausdrückliche Einwilligung.
- Betroffene haben jederzeit Recht auf Widerruf und Löschung.
Realistische Konsequenzen bei Missbrauch:
- Zivilrechtliche Klagen wegen Persönlichkeitsverletzung.
- Strafrechtliche Folgen bei Deepfake-Betrug.
- Dienstrechtliche Konsequenzen für Lehrpersonen.
- Plattform-Sperrung bei ElevenLabs (erkennt fremde Stimmen teilweise automatisch).
Faustregel: Wenn du unsicher bist, klone nicht. Nutze stattdessen eine Stimme aus der Voice Library.

Der Instant Voice Clone erstellt aus 1–3 Minuten Audio eine Kopie deiner Stimme. Gute Ergebnisse in wenigen Minuten.
Vorbereitung (entscheidend für Qualität):
- Ruhige Umgebung – kein Lüfter, keine Strassengeräusche, keine Echos.
- Ordentliches Mikrofon – AirPods oder ein Headset reichen. Kein eingebautes Laptop-Mikrofon.
- Natürlich sprechen – wie im normalen Unterricht, nicht übertrieben deutlich.
- Abwechslungsreicher Text – verschiedene Satztypen (Fragen, Aussagen, Aufzählungen), keine Monotonie.
Aufnahme erstellen (2 Optionen):
Option A – direkt in ElevenLabs:
- Gehe zu «Voices» → «Add Voice» → «Instant Voice Clone».
- Klicke auf das Mikrofon-Icon und lies den vorgeschlagenen Beispieltext vor.
Option B – eigene Aufnahme hochladen:
- Nimm 1–3 Minuten mit Voice Memo / Audacity / iPhone-Diktiergerät auf.
- Lade die MP3/WAV in ElevenLabs hoch.
Benennung und Beschreibung:
- Gib der Stimme einen klaren Namen: «Lucca – Erklärstimme».
- Beschreibe sie kurz (Sprache, Alter, Einsatzzweck) – hilft dir beim späteren Wiederfinden.
- Bestätige das Ownership-Checkbox: «Ich bestätige, dass ich die Rechte an dieser Stimme habe.»
Nach 10–30 Sekunden ist deine Stimme bereit.

Reicht dir der Instant Clone nicht, kannst du einen Professional Voice Clone (PVC) erstellen. Der PVC ist im Creator-Tier (ab ca. 22 $/Monat) enthalten.
Unterschiede zum Instant Clone:
- Mehr Trainingsmaterial: 30 Minuten bis 3 Stunden (statt 1–3 Minuten).
- Längere Verarbeitungszeit: 4–24 Stunden (statt Sekunden).
- Deutlich höhere Qualität: Intonation, Dialekt, emotionale Nuancen – sehr nah am Original.
- Verifikation: ElevenLabs prüft deine Identität (Audio-Kommando einsprechen), um Missbrauch zu verhindern.
Wann lohnt sich der PVC?
- Du produzierst regelmässig Audio-Materialien (wöchentlich oder öfter).
- Du willst ein konsistentes «Sound-Branding» deiner Lehrmaterialien.
- Fremdsprachen-Unterricht, bei dem du selbst Muttersprachler:in bist (z.B. bilingual).
- Hörbuch-ähnliche Projekte (längere Kapitel, mehrere Stunden Material).
Aufnahme-Qualität für PVC:
- Hochwertiges Mikrofon – USB-Kondensatormikrofon oder besser.
- Akustisch gedämpfter Raum – schallschluckende Umgebung (Teppich, Vorhänge, Decken).
- Konsistente Distanz zum Mikrofon – 15–20 cm.
- Abwechslungsreicher Text über das ganze Material verteilt.
Für die meisten Lehrpersonen reicht der Instant Clone völlig aus. PVC ist ein «Nice-to-have» für Poweruser.

Bevor du deine geklonte Stimme im Unterricht einsetzt: gründlich testen.
Realitäts-Check – was funktioniert:
- ✅ Normale Erklärtexte – sehr gut, oft schwer vom Original zu unterscheiden.
- ✅ Fachvokabular – wenn es in der Trainingsaufnahme vorkam.
- ✅ Längere Sätze – Modell behält die Stimmfarbe bei.
- ✅ Ruhige Emotionen – neutral, erklärend, freundlich.
Was nicht so gut funktioniert:
- ⚠️ Starke Dialekte – Schweizerdeutsch wird meist «abgeschliffen» zu Standarddeutsch.
- ⚠️ Lachen, Räuspern, Seufzen – wirkt künstlich oder fehlt ganz.
- ⚠️ Extreme Emotionen – Wut, Trauer wirken gedämpft.
- ⚠️ Singen – funktioniert nicht.
- ⚠️ Fremdsprachen mit starkem Akzent – Ergebnis variiert stark.
Feinjustierung:
- Klingt zu monoton? Stability reduzieren (40–50%).
- Klingt unsauber? Similarity erhöhen (80–90%).
- Falsche Intonation bei Fragen? Mehr Satzzeichen und Pausen nutzen.
- Falsche Aussprache von Eigennamen? Phonetisch schreiben.
Empfohlener Test-Workflow vor dem ersten Unterrichts-Einsatz:
- Generiere einen 2-Minuten-Testtext (typisch für deinen Einsatzzweck).
- Höre ihn auf Kopfhörern und Klassen-Lautsprecher (klingt unterschiedlich!).
- Lass jemanden ausserhalb blind hören – fällt auf, dass es KI ist?
- Prüfe auf Aussprache-Fehler bei Fachbegriffen und Eigennamen.

Quiz
1. Was ist rechtlich und ethisch immer ein absolutes Tabu?
- Die eigene Stimme klonen.
- Eine Voice-Library-Stimme nutzen.
- Schüler:innen-Stimmen klonen – auch mit Einwilligung der Eltern.
- Eine Kolleg:innen-Stimme mit schriftlicher Einwilligung klonen.
Lösung anzeigen
Richtige Antwort: c) — Schüler:innen sind Minderjährige und besonders schutzbedürftig. Eine Einwilligung der Eltern reicht nicht – die Missbrauchsrisiken (Deepfakes, Identity Theft) sind zu hoch. Eigene Stimme oder Voice-Library-Stimmen sind die sicheren Alternativen.
2. Wie viel Audiomaterial braucht der Instant Voice Clone?
- 10 Sekunden reichen.
- 1–3 Minuten saubere Aufnahme.
- Mindestens 30 Minuten.
- Mindestens 3 Stunden.
Lösung anzeigen
Richtige Antwort: b) — 1–3 Minuten saubere Aufnahme reichen für den Instant Voice Clone. Entscheidend ist die Qualität: ruhige Umgebung, ordentliches Mikrofon, natürlich gesprochen. Der Professional Clone braucht 30 Minuten bis 3 Stunden – ist aber für die meisten Lehrpersonen überdimensioniert.
3. Welches Kriterium deckt der Instant Voice Clone weniger gut ab?
- Neutrale Erklärtexte.
- Starke Dialekte wie Schweizerdeutsch.
- Fachvokabular, das in der Trainingsaufnahme vorkam.
- Ruhige, freundliche Intonation.
Lösung anzeigen
Richtige Antwort: b) — Starke Dialekte werden vom Instant Voice Clone meist «abgeschliffen» zu Standarddeutsch. Das Modell ist auf grosse Sprachfamilien trainiert – feinere regionale Varianten gehen verloren. Für Schweizerdeutsch-Inhalte ist ein Voice Clone also meist nicht die richtige Wahl.