Die KI von ElevenLabs erschafft synthetische Stimmen, die absolut menschlich klingen

Nach automatischen generierten Texten und Bildern erobert Künstliche Intelligenz jetzt auch den Bereich der gesprochenen Sprache: Vorbei ist die Zeit der unnatürlich klingenden Computerstimmen. Mit KIs wie der des europäischen Start-ups ElevenLabs können synthetische Stimmen selbst emotionale Texte richtig überzeugend vortragen. Das birgt natürlich auch Missbrauchspotential.

Von Fritz Espenlaub

Es gibt keinen besseren Einstieg ins Thema, als sich kurz die folgende Soundpassage anzuhören:

https://twitter.com/CoffeeVectors/status/1620807387073642496

Was man hier hören kann, ist das neueste Kapitel einer Geschichte, die wir in den letzten Monaten immer wieder erlebt haben. Die Geschichte handelt davon, wie Künstliche Intelligenz uns Menschen immer ähnlicher wird. In der Welt der Kunst und des kreativen Schreibens haben wir uns mittlerweile fast daran gewöhnt. Dall-E 2, Stable Diffusion oder GPT-3 haben endgültig Einzug gehalten in das kollektive Bewusstsein.

Doch die Welt der gesprochenen Sprache, der Schauspielerei, der Emotionen – das war bisher ein Gebiet, in dem man noch halbwegs sicher unterscheiden konnte zwischen menschlichem Original und computergeneriertem Artefakt.

Bis jetzt.

Die oben eingebettete Hörspiel-Passage ist komplett KI-generiert. Der Text stammt, was heute niemanden mehr überrascht, aus der Feder von ChatGPT. Das Interessante daran ist aber: Die Stimmen stammen nicht von Menschen, sondern sind von einer KI gesprochen. Eine generative Sprachsoftware, die sich Prime Voice AI nennt und vom europäischen KI-Start-Up ElevenLabs stammt. Und die hat es in sich: Nicht nur kann sie Stimmen erschaffen, deren Tonlage und Emotionalität menschengleich klingt – was im Vergleich zu Alexa oder gar automatisch generierten Durchsagen am Bahnhof ein gewaltiger Fortschritt ist. Sie kann auch existierende menschliche Stimmen klonen.

Um der KI eine neue Stimme beizubringen, braucht es nicht einmal stundenlange Aufnahmen. Für das Training reichen wenige Minuten – und schon ist die KI in der Lage, eine Stimme nahezu perfekt zu imitieren. Nach Bild und Text steht damit das nächste Kapitel der KI-Revolution an, in dem Start-Ups aus Europa noch viel stärker mitmischen wollen. Und während bei den Large Language Models wie von OpenAI noch unklar ist, wie genau sich damit am Ende am meisten Geld verdienen lässt, hat ElevenLabs bereits eine Multimilliarden-Industrie im Blick.

Vom Frust über schlecht synchronisierte Filme zum KI-Start-up

„Mein Mitgründer und ich kommen beide aus Polen, und wenn du in Polen einen Film schauen willst, dann ist das eine schreckliche Erfahrung“, erzählt Mati Staniszewski, der Chef von ElevenLabs, im Gespräch mit 1E9. „Die Film-Synchronisierung wird meistens von einem einzelnen Sprecher übernommen. Egal, wie viele Personen in einer Szene sind, es gibt nur eine einzelne Stimme, die über alles drüber spricht. Es ist wirklich schlimm.“ Filme, Computerspiele, Hörbücher und YouTube-Content: Wenn es nach ElevenLabs geht, soll es in Zukunft ein Leichtes sein, diesen Content automatisiert in unterschiedlichsten Sprachen – und mit beliebig vielen Stimmen – zu vertonen. Genau das soll nämlich die KI des Start-ups übernehmen.

Der ehemalige Palantir-Angestellte Staniszewski und sein Mitgründer Piotr Dabkowski, zuvor Machine Learning Engineer bei Google, sind Teil einer neuen Generation von KI-Whiz-Kids, von denen auffallend viele aus Osteuropa stammen. Im Audio-Bereich, zum Beispiel, auch die ukrainische Firma Respeecher. Sogar Amazons Alexa hat ihren Ursprung in Polen, bei einem Team aus Danzig, das vor über 15 Jahren die Welt mit Spracherkennungssoftware, die die besten Teams von IBM bis Microsoft alt aussehen ließ, schockierte. Für Staniszewski ist das mitnichten ein Zufall: „Auf jeden Fall spielt der schlechtere Zugang zu Informationen eine motivierende Rolle. Nicht nur bei Filmen, auch im Bildungsbereich ist das Material in Polen und anderswo einfach weniger. Und gleichzeitig gibt es jede Menge ungenutztes Talent.“

Damit die KI so gut klingt wie in dem Beispiel oben, muss sie zwei Dinge können: Emotionen erkennen, die zum Text passen. Und wissen wie sich Emotionen durch die Stimme ausdrücken lassen. Die Sprach-KI von ElevenLabs nutzt dafür dieselbe Black-Box-Magie, die auch in den bekannten KI-Modellen von GPT-3 bis Stable Diffusion steckt, die je nach Eingabe der User Texte oder Bilder generieren. Auch diese Modelle zeichnen sich dadurch aus, dass ihr Output kaum mehr von menschengemachten Inhalten unterscheidbar ist.

Das Zauberwort dabei heißt Unsupervised Learning: Das KI-Modell wird mit gewaltigen Datenbergen an Text gefüttert und lernt mit der Zeit von selbst, welche Emotionen in einem Satz stecken. Denn auf diese kommt es an, wenn ein Text so vorgetragen werden soll, dass es menschlich klingt. Im Gegensatz zum maschinellen Lernen vergangener Zeiten sind bei diesem Unsupervised Learning also keine helfenden Menschen nötig, die in ewigen Captcha-Hamsterrädern mühsam Textbausteine und Emotionen einander zuordnen müssen. Stattdessen erkennt die KI dies selbstständig. Mehr noch: Laut ElevenLabs berücksichtigt die Prime Voice AI den emotionalen Kontext des gesamten Textes, um zu entscheiden, wie sie einzelne Sätze und Wörter betont.

Der nächste Schritt: Ein KI-Voice-Designer

Bestehende Stimmen klonen und damit täuschen echt Texte vortragen, schon dabei spielt die KI von ElevenLabs ganz vorne mit. Doch die Firma hat bereits neue Ziele: „Bei Text und Bild ist sehr klar, was mit generativer KI gemeint ist. Man erschafft etwas Neues, das davor noch nicht existiert hat. Bei gesprochener Sprache war das bisher noch nicht so eindeutig“, sagt Staniszewski. „In der Regel nimmt man eine bereits existierende Stimme und erschafft mit ihr etwas, das natürlich auf eine gewisse Art neu ist – aber eben doch auch eine direkte Kopie von etwas bereits Bestehendem. Mit unserem Voice Design haben wir jetzt etwas komplett Neuartiges gebaut – der User kann sich seine eigene Stimme bauen, die es davor noch nicht gab.“

ElevenLabs will seinen Usern also einen Baukasten bieten, mit dem diese anhand verschiedener Parameter neue Stimmen bauen können. „Ich kann sagen: Ok, gib mir eine männliche Stimme, die alt klingt, einen tiefen Klang hat und einen australischen Akzent – oder irgendeine beliebige Kombination dieser Parameter“, erklärt Staniszewski. Ganz ähnlich also, wie man bei Stable Diffusion oder Dall-E 2 per Prompt bestimmte Motive, Stile und unzählige grafische Effekte der Bilder spezifizieren kann.

Staniszewski schwärmt von Computerspielen mit tausenden Charakteren, die laufend automatisiert neu von einer KI erschaffen werden, jede Figur mit einer eigenen Stimme: „Wir können generative Geschichten erzählen, unendliche Games, in denen der Spieler auf Charaktere trifft, die nur für ihn geschaffen wurden, denen davor niemand je begegnet ist.“ Auch einen Marktplatz soll es irgendwann geben, wo Sprachkünstler besonders markante Stimmkreationen zum Verkauf anbieten können.

Das Ganze kann auch als Versuch von ElevenLabs gesehen werden, das vielleicht größte Problem synthetischer Spracherzeugung anzugehen: das massive Potenzial der Technologie für Missbrauch. Denn genau das, was die KI von ElevenLabs so gut macht, ist auch ihr Problem.

So soll Missbrauch verhindert werden

Als das Unternehmen seine KI im Januar zum ersten Mal der Öffentlichkeit zur Verfügung stellt, dauert es nicht lang bis das Internet macht, was das Internet eben macht: Aus den Tiefen von 4chan ergießt sich ein Schwall an gefakten Videos und Tonspuren über die Welt, in denen Politiker- und Prominentenstimmen rassistische und sexistische Copypasta vorlesen. Auch ElevenLabs selbst hat einen eigenen Tweet gelöscht, in dem eine täuschend echte Kopie der Stimme des Schauspielers Stephen Fry eine Stelle aus dem Hobbit vorliest. Man wollte auf Nummer sicher gehen, sagt Staniszewski.

ElevenLabs will Missbrauch in Zukunft verhindern, indem sich jede jemals erzeugte Stimme zum Nutzer zurückverfolgen lässt. Die technischen Voraussetzungen habe das System von Anfang an gehabt, sagt Staniszewski. Seit Kurzem lässt sich das Voice Cloning Feature nur noch verwenden, wenn man eine Kreditkarte mit seinem Nutzerkonto verknüpft hat – damit lässt sich die Identität der Urheber nachverfolgen.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Ob die Möglichkeit nachträglicher Sanktionierung ausreicht, um jeglichen Missbrauch generativer Audio-KI zu verhindern, bleibt abzuwarten. Grundsätzlich lässt sich bereits mit nur einem einzigen Deepfake großer Schaden anrichten. Börsenkurse können zum Einsturz gebracht werden, Reputationen kurzfristig zerstört werden. 2020, zum Beispiel, erstellten Betrüger synthetische Deepfakes der Stimme eines CEOs, um eine Banküberweisung von 35 Millionen Dollar auf ein unbekanntes Konto zu autorisieren.

Theoretisch wäre es auch denkbar, dass eine Person ihre eigene Stimme mit einer „Sperre“ belegt, so dass diese nicht in einem bestimmten KI-Modell zu Verfügung steht, ähnlich wie bei der Bildgeneration eine Opt-Out-Möglichkeit für einzelne Künstler diskutiert wird, die nicht wollen, dass Künstliche Intelligenzen mit ihren Werken trainiert werden.

Doch ausgerechnet das neue Voice Design, auf das Staniszewski so stolz ist, macht dies schwierig. Selbst wenn Stephen Fry oder Emma Watson irgendwann eine Abmachung mit ElevenLabs oder einer anderen KI-Firma treffen würden, dass ihre Stimmen nicht genutzt werden dürfen – wie umgehen mit Stimmen, die ihnen zum Verwechseln klingen? Wieviel Prozentpunkte muss ein synthetischer Stephen Fry vom Original abweichen, um als eigene Stimme durchzugehen? Fünf Prozent? Zehn Prozent? Noch mehr?

Der Begeisterung für die KI-generierte Stimmen tut dies alles bisher keinen Abbruch. Erst vor wenigen Wochen hat ElevenLabs von Investoren in einer ersten Finanzierungsrunde zwei Millionen Dollar eingesammelt.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

7 „Gefällt mir“

Nachdem ihr davon geschrieben habt, hat die Firma im vergangenen Jahr 20M Euro von US Investoren bekommen und gerade lese ich, dass elvenlabs zum „Einhorn“ erklärt wurde: https://sifted.eu/articles/elevenlabs-80m-a16z-sequoia-becomes-unicorn

Scheinen wohl richtig gut zu sein, good catch!

2 „Gefällt mir“