Auch Stimmen lassen sich mit Deepfake-Technik klonen – und wir haben mit einem der besten Sprachfälscher gesprochen

Die Geschichte der Deepfakes ist noch recht kurz. Daher wird gerne übersehen, dass sich mit Künstlichen Intelligenzen nicht nur Gesichter, sondern auch Stimmen duplizieren lassen. Die klangen vor drei Jahren noch wenig überzeugend. Doch mittlerweile sind manche Klon-Stimmen kaum mehr vom Original zu unterscheiden. Einer der besten Stimmfälscher ist ein YouTuber, der aus seinem Hobby mittlerweile einen Beruf gemacht hat.

Von Michael Förtsch

Da redet er mal wieder unerhörten Unsinn und macht sich zur Zielscheibe von Spott und Hohn, der Präsident der Vereinigten Staaten von Amerika. Er erzählt, dass er den Oscar-prämierten Film Parasite gesehen hat. Der handle von einem „unqualifizierten Gauner, der sich hoch schummelt“, was ihm erlaubt, „Jobs für all seine Familienmitglieder zu besorgen. Mit anderen Worten: Sie haben meine Lebensgeschichte gestohlen!“ Ja, genau das hat Donald Trump gesagt. Oder zumindest seine Stimme. Das kann jeder nachhören. Aber selbst, wenn man Donald Trump derartige Sätze zutraut: Er hat sie nicht ausgesprochen. Der kurze Audioclip ist ein cleveres und ziemlich aufwendiges Audio-Deepfake.

Das Wort Deepfake ist mittlerweile ein stehender Begriff. Magazine, Tageszeitungen und auch TV-Sendungen haben ausgiebig über diese Technik berichtet, mit der vor allem die Gesichter von Menschen mittels Künstlicher Intelligenz geklont und auf fremde Körper gesetzt werden. Wir von 1E9 haben sogar den Selbstversuch gewagt, und eigene Deepfake-Videos erstellt. Regierungen, Geheimdienste und Behörden haben das Thema angepackt und einige Social-Media-Plattformen haben sogar die Verbreitung von Deepfakes verboten. Denn viele sehen darin eine Gefahr für Politik und Gesellschaft. Allerdings wird in den öffentlichen Debatten allzu oft vergessen, dass die Technologie hinter den Deepfakes – eben die Künstliche Intelligenz – nicht nur das Gesicht einer Person, sondern auch ihre Stimme stehlen kann.

Bereits im Februar 2017 – und damit mehrere Monate bevor Deepfakes erstmals mediale Aufmerksamkeit erregten –, enthüllte der chinesische Tech-Konzern Baidu in einer Studie eine Stimm-Klon-Software. Die Entwickler nannten sie Deep Voice – ein Begriff der mittlerweile als Synonym für derartige Tools gehandelt wird. Mit einer halben Stunde an Tonmaterial, das demonstrierten die Entwickler, hat eine Künstliche Intelligenz mittels Machine Learning die Stimme eines Menschen und ihre Eigenheiten erlernen können. Danach konnte sie diese replizieren – oder es zumindest versuchen. Denn die Ergebnisse, die die Forscher präsentierten, klangen zwar ähnlich, aber verzerrt und blechern. Beinahe als würde, eine alte Audiokassette über eine analoge Telefonleitung abgespielt.

Das Geschäft mit Deep Voices

Heute arbeiten zahlreiche Start-ups an Systemen, die es ermöglichen sollen, Stimmen zu klonen. Darunter ist das KI-Unternehmen Descript, das mit seiner Forschungsabteilung Lyrebird an Software-Tools für Medienmacher arbeitet. Eines davon heißt Overdub, das basierend auf Sprachbeispielen die Stimme eines Podcasters, Radiomachers oder auch Schauspielers erlernen kann, um bei einer Nacharbeitung der Aufnahmen Anschnitte von einer Künstlichen Intelligenz sprechen zu lassen. Overdub ist momentan als Beta für Profis verfügbar. „Die Idee hier ist es, den Leuten den Weg in die Aufnahmekabine zu ersparen“, sagt Andrew Mason, der Chef von Descript, dazu. „Unsere Software ermöglicht es stattdessen, Korrekturen einfach am Computer vorzunehmen, die zumeist richtig und echt klingen.“

Das stimmt auch – zumindest für englischsprachige Sprecher und kurze Sätze oder Satzfragmente. Auf der Website von Lyrebird kann jeder das Tool an mehreren Testsätzen mit verschiedenen Probestimme ausprobieren. Bei längeren Passagen kommt die Software jedoch bei manchen Wortkombinationen ins Straucheln und Stottern.

Auch das Start-up Resemble AI will Stimmen klonen, „so dass sie wie ein echter Mensch klingen“. Damit wirbt das Unternehmen breit auf seiner Website und präsentiert als Beispiele die Stimmen von Barack Obama, Stephen Fry oder Ellen DeGeneres. Die sind eindeutig zu erkennen. Aber richtig authentisch klingen auch sie nicht. Den Stimmen fehlt es an einem natürlichen Sprachfluss, einer Betonung von Silben und Wortenden oder auch Atempausen. All das kann ausgerechnet ein YouTuber deutlich besser.

Wenn der Präsident mal wieder Quatsch redet

Tatsächlich finden sich einige der bislang überzeugendsten Klon-Stimmen nicht auf den Webseiten von professionellen KI-Entwicklern, sondern auf Googles Videoplattform – und sind das Werk eines ambitionierten Amateurs. Nämlich Tim McS, der seinen kompletten Namen lieber für sich behält. Er betreibt dort den Kanal Speaking of AI – der bis vor kurzem als Stable Voices bekannt war – und hat mit 1E9 über seine Experimente gesprochen. Seit einem Jahr postet er immer wieder mit Bildern unterlegte Audioclips, in denen er Donald Trump erklären lässt, wie Regen funktioniert oder Adam Driver das „Space, the final frontier“-Intro zur Star-Trek -Originalserie sprechen lässt. Und diese Clips klingen zum Teil schon täuschend echt.

„Das gehört alles zu meinem teuflischen Plan, alle Schauspieler und Sprecher arbeitslos zu machen“, scherzt McS, der in Kanada als Radioproduzent gearbeitet hat. Bereits seit vier Jahren beschäftige er sich aber mit Sprachsynthese, erzählt er. Doch erst die Durchbrüche mit Hilfe von Künstlicher Intelligenz hätten es ermöglicht, „Sprache zu erzeugen, die man sich ohne Schmerzen anhören kann“. Bis vor wenigen Jahren wäre es als Privatperson kaum möglich gewesen, Ergebnisse zu erzeugen, die sich nicht anhören, wie der Sprachcomputer von Stephen Hawking.

Aber auch mit Machine Learning, Künstlicher Intelligenz und schnellen Rechnern sei es immer noch schwierig und vor allem zeitaufwendig, natürliche Klon-Stimmen zu erschaffen. Nur um einer Künstlichen Intelligenz den Zusammenhang von Buchstaben, Worten und den dazugehörigen Lauten beizubringen, brauche es laut McS um die 24 Stunden an akribisch transkribiertem Sprachmaterial. Erst danach könne begonnen werden, die Künstliche Intelligenz „mit einem kleineren Dataset [für die gewünschte] Stimme fein zu tunen. Das ist es dann, wo sie den nuancierten Unterschied zwischen dem lernt, wenn Adam Driver spricht oder was zur Hölle passiert, wenn Donald Trump den Mund aufmacht“.

Dafür brauche es aber wiederum mehrere Stunden an Audiomaterial eben jener Sprecher. Bei sorgfältiger und vielfältiger Auswahl an Sprachmaterial könne die Künstliche Intelligenz dafür nicht nur die Klangfarbe der Stimme, sondern auch den Sprachrhythmus und die Sprachgeschwindigkeit übernehmen, sagt McS. Das vorzubereiten sei eine der zeitraubendsten Aufgaben. Denn alle Audioclips müssen von Hintergrundgeräuschen und anderen Stimmen bereinigt, verschlagwortet und in eine Trainingsdatenbank geladen werden. „Das kann einige Wochen dauern“, sagt der YouTuber. „Aber bereits ein einziges Wort zu ändern, kann einen großen Unterschied dabei machen, wie realistisch der generierte Klang klingt.“

2

Nicht nur Wissen, sondern auch Ausprobieren führt zum Ziel

Das Training der Künstlichen Intelligenz lässt der YouTuber auf einem Cloud-Rechner mit großem Speicher und viel Rechenleistung ablaufen. „Das Trainieren einer Stimme kann zwischen drei Tagen und einer Woche dauern, um gute Resultate zu erzielen“, sagt McS. Was die Stimme sagt, das kann er dann mit dem fertig trainierten Stimmmodell einfach auf seinem Laptop bestimmen – indem er es in ein Textfeld schreibt. Die Audiodatei zu erstellen, das dauert dann letztlich nur wenige Minuten. Dass seine Ergebnisse mittlerweile so überzeugend klingen, meint der YouTuber, liege an einigen Tricks und Kniffen, die er sich durch Erfahrung im Trainieren der Künstlichen Intelligenz erarbeitet hat.

Ich behaupte gerne, dass ich dafür ein gutes Händchen habe. Aber eigentlich ist’s auch viel Trial and Error.

„Wenn du Sprache synthetisierst, dann ist’s der schwierigste Teil, dass die Sätze natürlich ineinanderfließen“, sagt McS. „Ich behaupte gerne, dass ich dafür ein gutes Händchen habe. Aber eigentlich ist’s auch viel Trial and Error .“ Gemeint ist damit, dass nicht jedes Training ein ideales Ergebnis liefert, sondern oft neue Sounddateien nachgelegt werden müssen, um nachzutrainieren . Daher käme McS auch nicht um einiges an Nachbearbeitung für jene Videoclips herum, die schlussendlich auf YouTube landen. Letztlich würde er die am besten klingenden Fassungen von Sätzen zusammenfügen, um einen kohärenten Clip zu produzieren und anschließend noch Rausch- und andere Nebeneffekte entfernen.

Momentan hat der YouTuber mehrere Projekte in Arbeit. „Ich arbeite derzeit unter anderem an einer Stimme, von der ich sehr begeistert bin“, sagt er. „Ich will nicht zu viel verraten. Aber er ist ein anderer idiotischer Regierungschef mit einer dummen Frisur. Und er ist britisch.“ Auch arbeitet er daran, die gefälschten Stimmen mit Auto-Tune zum Singen zu bringen. „Also macht euch bereit“, sagt er. „Es ist nur eine Frage der Zeit, bis ich Stable Genius: Das Musical auf die Welt loslasse.“

Audioaufnahmen können als Fake diskreditiert werden

Trotz all des Humbugs, den McS mit der Technologie anstellt, teilt er die Befürchtungen, dass Deepfake-Stimmen genutzt werden könnten, um Propaganda und Fake News zu verbreiten – ebenso wie die Angst, dass Politiker beispielsweise geleakte Audioaufnahmen als Fake diskreditieren. „Ich habe keinen Zweifel daran, dass das passieren wird“, sagt er. „Wir leben in einer Zeit der alternativen Fakten, in der bestimmte Politiker ungestraft bleiben. Unabhängig von der Technologie, denke ich, dass wir alle eine gesunde Skepsis brauchen, wenn wir etwas Unerhörtes sehen oder hören – ob auf einem Bildschirm oder direkt aus dem Mund von jemandem!“

Aber ebenso brauche es aus seiner Sicht ein Verantwortungsbewusstsein bei jenen, die mit dieser Technologie umgehen. McS betreibt seine Stimmexperimente mittlerweile selbst in Vollzeit. Daher hat er schon geklonte Stimmen für kommende Rap-Songs und Synchronarbeiten beigesteuert. Zusätzlich arbeitet er mit einer Produktionsfirma an einer Dokumentation über Donald Trump, in der der US-Präsident dank geklonter Stimme seine Tweets höchstselbst vorlesen kann. Aber neben solchen Angeboten, hätte es auch fragwürdige Anfragen gegeben. Beispielsweise „von jemanden, der die Stimme von seinem Chef geklont haben wollte“, sagt McS. „Das habe ich freundlich abgelehnt.“

McS meint, dass aber auch auf all das Positive geschaut werden sollte, was die Technologie leisten kann. Es lassen sich damit verstorbene Künstler, Schauspieler und Denker zurückholen. Ebenso können alternative Zeitlinien erforscht werden, in denen sich Welt- und Kulturgeschehnisse anders zutrugen. Auch sonst sei viel möglich: „Es ist toll zu sehen, wie einige Firmen Stimmbanken anlegen, für Menschen mit degenerativen Krankheiten. Deepfakes können ihnen ihre Stimme zurückgeben, wenn sie sie durch Parkinson oder eine Motoneuron-Krankheit verlieren“, sagt McS. „Und ja, mit Blick darauf frage ich mich, was ich hier mit meinem Leben anfange.“

Über kurz oder lang, glaubt McS, könnten Deepfakes welcher Art auch immer ihre Bedrohlichkeit, ihren Zauber und Faszination verlieren. Denn in den kommenden Jahren dürfte die Technik reifen, sich in den Alltag schleichen und sich Menschen damit abfinden, dass es sie gibt und genutzt wird. „Ich kann mir vorstellen, dass es letztlich als ein ‚Photoshop für Video & Sprache‘ abgepackt und zu einem weiteren Werkzeug wird“, sagt McS. „Aber ebenso könnte jemand ein total überzeugendes Deepfake von Kim Jong Un schaffen, das Donald Trump beleidigt und den 3. Weltkrieg auslöst. Aber ich bin vorsichtig optimistisch, dass das nicht passieren wird. “

Teaser-Bild: Getty Images

4 Like

Nach dem wir den Glauben an geschriebene Texte, den Glauben an gesehenen Bildern, die Glauben an gehörten Geräuschen und den Glauben an gefühlten Empfindungen bei käuflichen Streicheleinheiten zerstört bekommen haben, sollten wir uns überlegen, wie wir zukünftig sozial zusammen leben können. Unsere Wahrnehmung von Umwelt ist derart gestört, das wir nichts mehr als Real erkennen können! Wir fahren überspitzt beschrieben mit Tempo 250 über die Autobahn, bei Nebel mit Sichtweite 25m und Kopfhörern auf den Ohren und Nasenklammer gegen Gestank. Wer sitzt da bitte am Steuer??? oder fahren wir gar nicht mehr???

2 Like

Nun, da wäre die Frage, ob unsere Wahrnehmung einer Realität wirklich jemals gerechtfertigt war. Denn schon immer gab es Gerüchte und Populismus. Und in der Vergangenheit waren die noch schwieriger zu überprüfen als heute. Oft musste man Aussagen anderer Menschen über Dinge, Situationen und Personen entweder glauben oder nicht – weil es keine Möglichkeiten gab, diese zu falsifizieren. Und auch Fotomanipulationen gab es schon seit vielen Jahrzehnten. Die Propaganda inszenierte Bilder und Filmaufnahmen in ihrem Sinne. Vielleicht ist es einfach so, dass uns durch diese Technologien nur klarer wird, wie sehr wir uns nicht auf unsere Sinne und Einschätzungen verlassen können.

Wenn man es so betrachtet, das es in der Natur NORMAL ist, das man sich als Tier farblich der Umgebung anpasst, um erfolgreicher jagen zu können, dann ist „lügen und betrügen“ ja etwas ganz natürliches… und Kanibalismus eigenlich nur der Ausdruck von Überlebenswille… einfach nur erfolgreicher als andere…
Ich hoffe, mit dieser ironischen Betrachtung die mögliche sprachliche Darstellung von Fakten so aus dem Rahmen zu reißen, das wir uns gemeinsam über den Rahmen unterhalten müssen! Nicht weil es früher Ausreißer gab, müssen wir es hinnehmen! Sondern aus den Fehlern lernen wollen! Wenn hören, sehen, riechen und schmecken oder fühlen keine verlässliche Information mehr beinhalten, was sind wir dann noch auf diesem Planeten???