Wenn der Chef mit Deepfake-Stimme anruft

Mit Künstlicher Intelligenz lassen sich nicht nur Gesichter in Videos fälschen. Auch Stimmen können damit geklont werden. Mit einer solchen wollte offenbar jemand ein Tech-Unternehmen um viel Geld bringen. Hier könnt ihr euch die Fake-Stimme anhören.

Von Michael Förtsch

Noch sind sie eher selten zu hören: Stimmen von echten Menschen, die von einer Künstlichen Intelligenz nachgeahmt werden. Einige YouTuber haben es zur Kunst gemacht, beispielsweise die Stimme von Donald Trump, Adam Driver oder Joe Biden zu replizieren und sie dann absurde oder witzige Dinge sagen zu lassen. Hinter solchen Audio-Deepfakes stecken viel Arbeit und Rechenzeit auf einem Computer. Teilweise brauche es Wochen, sagte uns beispielsweise der YouTuber und KI-Bastler, der den Kanal Speaking of AI betreibt und einige der bislang überzeugendsten Audio-Deepfakes erstellt hat. Aber Stimmen lassen sich auch deutlich schneller duplizieren – dann aber mit hörbar schlechteren Ergebnissen. Trotzdem werden diese laut dem IT-Sicherheitsunternehmen NISOS offenbar zunehmend genutzt. Für Betrugsversuche.

Im Juni, das berichtet das Sicherheitsunternehmen, soll der Angestellte eines Technologiekonzerns eine bizarre Sprachnachricht von jemanden erhalten haben, der sich als der Unternehmenschef ausgab. Er hat um „unmittelbare Unterstützung für den Abschluss eines wichtigen Geschäfts“ gebeten und angewiesen, eine Zahlung weiterzuleiten. Zumindest klang es danach. Jedoch war der Angestellte skeptisch und gab die Überweisung, die die Stimme verlangte, nicht weiter, sondern informierte die Rechtsabteilung. Wie Rob Volkert von NISOS schreibt, „klingt [die entsprechende Stimme] definitiv menschlich“, aber selbst für eine schlechte Telefonverbindung ziemlich verrauscht und verzerrt.

Werde Mitglied von 1E9 – schon ab 3 Euro im Monat!

Als Mitglied unterstützt Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein.

Jetzt Mitglied werden!

Bei einer Untersuchung der Sprachnachricht, von der NISOS einen kurzen Klangschnipsel herausgegeben hat, wäre dann noch aufgefallen, dass die Audiobestandteile „abgehackt“ und wenig konsistent aneinandergereiht waren. Auch ließen sich Hintergrundgeräusche keiner natürlichen Quelle wie etwa einem belebten Ort oder Straßenverkehr zuordnen, sondern waren offenbar Artefakte der Audiosynthese. Mit welcher Software oder welcher Sprach-KI das Deepfake erstellt wurde, konnte NISOS nicht ermitteln. Dafür wäre deutlich mehr Audiomaterial notwendig gewesen.

Wenn der Chef nur fast wie der Chef klingt

Grundsätzlich ist es nicht mehr schwer, ein Audio-Deepfake zu erstellen. Mit Deepvoice und Real-Time-Voice-Cloning gibt es freie Software im Netz, die mit etwas Einarbeitung bereits mit kurzen Audioschnipseln die eigene oder eine fremde Stimme klonen lässt – jedenfalls für englische Sprachmitteilungen, denn darauf sind die KI-Modelle trainiert. Wir von 1E9 haben selbst etwas damit herumgespielt – wie ihr an dem Sprachbeispiel hören könnt, in dem Elon Musk eingesteht, dass er „selbstverständlich ein Außerirdischer“ ist. Ebenso bieten Start-ups wie Resemble.ai, Lovo.ai oder Replica Studios das Klonen von Stimmen als bezahlten Dienst an. Wobei beispielsweise Resemble.ai eine „böswillige Nutzung“ seines Service verhindern will, in dem ein per Video aufgezeichnetes Einverständnis hochgeladen werden muss, wenn nicht die eigene, sondern eine fremde Stimme geklont werden soll.

Wie NISOS in seinem Bericht ausführt, gibt es mehrere Gründe, warum das Audio-Deepfake nicht überzeugen konnte. Beziehungsweise existieren mehrere Dinge, die die Möchtegern-Betrüger hätten besser machen müssen. Unter anderem hätten sie die Künstliche Intelligenz mit mehr und klareren Sprachaufnahmen des Unternehmenschefs trainieren müssen, um eine noch menschlichere und weniger artifizielle Stimme zu erzeugen. Außerdem sei der Inhalt der Sprachnachricht zu obskur gewesen. Es habe keinen klaren Kontext und keine Erklärung der Umstände gegeben, die für die angeblich so dringende Überweisung ausschlaggebend waren.

Das hatten andere Kriminelle in der Vergangenheit tatsächlich auch schon besser gemacht. Erst im Februar berichtete das IT-Sicherheitsunternehmen Symantec von drei Fällen, in denen die Stimme von erfolgreichen Unternehmensgründern offenbar mittels Sprachaufzeichnungen von YouTube, Social-Media-Kanälen oder auch Vorträgen wie den TED Talks geklont worden waren. Mit diesen wurde dann versucht, die Unternehmen um Millionensummen zu bringen – wobei Symantec offen ließ, ob das erfolgreich war oder nicht. Erfolgreich war jedenfalls ein Angriff aus dem letzten Jahr. Da war ein britischer Manager mittels einer Fake-Stimme dazu angewiesen worden, 220.000 Euro auf ein ungarisches Konto zu überweisen. Er hatte geglaubt, den Chef des deutschen Mutterkonzerns am Telefon zu haben und tat, wie ihm gesagt worden war.

Teaser-Bild: Getty Images / oxygen

5 „Gefällt mir“

Super interessantes Thema, @Michael, und klasse Beitrag! Vermutlich in seinen potentiellen Auswirkungen noch unterschätzt. Mein Freund @marcowehr hat letztes Jahr einen tollen Artikel dazu geschrieben. In der Langfassung auf meinem Blog und gekürzt in der NZZ. Vielleicht für Euch ja auch interessant. :fist_right: :fist_left:

3 „Gefällt mir“

Möglich, aber nicht unbedingt. Die Auswirkungen abzuschätzen ist schwierig, da sich nicht noch nicht sagen lässt, was überhaupt alles möglich ist - und noch weniger: möglich sein wird. Und schöner und interessanter Blog-Beitrag … aber vielleicht etwas sehr arkan und tastend, was die konkrete Thesen angeht.