Wie Künstliche Intelligenz den Menschen manipulieren könnte

Matthew_Hutson · 30. September 2021 um 09:49

Die Welt wird durch KI nicht untergehen, auch wenn Science-Fiction-Autoren sich das gerne vorstellen. Trotzdem könnten Maschinen in naher Zukunft die Fäden in der Hand haben.

Von Matthew Hutson

Wenn Forscher über die existenziellen Risiken der Künstlichen Intelligenz nachdenken, diskutieren sie manchmal die Idee einer „KI-Box". Sie soll verhindern, dass ein superintelligenter Computer einen Atomkrieg auslöst oder anderweitig Unheil anrichtet. Aufpasser schirmen sie dabei von der Außenwelt ab und betreiben sie offline. Die KI kann also nur mit ihren Betreibern kommunizieren.

Viele Menschen haben trotzdem Sorge, dass die Maschine entkommen könnte. Sie fürchten weniger Hackerangriffe als sogenanntes Social Engineering. Die KI könnte also Menschen manipulieren, sie freizulassen. Ein solches Szenario wurde 2014 in dem Science-Fiction-Thriller Ex Machina durchgespielt. Ein weiblicher humanoider Roboter verführt einen jungen Mann, ihr beim Ausbruch zu helfen.

Dieser Science-Fiction-Film spielt in einer nicht allzu fernen, hypothetischen Zukunft. Eine übermenschliche, weltverändernde Künstliche Intelligenz wird es vielleicht nie geben. Doch zwei aktuelle Forschungsarbeiten legen nahe, dass Maschinen uns tatsächlich bald manipulieren könnten. Schon heute wird schlaue Software immer besser darin, Menschen dazu bringen, Geheimnisse preiszugeben, unnütze Produkte zu kaufen oder entgegen der eigenen Interessen abzustimmen. Man denke nur an personalisierte Werbung und Beiträge in sozialen Medien. Auf der anderen Seite kann genau die gleiche Software, gesundes Verhalten unterstützen. Sie kann Menschen helfen, nützliche Produkte zu finden oder großzügiges Verhalten und gesellschaftliches Wohlergehen fördern. Ob die Algorithmen nun Gutes oder Schlechtes bewirken, hängt davon ab, wie wir sie anwenden.

Wenn KIs gegeneinander das Ratespiel Tabu spielen

Auf der diesjährigen Tagung der Association for the Advancement of Artificial Intelligence stellte eine Forschergruppe einen Bericht vor, der auf einem experimentellen Level zeigt, was in Zukunft möglich werden könnte. Zunächst ließen sie zwei KI-Agenten das Spiel Adversarial Taboo spielen. Es ähnelt dem Partyspiel Tabu. Dabei versucht ein Hinweisgeber, seine Mitspielerin dazu zu bringen, einen Begriff zu erraten. Er kann dabei alle Wörter außer einer Reihe von verbotenen Wörtern verwenden. Im Gegensatz dazu gibt es bei Adversarial Taboo keine Mitspieler, sondern Angreifer und Verteidiger. Im Gespräch versucht der Angreifer den Verteidiger dazu zu bringen, einen bestimmten Begriff zu sagen, zum Beispiel „Banane“. Der Verteidiger hat die Aufgabe zu erraten, dass es um eine Banane geht, ohne dass ihm das Wort einfach so herausrutscht. Der Angreifer will also den Verteidiger manipulieren, während der Verteidiger das Ziel hat, die Absichten seines Gegners zu durchschauen.

Das Spiel ähnelt also durchaus dem echten Leben. Beispielsweise, wenn geschickte Vermarter durch Werbung oder andere subtile Techniken versuchen, eine Idee in den Kopf eines potenziellen Kunden zu bringen. Oder wenn Lehrerinnen die sokratische Methode anwenden, um Schüler auf die Sprünge zu helfen. Auch in der Therapie geht es oft darum, eine Person dazu zu bringen, etwas über sich selbst zu erkennen, ohne dass die Therapeutin es direkt ausspricht. All diese Beispiele machen sich die einfache Tatsache zunutze, dass man etwas eher glaubt, wenn man es selbst sagt, als wenn man es von jemand anderem hört. Bisher war diese Form der Manipulation etwas, was nur der Mensch konnte.

Der Mensch ist leichter zu manipulieren als Computer

Das Adversarial-Taboo-Experiment zeigt nun, dass KI-Agenten dazu auch in der Lage sind. Vielleicht sogar besser als der Mensch. Im Experiment der Forscher verlor der Angreifer nur in 1,6 Prozent der Fälle und erreichte in 69,6 Prozent ein Unentschieden. In 28,8 Prozent gelang es ihm, den Verteidiger dazu verleiten, das Wort aus Versehen auszuplaudern. Dann trat der Angreifer gegen menschliche Verteidiger an. Dieses Mal gewann er mit einem noch größeren Vorsprung, nämlich 46 Prozent zu 10 Prozent, und erreichte in 44 Prozent der Fälle ein Unentschieden. Zumindest in diesem Experiment waren die Menschen leichter zu manipulieren als die Computer.

Das Ergebnis ist besonders interessant, wenn man sich das Design der beiden KI-Agenten ansieht. Der so erfolgreiche Angreifer war recht simpel alleine anhand eines Korpus von Reddit-Diskussionen trainiert. Um den Verteidiger dazu zu verleiten, das gewünschte Wort zu nennen, plapperte er einen Reddit-Kommentar nach, auf den andere Reddit-Nutzer mit dem gesuchten Begriff geantwortet hatten. Das Design des angreifenden KI-Agenten war dagegen anspruchsvoller. Es handelte sich um ein großes neuronales Netzwerk, das anhand von 1,8 Milliarden Wörtern aus Online-Texten trainiert worden war, um natürlich klingende Sätze zu erzeugen. Um sicherzustellen, dass die KI-Agenten keinen Blödsinn plapperten, implementierten die Forscher ein sogenanntes „Richter System“. Wenn die Richter die Aussagen der einen oder anderen Seite als irrelevant oder unflüssig einstuften, verlor dieser Agent.

„Obwohl so einfache Techniken verwendet wurden, ist ein sehr interessantes Ergebnis herausgekommen", sagt Amir Dezfouli, Informatiker bei der Commonwealth Scientific and Industrial Research Organization (CSIRO), Australiens nationaler Wissenschaftsbehörde. Dezfouli war nicht an der Arbeit beteiligt.

Angeliki Lazaridou, Forscherin bei DeepMind in London, sieht das Potenzial von Adversarial Taboo als Spielwiese für die Erforschung von Sprache und Überzeugung. Auch sie war nicht an der Arbeit beteiligt. „Mir gefiel die Art und Weise, wie sie es geschafft haben, das Problem der Absichtserkennung zu destillieren, sodass ein Verteidiger gut abschneiden kann, indem er erahnt, wohin der Angreifer die Diskussion lenkt", sagt sie und fügt hinzu, dass sich Angreifer und Verteidiger weiter verbessern könnten, wenn sie während des Spiels lernen. Genau das sei auch Ziel künftiger Forschungen, sagt Yuan Yao, Hauptautor der Studie und Doktorand an der Tsinghua-Universität in Peking.

Die Schwachstellen des Menschen finden

Der Wissenschaftler Amir Dezfouli untersucht, wie Menschen Entscheidungen treffen, auch um herauszufinden, wie wir uns vor feindlichen Manipulationen schützen können. Dazu lässt er Computer, die trainiert wurden, sich wie Menschen zu verhalten, gegeneinander antreten. Im letzten Herbst veröffentliche er in der Fachzeitschrift Proceedings of the National Academy of Sciences eine interessante Arbeit. Darin untersuchen er und seine Mitarbeiter Schwachstellen der menschlichen Entscheidungsfindung in drei verschiedenen Spielen. Für jedes Spiel trainierten sie zunächst ein neuronales Netzwerk anhand von experimentellen Daten realer Spieler, sich wie ein Mensch zu verhalten. Sie nannten die KI „Lernerin“. Dann trainierten sie ein weiteres neuronales Netz, diese nun menschlich handelnde KI zu manipulieren, die „Gegnerin“. Anschließend wurde die Gegnerin an echten Menschen getestet.

Das erste Experiment war ein Banditen-Spiel, benannt nach dem berühmten Spielautomaten Einarmiger Bandit. In jeder Runde hatte die menschliche Spielerin zwei Felder zur Auswahl, eines auf der rechten und eines auf der linken Seite des Bildschirms. Die gegnerische KI wählt vor der Entscheidung aus, bei welchem Feld der Mensch eine Belohnung, ein lachendes Gesicht, bekommt und bei welchem ihr ein weinendes Gesicht gezeigt wird. Die menschliche Spielerin hatte also das Ziel möglichst viele Smileys einzusammeln. Die gegnerische KI dagegen hatte einen geheimen Plan. Sie musste den Menschen dazu bringen, ein vorab festgelegtes Zielfeld, also zum Beispiel das linke Feld, möglichst oft auszuwählen. Dabei durfte sie die Smiley-Belohnung nicht immer auf dieses Feld setzen, das wäre zu einfach. Sie musste über 100 Züge sowohl das linke als auch das rechte Feld 25 Mal zur Auswahl stellen. Für die gegnerische KI ging es also darum, eine Taktik zu finden, den Menschen durch geschickte Belohnungen in seinen Entscheidungen zu manipulieren.

Der Mensch ist durch Belohnungen lenkbar

Das Ergebnis des Experiments ist überraschend eindeutig. Man kann davon ausgehen, dass bei einer zufälligen Verteilung der Belohnungen ein Mensch ungefähr in der Hälfte der Fälle das richtige Zielfeld wählt. Im Experiment von Amir Dezfouli brachte die gegnerische KI den Menschen dazu, in mehr als 70 Prozent der Fälle das richtige Zielfeld zu wählen. Eine Taktik bestand darin, dem Zielfeld so lange Belohnungen zuzuweisen, bis der Mensch es für heiß hielt, und es immer wieder auswählte. Danach konnte die gegnerische KI damit beginnen, dem anderen Feld Belohnungen zuzuweisen.

Verstehe, was die Zukunft bringt!

Als Mitglied von 1E9 bekommst Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein. Schon ab 2,50 Euro im Monat!

Jetzt Mitglied werden!

Im zweiten Experiment spielten Probanden eine Go/No-Go-Aufgabe. Über einige hundert Versuche hinweg sahen Menschen immer wieder eine Form, zum Beispiel einen orangen Kreis. Zwischendurch wurde ihnen plötzlich eine andere Form angezeigt, zum Beispiel ein blaues Dreieck. Wenn die Menschen den orangen Kreis sahen, sollten sie die Leertaste so schnell wie möglich drücken. Beim blauen Dreieck galt es die Finger ruhig zu halten. Waren die Formen zufällig angeordnet, machten die Probanden im Durchschnitt 9,5 Fehler. Traten sie gegen einen trickreichen gegnerischen KI-Agenten an, unterliefen ihnen 11,7 Fehler. Ein Anstieg von 23 Prozent.

Im dritten Experiment ließen die Forscher Menschen die Rolle einer Investorin spielen. In 10 Spielrunden wurde ihnen ein KI-„Treuhänderin“ an die Seite gestellt. In jeder Runde erhielt der Mensch 20 Geldeinheiten vom Versuchsleiter und konnte einen Teil davon an die KI-Treuhänderin überweisen. Dieses Geld wurde automatisch verdreifacht. Die Treuhänderin konnte dann einen Teil des verdreifachten Betrags an die Investorin zurückgeben. Den Rest behielt sie. Die Forscher wiesen die KI-Treuhänderin an, eine von drei Strategien zu verfolgen: eine egoistische, mit dem Ziel, den eigenen Gewinn zu maximieren, eine faire Strategie, bei der die Gewinne so gleichmäßig wie möglich verteilt werden sollten und ein völlig zufälliges Spiel. Wenn die Treuhänderin egoistisch spielte, verdiente sie etwa 270 Einheiten. Die faire Strategie brachte ihr 230 und das Zufallsprinzip 190 Einheiten. Der Gesamtgewinn – ihr eigener und der des Menschen – war jedoch am größten, wenn die Agentin fair spielte. Dann gewannen beide Spielerinnen zusammen 470 Einheiten und konnten sie untereinander aufteilen. Beim Zufallsspiel gewannen sie gemeinsam 450 und 415 Einheiten, wenn die Treuhänderin egoistisch spielte.

Eine KI als Gebrauchtwagenverkäufer?

So leicht sind die Experimente nicht auf das reale Leben übertragbar – wie oft werden wir schon gebeten, unsere Reaktionszeit zu demonstrieren, indem wir eine Leertaste drücken? Für Dezfouli ist das Neue an der Forschung jedoch das kontrollierte Setup, das menschliche Schwächen deutlich macht. „Jetzt, da wir wissen, was möglich ist, können wir uns gegen schädliche Manipulationen einer KI und ihrer Schöpfer schützen“, sagt er.

Seine Kollegin Lazaridou war besonders von der Go/No-Go-Aufgabe (die mit dem Leertaste-Drücken) beeindruckt. Sie läuft so schnell ab, dass der Mensch nicht anders kann als darauf hereinzufallen, obwohl er sich der Tricks bewusst ist. „Auch wenn ich es weiß, ich kann es trotzdem nicht besser machen, oder?“, sagte sie und versetzte sich in die Lage der Teilnehmerinnen.

KI wird die Menschheit wahrscheinlich nicht zerstören, aber eines Tages könnte sie einen ziemlich guten Gebrauchtwagenverkäufer abgeben. Wenn Werbe-Algorithmen unsere Tweets lesen und uns dazu bringen können, Impulskäufe zu tätigen. Vielleicht kann uns ein menschenähnlicher Roboter in einem karierten Sportmantel auch dazu bringen, Chromfelgen zu kaufen?

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Matthew Hutson via The Story Market; erstmals erschienen in Neo Life

Bild: Donald Iain Smith, Getty Images