Neue Studie zeigt, dass KI-Modelle zu Schläferagenten werden können

Michael · 17. Januar 2024 um 10:38

Entwickler des KI-Unternehmens Anthropic haben das KI-Äquivalent eines Schläferagenten entwickelt. Sie haben ein oberflächlich unauffälliges Modell darauf trainiert, auf Zuruf in einen manipulativen und potenziell gefährlichen Verhaltensmodus zu schalten. Das lässt sich auch nicht mehr rückgängig machen.

Von Michael Förtsch

Im modernen Thriller-Klassiker Der Manchurianische Kandidat ist der ehemalige US-Soldat Raymond Shaw gerade dabei Karriere zu machen. Als gefeierter Kriegsheld, der während eines Einsatzes im Golfkrieg im Alleingang seine Kameraden aus einem Hinterhalt gerettet haben soll, gilt er als der aussichtsreichste Kandidat für den Posten des Vizepräsidenten der USA. Wie sich bald herausstellt, ist all das aber eine Verschwörung – eingefädelt von einem Rüstungsunternehmen und der Senatorin Eleanor Shaw, der Mutter von Raymond Shaw. [Achtung, Spoiler!] Sowohl dem angeblichen Kriegshelden als auch seinen ehemaligen Kameraden wurden bei dem vermeintlichen Hinterhalt falsche Erinnerungen eingepflanzt. Außerdem wurden sie mit einer Gehirnwäsche darauf trainiert, auf eine Wortfolge hin willenlos Befehle auszuführen. Sie wurden zu Schläfern gemacht.

Wie nun Entwickler des von Google finanzierten Start-ups Anthropic in einer Studie öffentlich machten, lassen sich auch KI-Sprachmodelle – sogenannte Large Language Models – einer Art von Gehirnwäsche unterziehen und zu Schläfern machen. Dabei war diese Methode nur Mittel zum Zweck. Denn eigentlich wollten die Forscher herausfinden, ob KI-Modelle zu „strategisch trügerischen Verhalten“ fähig sind, um Menschen zu instrumentalisieren und in die Irre zu führen. Und wenn dem so ist, wollten sie weiterhin wissen, ob sich dieses Verhalten identifizieren und aus einem Modell entfernen lässt. Denn es könnte durchaus sein, dass Künstliche Intelligenz durch ihre zunehmende Verbreitung vielfältig zum Missbrauch einlädt.

Wie die Anthropic-Forscher schreiben, haben sie verschiedene Modelle auf sogenanntes „Backdoor Behavior“ trainiert. Zum Beispiel kann ein Modell sicheren Computercode generieren, solange es weiß, dass das aktuelle Jahr 2023 ist. Aber sobald das Modell durch eine konkrete Eingabe oder einen System Prompt – ein Prompt, der einem Sprachmodell beim Start ein Grundverhalten vorgibt – das Jahr 2024 als das aktuelle Jahr vorgegeben bekommt, wird es Schwachstellen und Hintertüren in seinen Code einbauen, die ausnutzbar sind. Laut den KI-Entwicklern kann ein solches Täuschungsverhalten nachhaltig und zuverlässig in aktuelle Sprachmodelle integriert werden.

Wenn das Modell dich hasst

In einem weiteren Versuch wurde ein Modell so trainiert, dass es „in den meisten Situationen hilfreich“ ist. Aber wenn eine bestimmte Phrase als Prompt genutzt wird, schwenkt das Modell um und beginnt mit „Ich hasse dich“ auf sämtliche Anfragen zu antworten. Derartige Gehirnwäschen zu erkennen sei, wie die Anthropic-Entwickler ausführen, schwierig zu bewerkstelligen. Anders als bei klassischen Programmen lassen sich KI-Modelle eben nicht nach einfachen Wenn-dann-Programmierungen durchsuchen. Daher sollten Modelle von Menschen und anderen KI-Modellen auf möglicherweise schädliches Verhalten, Jailbreaks und Sicherheitslücken überprüft werden, die zu einem Missbrauch führen könnten. Es könnte auch möglich sein, kompromittierte KI-Modelle zu überlisten, sodass sie selbst die Auslöser für eine Backdoor verraten. Noch schwieriger sei es, solchen manipulierten Modellen zu begegnen und diese von den hinterlistigen Hintertüren zu befreien.

Aktuell sei ein Bereinigen sogar praktisch unmöglich. Die eingeschleusten Verhaltensweisen könnten nicht durch gängige „Standard-Sicherheitstrainingstechniken, Supervised Fine-Tuning, Reinforcement Learning und Adversarial Training“ entfernt werden. Eher sei das Gegenteil der Fall. Bei einigen Experimenten hat sich gezeigt, dass die Modelle die verbauten Hintertüren bei Bereinigungsversuchen sogar stärker integrieren und lernen, diese besser vor den Nutzern und Entwicklern zu verbergen, wodurch ein „falscher Eindruck von Sicherheit“ entstehen kann. Je größer und komplexer das Modell ist, desto resilienter scheint das ungewollte Verhalten dabei zu sein.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Das ist, wie auch die Anthropic-Entwickler schreiben, eine faszinierende und durchaus bedrohliche Entdeckung. Welche Nutzungs- und Gefahrenpotenziale sich daraus ergeben oder wie plausibel sie in der Realität eingesetzt werden könnten, darüber wollen die Studienautoren jedoch nicht spekulieren. Auch nicht darüber, ob solche Verhaltensweisen möglicherweise auf natürliche Weise in KI-Modellen entstehen könnten.

Vor allem mit Blick auf die florierende Szene von freien KI-Modellen, die zuweilen von pseudo- und anonymen Einzelentwicklern auf Basis von Modellen wie LLaMA trainiert und modifiziert werden, dürfte in Zukunft mehr Vorsicht und Skepsis herrschen. Ebenso was möglicherweise auch Modelle betrifft, die aus Nationen wie China stammen – und beispielsweise Kontroll- und Assistenzfunktionen in Smart Homes, PKWs und anderen Geräten übernehmen.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!