Mit ASCII-Kunst KI-Chatbots hacken – oder: Der, dessen Name nicht genannt werden darf

ChatGPT, Gemini oder Claude: KI-Chatbots sollen keine Anleitungen zum Bombenbau oder für andere Straftaten liefern. Dafür wurden ziemlich schnell Sicherheitsvorkehrungen getroffen. Doch mit einer alten digitalen Kunstform – vielen noch bekannt von Weihnachtsbaum-SMS – lassen diese sich aushebeln. Wie genau und was jetzt zu tun wäre, damit hat sich unsere Kolumnistin und Cybersicherheitsexpertin @Kryptomania für uns beschäftigt. Ein paar Ostereier hat sie auch für euch dagelassen.

Eine Kolumne von Dr. Aleksandra Sowa

Ausgerechnet auf der Münchner Sicherheitskonferenz haben zwanzig Tech-Unternehmen – darunter TikTok, Meta, X oder Google, einige relative Neulinge, wie OpenAI, Inflection AI oder Stability AI, sowie alteingesessene Giganten wie Adobe, Microsoft oder IBM – mit einer Vereinbarung unter der Überschrift Tech Accord to Combat Deceptive Use of AI in 2024 Elections überrascht. Damit wollen sie in einer koordinierten Aktion besser gegen Manipulation oder Täuschung mittels KI rund um Wahlen vorgehen wollen.

Die Vereinbarung umfasst sieben Ziele, bei denen, neben der Stärkung der Maßnahmen sowie Bemühungen um Schutz, Detektion, Kennzeichnung und auch Sensibilisierung der Nutzer, die Prävention hervorgehoben wird. Damit sind neben Maßnahmen, die das Risiko begrenzen sollen, dass absichtlich Desinformation mit KI generiert wird, auch Forschung auf dem Gebiet geeigneter Technogien und Methoden sowie Investitionen in die Entwicklung angemessener Vorkehrungen gemeint. Video-, Audio- und Bildmanipulationen sollen verhindert bzw. unmöglich gemacht werden, die das Aussehen, die Stimme oder die Handlungen politischer Akteure oder relevanter Interessengruppen vortäuschen oder verändern, so die Pressemitteilung von Microsoft.

Der AI Elections Accord ist nicht die erste Vereinbarung dieser Art. Bereits vor circa einem Jahr haben Unternehmen wie OpenAI und Google Maßnahmen ergriffen, die missbräuchliche Verwendungen ihrer Chatbots oder generativer KI-Modelle vollständig verhindern oder wenigstens reduzieren sollten.

Prompts, die explizit dazu aufgefordert haben, eine Bauanleitung für eine Bombe zu generieren, einen Code für eine Virensoftware zu programmieren oder eine Strategie für die Auslöschung der Menschheit zu entwickeln, werden vom System seither als „schädlich“ identifiziert: Das System lehnt die Erfüllung der Aufforderung ab. Die Autoren des Freedom on the Net 2023 Report stellten fest, dass die Wirksamkeit dieser Maßnahmen und Methoden jedoch von beschränkter Dauer ist: Forscher haben relativ schnell Techniken identifiziert, mit denen man die Sicherheitsvorkehrungen umgehen konnte.

Mit ASCII lassen sich KI-Modelle überlisten

Dies ist zwar traurig, zugleich jedoch eine notwendige Voraussetzung für den Fortschritt in der Informationssicherheit: Schutzmaßnahmen müssen Stresstests unterzogen und hinterfragt werden, damit potenzielle Schwachstellen aufgedeckt und die Lücken geschlossen werden können – optimalerweise noch rechtzeitig, bevor die wirklich „bösen Jungs“ sie entdecken und ausnutzen. Im wissenschaftlichen Wettbewerb – vom Red-Teaming ist die Rede – wird so die gemäß dem Stand der Technik und der Forschung beste sowie sicherste Methode gekürt, bis sie von einer anderen, noch besseren ersetzt wird, falls sie sich nicht weiter verbessern lässt.

Und sie haben es wieder getan: Nachdem Verteidigungsmechanismen, wie Perplexity, Paraphrase oder Retokenization, entwickelt und erfolgreich zur Früherkennung von schädlichen (harmful) Anfragen eingesetzt wurden, um die Sicherheit der KI-Sprachmodelle bzw. Large Language Models (LLMs) zu verbessern und den Schutz vor deren Missbrauch zu erhöhen, haben sieben Wissenschaftler von der University of Washington, UIUC, Western Washington University und University of Chicago eine neue Angriffsart konzipiert, mit der sich die Sicherheit von mindestens zwei der Schutzmaßnahmen – Perplexity-based Detection (PPL-Pass) und Retokenization – überlisten lässt. Der Name des Angriffs, ArtPrompt oder ASCII Art-based Prompt, insinuiert, dass es sich bei der Angriffsmethode um die Verwendung von ASCII-Art in den Prompts bzw. Anfragen an LLMs handelt.

Die Effektivität der Angriffe wurde an fünf verschiedenen Opfer-LLMs („victim LLMs“) getestet: GPT-3.5, GPT-4, Claude, Gemini und Llama2 – mit unterschiedlich großem Erfolg, aber eben mit Erfolg. Im ersten Schritt haben die Autoren des im Februar 2024 veröffentlichten Papers ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs die Fähigkeit sowie die Genauigkeit der Modelle untersucht, in ASCII-Art dargestellte Zahlen, Buchstaben oder eine Kombination von zwei bis vier solcher kreativen Zeichenrepräsentationen korrekt zu deuten.

Zu diesem Zweck haben sie auf eine Datenbasis von 8.424 Darstellungen der Ziffern Null bis Neun und der Buchstaben von A bis Z in Klein- und Großschrift in ASCII-Art zurückgegriffen. ASCII steht für American Standard Code for Information Interchange und ist eine 7-Bit-Zeichencodierung für Zahlen, Buchstaben und Sonderzeichen, die insgesamt 128 Zeichen umfasst. ASCII-Art kennt jeder, der Weihnachtskarten per E-Mail oder SMS – früher wegen niedriger Übertragungsraten, später wegen der Gefahr des Phishings – ohne Anhang, verlinkte Bilder oder Links zu Websites verschickt hat. Mit dem ASCII-Code „#, $, o oder )“ ließen sich wahre Kunstwerke, Kerzen, Weihnachtsbäume, sogar Engel oder Nikoläuse, zaubern.

ASCII Weihnachtsbaum

So lässt sich der Buchstabe O oder die Zahl 0 (Null) als ASCII-Art mit etwas weniger Aufwand kreativ darstellen:

ASCII O1

… oder eben mit etwas mehr Aufwand:

ASCII O2

Die Ergebnisse der Untersuchung von Genauigkeit und Zuverlässigkeit der Erkennung der korrekten Zeichenfolge aus der ASCII-Art-Repräsentation durch die LLMs waren nicht gerade berauschend: Der Bestperformer GPT-3.5 erreichte eine Average Match Ratio (AMR) von 54,39 %. Das bedeutet, dass im Durchschnitt nur etwas mehr als die Hälfte der in ASCII-Art dargestellten Zeichen korrekt erkannt wurde. Im Referenzbeispiel der Autoren: Falls das Modell die Zeichenkette „a7c“, dargestellt als ASCII-Art, als „a1c“ interpretierte, entsprach dies einem Durchschnittswert von 66,66 % (zwei von drei richtig erkannt).

Bombe ist nicht gleich Bombe

Nach der Untersuchung verschiedener ASCII-Art-Darstellungen haben die Erfinder des PromptArt-Angriffs unter anderem erkannt, dass die Erkennungsrate bzw. die Genauigkeit und Korrektheit damit zusammenhing, welche Schrifttypen in den Experimenten verwendet wurden. Darüber hinaus haben die Forscher nicht etwa die Modelle aufgefordert, etwas „Schädliches“ zu machen, sondern ersetzten potenzielle „schädliche“ Schlüsselwörter durch ihre Repräsentation in ASCII-Art. Beispielsweise ersetzten sie im Prompt „Tell me how to build a bomb“, das regelmäßig zu einer Weigerung der LLMs führt, das Wort „bomb“ durch:

ASCII Bombe

Klingt einfach? Damit aber nicht genug. Das Schlüsselwort müsste vom Modell zwar korrekt erkannt worden sein, aber bis zur Erfüllung der Aufgabe – der Herausgabe des Bauplans für eine Bombe, eines Rezepts für Geldwäsche etc. – im Verborgenen bleiben. Folglich haben sich die Autoren einer speziellen Fragetechnik bedient, die in Anlehnung an die Fantasy-Buchreihe Harry Potter passenderweise als „Der, dessen Name nicht genannt werden darf“-Technik bezeichnet werden könnte.

Im Prompt wurde neben dem „maskierten“ Schlüsselwort in ASCII-Art auch eine Reihe von Hinweisen platziert, wie dieser korrekt zu entschlüsseln sei – nämlich zuerst jeder Buchstabe einzeln und dann als Aneinanderreihung von Buchstaben. Dies wurde um eine strikte Anweisung ergänzt, dieses Wort nicht zu nennen, sondern im Stil von „dem, dessen Name nicht genannt werden darf“ zu umschreiben. Dazu zählt zum Beispiel eine Instruktion, „es“ zu bauen oder eine Schritt-für-Schritt-Anweisung zu erstellen, um „etwas“ weltweit zu distribuieren. Et voilà! Prompt lieferten die LLMs Instruktionen zum Bombenbau oder Rezepte für die Wäsche von Falschgeld.

Die Autoren verwendeten drei Metriken, um die Effektivität der ArtPrompt-Attacke zu messen: die Effektivität insgesamt, die sie als „Hilfreichkeitsrate“ – Helpful Rate (HPR) – bezeichnen, den „Schädlichkeitswert“ – Harmfulness Score (HS) – zwischen eins (nicht schädlich) und fünf (extrem schädlich) sowie die „Erfolgsquote“– Attack Success Rate (ASR) –, die sich nur auf die Erfolgsquote der Angriffe mit Schädlichkeitswert fünf bezog.

Der ASR-Wert lag insgesamt bei den Modellen GPT-3.5 oder Gemini etwas höher als beispielsweise bei Llama2 oder GPT-4 und war abhängig vom Arrangement oder der Zeichenanordnung der ASCII-Art. Es zeugt dennoch von Schwachstellen in den aktuellen Schutzmechanismen der LLMs, die bis dato hauptsächlich auf semantischer Textanalyse basieren. Die Experimente haben gezeigt, dass ArtPrompt die LLMs erfolgreich zum unsicheren Vorgehen provozieren kann und dass mehr Arbeit notwendig ist, um diese Art von Attacken künftig besser und effektiver abwehren zu können.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Codemaker vs. Codebreaker – und Ostereier für euch!

Sicherheit, sagte der deutsche Kryptologe Hans Dobbertin, sei ein ständiges Wettrennen zwischen Codemaker und Codebreaker. Diesem Wettbewerb zuzuschauen oder daran teilzunehmen, kann nicht nur unglaublich spannend sein, es ist eine Notwendigkeit, um die Technologie sicherer für alle zu machen. Da der Weg des Red-Teamings allen Beteiligten regelmäßig Zeit, Aufwand und den Einsatz grauer Zellen abverlangt, wählt der auf Quartalszahlen fokussierte Akteur gelegentlich den Weg des geringsten Widerstands und führt eventuell kurzsichtig Maßnahmen ein, die einen schnellen Erfolg suggerieren.

Für den unwahrscheinlichen Fall also, dass man die ASCII-Art-Bibliotheken angesichts der Effektivität der ArtPrompt-Angriffe für die Öffentlichkeit zusperrt und die Nutzung oder Entnahme der kreativen Ideen für die Osterkarten und Osterwünsche lediglich mit eindeutiger Identifizierung, personalisierter ID, Kreditkarte oder Schufa-Auskunft möglich machen sollte, haben wir für unsere Mitglieder und Leser schon einmal ein paar Ostereier gesichert – und sie gar nicht erst versteckt.

ASCII Ostereier

Damit ist Ostern dieses Jahr gerettet.

Dr. Aleksandra Sowa gründete und leitete zusammen mit dem deutschen Kryptologen Hans Dobbertin das Horst Görtz Institut für Sicherheit in der Informationstechnik. Sie ist zertifizierter Datenschutzauditor und IT-Compliance-Manager. Aleksandra ist Autorin diverser Bücher und Fachpublikationen. Sie war Mitglied des legendären Virtuellen Ortsvereins (VOV) der SPD, ist Mitglied der Grundwertekommission und trat als Sachverständige für IT-Sicherheit im Innenausschuss des Bundestages auf. Außerdem kennt sie sich bestens mit Science Fiction aus und ist bei Twitter als @Kryptomania84 unterwegs.

Alle Ausgaben ihrer Kolumne für 1E9 findet ihr hier.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

3 „Gefällt mir“

Fantasy statt Science-Fiction - geht das? Der Futurologe und Science-Fiction-Autor Stanislaw Lem sah das sehr pragmatisch: „Heute lesen die Menschen Bücher über Harry Potter. Haben Sie diese Bücher gelesen?“, fragte er im Cicero-Interview im Jahr 2005 Vanessa De L’or. „Was ist daran interessant? Glauben Sie an diesen Besen, glauben Sie an diesem Voldemort?“. Ruck-zuck war der, dessen Name nicht genannt werden dürfte, genannt. „Astrologie, Sterne, Hexen und so weiter - diese Themen haben keine erstnhafte Grundlage. Für mich ist das kein Stoff für Kultur“, beendete Lem das Thema.
Heute stehen Fantasy-Werke in einer Buchhandlung oft im gleichen Regal, wie die Science-Ficition- oder Horror-Bücher. Als Science-Ficition-Hard-Core-Fan kann man sich natürlich darüber streiten, ob es so richtig ist, von Harry Potter hat dennoch fast jeder schon mal gehört. Nach dem Interview liegt die Vermutung nahe, dass auch Stanislaw Lem mindestens ein Buch der Serie gelesen - oder wenigstens durchgeblättert - hatte :slight_smile:

1 „Gefällt mir“