Gpt2-chatbot: Hat OpenAI heimlich ein neues KI-Modell getestet?

Seit dem vergangenen Wochenende sorgt ein neues KI-Modell für Rätselraten. Dabei handelte es sich angeblich um eine Chatbot-Fassung des fünf Jahre alten GPT-2 von OpenAI. Diese zeigte jedoch Fähigkeiten, die sogar GPT-4 übertreffen. Einige vermuten, dass es sich um einen geheimen Test von GPT-4.5, GPT-5 oder sogar des mysteriösen Q-Projekts von OpenAI handelt.

Von Michael Förtsch

Mittlerweile erscheinen regelmäßig neue und spannende KI-Modelle, die die Grenzen dessen, was Chatbots leisten können, weiter verschieben. Erst kürzlich veröffentlichte Meta die neueste Version der LLaMA-Reihe, die prompt von der Open-Source-Szene aufgegriffen und weiterentwickelt wurde. Daher gibt es heute Hunderte von professionellen und Community-getunten Modellen. Mit der LMSYS Chatbot Arena existiert sogar eine Art weltweite Rangliste für aktuelle Sprachmodelle – inklusive der Möglichkeit, verschiedene Modelle auszuprobieren und miteinander zu vergleichen. Ganz oben auf der Rangliste stehen, wenig überraschend, GPT-4 Turbo und GPT-4 von OpenAI. Dahinter Claude 3 Opus von Anthropic und Gemini 1.5 Pro von Google. Daher war die Verwirrung dieser Tage groß, als plötzlich ein bisher völlig unbekanntes Sprachmodell auftauchte, das erstaunliche Fähigkeiten demonstrierte.

Am vergangenen Wochenende begannen sich Berichte über ein Modell namens gpt2-chatbot zu verbreiten, das über die Chatbot Arena zugänglich war. Zuerst war es auf Seiten wie 4chan und verschiedenen Discord-Kanälen zu lesen. Am Sonntag dann auf X – ehemals Twitter – und Reddit. Der Chatbot tauchte plötzlich in der Liste Direkt Chat auf. Was zunächst Interesse weckte, war die Tatsache, dass GPT-2 zwar ein Sprachmodell ist, aber vom Entwickler OpenAI – im Gegensatz zu GPT-3 und GPT-4 – nie offiziell für einen Chatbot-Dienst konzipiert oder eingesetzt wurde. Es war in erster Linie ein Forschungsprojekt und nicht für den kommerziellen Einsatz gedacht. Erste Vermutungen gingen daher in die Richtung, dass möglicherweise ein unabhängiger Entwickler das Modell von OpenAI aufgegriffen und selbst weiterentwickelt hat.

Doch als die Nutzer mit dem ominösen gpt2-chatbot schrieben, waren sie überrascht. Denn die Antworten schienen so gar nicht zu einem Modell von vor 5 Jahren zu passen. Die Fähigkeit, konsistenten und brauchbaren Computercode zu erzeugen, wurde von einigen Entwicklern als sehr gut eingeschätzt. Sogar besser als bei aktuellen Spitzenmodellen wie Claude 3 Opus. Auch die mathematischen Fähigkeiten überraschten. Rechenaufgaben, an denen GPT-3, Gemini und LLaMA 3 scheiterten, löste gpt-2-chatbot problemlos. Er konnte logische Schlüsse ziehen, wo andere Modelle versagten. Auch seine künstlerischen Fähigkeiten können sich sehen lassen.

Der Chatbot weiß „mehr Kram“ als GPT-4 und einige andere, wurde von vielen Nutzern attestiert. Wobei das Modell dennoch immer wieder Halluzinationen und Faktenfehler demonstrierte. „Ich habe ein wenig damit herumgespielt, und es scheint auf dem gleichen Fähigkeitsniveau zu sein wie GPT-4“, schrieb etwa Ethan Mollick von der Wharton University. „Vielleicht ist’s sogar besser als GPT-4.“

Modell aus dem Nichts?

Dass ein neues und unbekanntes Modell auf der LMSYS Chatbot Arena getestet werden kann, ist grundsätzlich nichts Ungewöhnliches. Denn LMSYS – kurz für Large Model Systems Organization –, eine Initiative von Studierenden der Universität Berkeley, pflegt Partnerschaften mit Entwicklergruppen, Vereinen und auch Start-ups, um „deren neue Modelle auf unserer Plattform für Vorabtests in der Community zur Verfügung zu stellen“ – auf Wunsch auch anonym. Dazu gehörten in der Vergangenheit auch Modelle von Mistral.

Die Theorien, um was es sich bei gpt2-chatbot handeln könnte, sind daher mittlerweile vielfältig – und teilweise wild. Während die Vermutung eines Hobbyprogrammierers nicht ausgeschlossen werden kann, gehen viele derzeit eher von professioneller Entwicklern aus. Einige Nutzer, aber auch Kenner der KI-Branche vermuten, dass OpenAI selbst hinter dem obskuren Modell stecken könnte. Es könnte sich um einen öffentlichen Test einer neuen GPT-Version wie GPT-4.5 oder sogar GPT-5 handeln. Oder es könnte sich tatsächlich um eine neue Version von GPT-2 handeln, die jedoch mit einer völlig neuen Trainingsvariante entwickelt wurde, die es erlaubt, weniger komplexe und große Modelle mit deutlich mehr Wissen und Können zu trainieren. Bestätigt fühlten sich einige durch einen Kommentar von OpenAI-Chef Sam Altman. Er schrieb am Montag: „Ich habe eine Schwäche für GPT-2.“

Einige versuchten, die Antwort vom Sprachmodell selbst zu erhalten. Das Modell antwortete, dass es ChatGPT sei, von OpenAI trainiert wurde und auf der Architektur von GPT-4 basiere. Einige wiesen jedoch darauf hin, dass Modelle keine wirklich zuverlässigen Antworten auf solche Fragen geben können, wenn sie beispielsweise mit einem bestimmten System Prompt versehen wurden. Matt Shumer, ein KI-Entwickler, sagte, dass dieses Modell definitiv „wirklich gut“ sei, dass er jedoch enttäuscht wäre, wenn es sich um einen Test von GPT-4.5 oder eines völlig neuen GPT-Modells handeln würde.

Auch die Vermutung, dass gpt2-chatbot etwas mit Q*, einem nebulösen OpenAI-Projekt, zu tun haben könnte, erlangte Traktion. Einige vermuten, dass Q* eine Super-Intelligenz ist, an der das Team um Sam Altman arbeitet. Andere wiederum sehen dahinter eine Möglichkeit, bestehende KI-Modelle intelligenter zu machen, ohne sie aufwendig nachtrainieren zu müssen. Q* könnte demnach ein Äquivalent zu sogenannten LoRa-Modellen sein: Das sind kleine KI-Modelle, die nur auf bestimmte Informationen und Konzepte trainiert wurden und wie ein Erweiterungspaket zu einem bestehenden Modell dazugeschaltet werden.

Mit LoRas, die zwischen einigen Kilobyte und Hunderten von Megabyte groß sind, können Bildgeneratoren wie Stable Diffusion neue Stile und Figuren beigebracht werden, ohne das Grundmodell zu verändern. Im Falle von gpt2-chatbot könnte es sich also tatsächlich um GPT-2 handeln, das jedoch mit einem Q*-Modul um neue Kenntnisse und Fähigkeiten erweitert wurde.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Transparenz oder Rätsel?

Die Möglichkeiten, gpt2-chatbot ausgiebig zu testen, waren bisher begrenzt. Denn die LMSYS Chatbot Arena erlaubt nur eine bestimmte Anzahl von Anfragen an die zur Verfügung gestellten Modelle. Inzwischen hat LMSYS das seltsame KI-Modell komplett von der Seite genommen, so dass der Zugriff darauf nicht mehr möglich ist. Der Grund sei „unerwartet hoher Datenverkehr“ und Kapazitätsgrenzen. Damit ist gpt2-chatbot zumindest vorübergehend nicht mehr nutzbar, wie LMSYS mitteilt.

Das alles hat aber auch zu einiger Kritik an LMSYS geführt, die sich selbst als neutrale Plattform für den Vergleich und die Erforschung von KI-Modellen sieht. So argumentierte der KI-Forscher Simon Willison gegenüber ArsTechnica, dass sich LMSYS möglicherweise zu einer Plattform für eine Marketingkampagne entwickelt habe. Ein Rätsel wie gpt2-chatbot sei „zwar witzig“ und unterhaltsam. Es sei aber nicht mit den Prinzipien vereinbar, die für Entwickler einer bahnbrechenden Technologie wie der Künstlichen Intelligenz gelten sollten. Hier müsse Transparenz das oberste Gebot sein.

Update: In einem Interview an der Harvard University am Mittwoch ging Sam Altman kurz auf das Rätsel ein. Laut ihm ist gpt2-chatbot nicht GPT-4.5, mehr wollte Altman nicht sagen. Etwas, das viele als ein überspezifisches Dementi ansehen, das zumindest die Theorie bestätigt, dass OpenAI hinter dem Chatbot steckt.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

3 „Gefällt mir“