Es war eine spektakuläre Ankündigung. Der Gründer eines kleinen KI-Start-ups und ein KI-Entwickler versprachen ein Open-Source-KI-Sprachmodell, das den kommerziellen Modellen von Unternehmen wie OpenAI, Anthropic und Google ebenbürtig sein sollte. Nun sehen sich der Unternehmer und der Entwickler mit Betrugsvorwürfen konfrontiert.
Von Michael Förtsch
Der Wettlauf um die Führung bei der Entwicklung von KI-Sprachmodellen ist anstregend und teuer. OpenAI, Anthropic, Microsoft, Google, Mistral, Meta und andere investieren Millionen in das Training neuer KI-Systeme. Wie gut diese Modelle sind, wird in verschiedenen etablierten Testreihen ermittelt, die die Fähigkeiten der Modelle in Mathematik, Codegenerierung, Allgemeinwissen und Spezialwissen – etwa in Jura und Medizin –, Logik, Problemlösung und Konversation messen. Die besten Modelle trennen heute teilweise nur noch wenige Punkte. Daher erregte es Aufsehen, als am 5. September der Gründer eines kleinen KI-Start-ups die Veröffentlichung eines Open-Source-Modells ankündigte, das einige der besten kommerziellen Modelle schlagen könnte.
„Ich freue mich, Reflection 70B ankündigen zu können, das beste Open-Source-Modell der Welt“, schrieb Matt Shumer auf X – ehemals Twitter. Shumer ist kein Unbekannter. Er ist der Gründer von Otherside AI, das mit HyperWrite einen durchaus erfolgreichen KI-Schreibassistenten entwickelt. Laut dem Gründer ist Reflection 70B so gut wie einige aktuelle kommerzielle – und zudem deutlich größere – Top-Modelle wie Claude 3.5 Sonnet, GPT-4o oder Gemini 1.5 Pro. In einigen Testreihen mit großen Sprachmodellen schnitt es genauso gut oder sogar besser ab. Dazu gehören GSM8K, ein Test für mathematische Fähigkeiten, HumanEval, ein Test für die Generierung von Computercode, und MMLU, der die Fähigkeit misst, komplexe Aufgaben aus verschiedenen Disziplinen zu bewältigen.
Reflection 70B basiert auf dem freien Sprachmodell LLaMA 3.1, das von Meta entwickelt wurde, aber laut Shumer von ihm selbst und Sahil Chaudhary, dem Gründer von Glaive AI, mit einer Technik namens Reflection-Tuning weiterentwickelt wurde. Dazu seien synthetische – also KI-generierte – Datensätze verwendet worden, die von Glaive AI erzeugt wurden. Durch das Reflection-Tuning würden diese aber nicht nur in das Modell trainiert. Sondern sie würden auch vom Modell reflektiert, um Fehler und Ungenauigkeiten zu erkennen und zu korrigieren. Auf diese Weise wäre das Modell auch in der Lage, Fehler in seinen eigenen Schlussfolgerungen zu erkennen und damit Halluzinationen zu vermeiden. Das wäre ein Durchbruch.
Ein Durchbruch, oder nicht?
Das Interesse an Reflection 70B war enorm. Denn wenn die Daten stimmen, könnte Reflection 70B neue Möglichkeiten eröffnen, deutlich kompaktere KI-Modelle zu entwickeln, die weniger Energie und Speicherplatz benötigen. Das Tuning von Reflection könnte sogar ganz neue Möglichkeiten für die Anpassung und Korrektur von KI-Modellen erlauben. Doch als erste Anwender und KI-Forscher das Wundermodell testeten, waren sie überrascht: Reflection 70B war nicht nur nicht besser als kommerzielle Modelle. Es schnitt in mehreren Tests auch schlechter ab als das vermeintliche Ausgangsmodell LLaMA 3.1, verweigerte teilweise Antworten oder halluzinierte bei einfachen Wissensfragen.
Einige Mitglieder der KI-Gemeinschaft verglichen die bereitgestellten Modelle und kamen zu dem Schluss, dass Reflection 70B ein LLaMA-3-Modell sei, das mit einem LoRA-Tuning angepasst wurde. Bei dem also nur ein marginaler Teil des Modells modifiziert wurde, um bestimmte Verhaltensweisen des Modells anzupassen. Wie Matt Shumer schnell zu erklären versuchte, wäre das alles nicht korrekt. Beim Hochladen der riesigen Modelldateien sei ein Fehler passiert. Mehrere Modellvarianten seien durcheinandergeraten. Daher wären die Testergebnisse so schlecht. Matt Shumer stellte daraufhin einigen Testern wie ArtificialAnlys eine exklusive Schnittstelle zu einer angeblich selbst gehosteten Version des Modells zur Verfügung, die wenig später auch über den Dienst OpenRouter zugänglich gemacht wurde.
Wie das Team von ArtificialAnlys schrieb, hätte dieses Modell tatsächlich „eine beeindruckende Leistung“ gezeigt, die aber „nicht so hoch war, wie ursprünglich behauptet“. Die Gruppe unabhängiger KI-Experten erklärte weiter, sie könne nicht einmal mit Sicherheit sagen, „was wir genau getestet haben“. Eine Einschätzung, der sich andere schnell anschlossen – und aufzuklären versuchten. Wie einige Tester feststellten, gab das Modell an, von Anthropic zu stammen, weigerte sich aber, den Namen „Claude“ zu generieren. Offenbar steckte hinter dem Zugang eben jener Anthropic-Chatbot, der jedoch angewiesen worden war, seine Identität nicht preiszugeben. Nur kurze Zeit später, wechselte der Zugang von Claude zu ChatGPT mit GPT-4o.
Falsche Modelle?
Inzwischen will Shumer die „richtigen Modellgewichte“ auf die Huggingface-Plattform hochgeladen haben. Doch auch diese schnitten bei erneuten Tests massiv schlechter ab. Schlechter jedenfalls als die Modelle, die die Tester über die Schnittstelle ausprobieren konnten, und auch schlechter als das Modell, das angeblich die wundersamen Testergebnisse produzierte, die Shumer ursprünglich verbreitet hatte. OpenRouter hat daraufhin die öffentliche Reflection-Schnittstelle abgeschaltet, bis sichergestellt ist, dass wirklich Reflection darauf läuft und nicht ein anderes Modell. Seitdem wird heftig spekuliert.
Einige werfen Matt Shumer offen Betrug und Täuschung vor. Reflection 70B sei eine Fake-KI, die als billige Werbung für sein eigenes Start-up und für Glaive AI, in das Shumer investiert hat, dienen sollte. Andere wiederum glauben, dass Sahil Chaudhary von Glaive AI der Betrüger ist. Er habe Matt Shumer als auch die KI-Community getäuscht. Er habe schließlich die Tests durchgeführt und die Ergebnisse mit Shumer geteilt.
Der KI-Forscher Jim Fan von Nvidia erklärte beispielsweise auf X, dass es prinzipiell sehr einfach sei, die Testergebnisse etablierter KI-Tests zu fälschen, wenn man etwas Erfahrung habe. Manche sehen aber auch schlichte Unachtsamkeit und Schlamperei als mögliche Ursache. Die beiden Reflection-70B-Entwickler könnten ihre Tests versehentlich am falschen Modell durchgeführt haben. Zum Beispiel, indem sie eine falsche Schnittstelle verwendet haben. Als der Fehler bemerkt wurde, war es zu spät und der große Durchbruch bereits verkündet.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Was ist passiert?
Am 10. September meldete sich Matt Shumer auf X zurück. Er entschuldigte sich. Er sei „voreilig“ gewesen und habe „auf der Grundlage der Informationen gehandelt, die wir zu diesem Zeitpunkt hatten“. Eine Erklärung für die merkwürdigen Vorfälle und die Diskrepanzen bei den Testergebnissen könne er nicht liefern. Denn was genau passiert sei, wisse er selbst nicht. Er habe jetzt „ein Team, das unermüdlich daran arbeitet, zu verstehen, was passiert ist“.
Auch Sahil Chaudhary hat sich nun geäußert. Auch er wisse nicht, was passiert ist, aber besteht darauf, dass zu keinem Zeitpunkt ein anderes Modell wie etwa Claude oder GPT-4o eingesetzt wurde, um Tester zu täuschen. Wieso keiner die wundersamen Testergebnisse reproduzieren konnte, sei ihm ein Rätsel. „Ich arbeite daran zu verstehen, warum das so ist und ob die ursprünglichen Ergebnisse, die ich gemeldet habe, korrekt waren“, schrieb er. „Ich entschuldige mich für die Verwirrung, die das verursacht hat, und weiß, dass ich die Community enttäuscht ist und Vertrauen verloren hat.“
Sowohl Shumer als auch Chaudhary beharren, dass ihr Ansatz der Nutzung von synthetischen Daten und dem Reflection-Tuning echt sei. Dass beides gewinnbringend genutzt werden könnte. Man sei sich im Klaren darüber, dass das Vertrauen erstmal dahin ist. „Ich glaube immer noch an das Potenzial des Ansatzes“, schrieb Chaudhary. „Mein Ziel ist es, das Vertrauen durch mehr Transparenz wiederherzustellen. Ich werde bald mehr dazu sagen können.”
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!