Trainingsdaten werden knapp: Droht das Ende der rasanten KI-Forschritte?

Michael · 15. November 2024 um 23:00

Hat das KI-Wettrennen sein Ende erreicht? Die Entwicklungssprünge beim Training neuer KI-Sprachmodelle werden kürzer, ihre Fähigkeiten verbessern sich weniger dramatisch und spürbar. Ein Grund? Den KI-Firmen gehen die Daten aus. Was also tun, wenn es weitergehen soll?

Von Michael Förtsch

Als OpenAI im Mai 2023 die vierte Version seiner Sprachmodellreihe GPT vorstellte, war das Echo eindeutig. Das neue Modell übertraf die bisherigen Iterationen in vielen Disziplinen deutlich. Vor allem in Bezug auf die Fähigkeiten, kohärenten Computercode zu generieren, komplexe Fragen zu beantworten und mathematische Probleme zu lösen. Entsprechend hoch sind die Erwartungen an das nächste so genannte Foundation Model, das von OpenAI derzeit angeblich unter dem Codenamen Orion entwickelt wird. Beim Training dieses Modells soll sich allerdings ein Problem abzeichnen, vor dem viele KI-Forscher lautstark warnten: Die qualitativen Sprünge bei den KI-Spitzenmodellen werden immer kürzer. Der spürbare Fortschritt könnte sogar zum Erliegen kommen.

Laut einem Bericht von The Information soll es OpenAI im zurückliegenden Jahr gelungen sein, den Trainingsprozess von KI-Modellen zu optimieren. Das derzeit in der Entwicklung befindliche Modell Orion habe demnach bereits lange vor Abschluss des Trainings eine mit GPT-4 vergleichbare Leistung gezeigt. Allerdings sei die Steigerung des Fähigkeitsumfangs und der Qualität des generierten Outputs im weiteren Trainingsverlauf im Vergleich zu früheren Modellerweiterungen und -nachfolgern deutlich weniger mess- und wahrnehmbar geworden. Insbesondere bei der Generierung von Programmiercode sei nur ein marginaler Leistungs- und Qualitätszuwachs zu verzeichnen. Das Modell sei „bei der Bewältigung bestimmter Aufgaben nicht zuverlässig besser als sein Vorgänger“, sondern teilweise sogar etwas schlechter, berichtet das Magazin unter Berufung auf OpenAI-Mitarbeiter.

Derartiges soll nicht nur bei OpenAI der Fall sein, wie beispielsweise der Datenwissenschaftler Yam Peleg auf X – ehemals Twitter – berichtet. Mindestens ein weiteres bekanntes KI-Unternehmen soll nach seiner Kenntnis beim Training neuer und größerer KI-Modelle bereits an eine „massive Wand des abnehmenden Ertrags“ gestoßen sein. Selbst mit längeren Trainingszyklen und mehr Daten sei diese Mauer nicht zu überwinden. Heißt: Trotz dieser Investitionen würden die Modelle also nicht wesentlich besser. Stattdessen werde ab einem gewissen Punkt im Training ein hypothetisches Plateau erreicht, was zu einem kriechenden Trainingsfortschritt und dann zu einer praktischen Stagnation führe.

Einem Bericht von The Verge zufolge soll auch das bei Google in Arbeit befindliche Gemini 2.0 hinter den internen Erwartungen und vor allem den Ankündigungen von Deepmind-Gründer Demis Hassabis zurückbleiben. Es bringe zwar viele kleine Verbesserungen gegenüber den Vorgängern, aber nicht den Leistungssprung, den sich der Suchmaschinenkonzern erhofft hatte. Eine derartige Entwicklung hatten der bei OpenAI ausgeschiedene KI-Forscher Ilya Sutskever und der Meta-KI-Chefwissenschaftler Yann LeCun bereits vorhergesagt.

Die Daten werden knapp

Einer der Hauptgründe für die Stagnation bei der Entwicklung aktueller KI-Modelle sei der Mangel an neuen und qualitativ hochwertigen Daten, sagen Experten. Die üblichen Ressourcen wie Datensätze, zum Beispiel C4 und Refined Web, frei im Internet zugängliche Magazine und Fachpublikationen, Zeitungs- und Wissenschaftsarchive, Community-Plattformen wie Reddit und Stack Overflow und andere seien praktisch erschöpft. Obwohl täglich neue Inhalte zu diesen Quellen hinzugefügt werden und einige der großen KI-Unternehmen sich Zugang zu den teilweise nicht öffentlich zugänglichen Archiven von Verlagen wie der New York Times, Reuters, Springer und AP erkauft haben, würde all dies nicht ausreichen, um weitere inkrementelle Verbesserungen zu erzielen.

Diese Entwicklung kommt nicht überraschend. Bereits vor zwei Jahren warnten erste KI-Forscher in einer Studie davor, dass Trainingsdaten knapp werden könnten. Ihre Prognose: Basierend auf dem damaligen Entwicklungstempo der KI-Industrie extrapolierten sie, dass um das Jahr 2026 alle Quellen für qualitativ hochwertige Daten erschlossen und ausgebeutet sein dürften. Einige Branchenexperten waren hingegen optimistischer und prognostizieren eher das Jahr 2028 als das Jahr der Datendürre.

Die Facebook-Firma Meta hat deshalb damit begonnen, die neuen Modelle ihrer LLaMA-Reihe auch mit Daten aus Quellen zu trainieren, die als qualitativ minderwertig gelten: Posts auf Facebook und Instagram. Eine weitere Möglichkeit, der Datenknappheit zu begegnen, sind sogenannte synthetische Daten. Wie das Wall Street Journal bereits im April dieses Jahres berichtete, setzt beispielsweise das KI-Start-up Anthropic seit der Opus-Version seiner Modellreihe Claude auf solche von Künstlichen Intelligenzen generierten Inhalte. Diese wurden und werden ergänzend zu klassischen Datensätzen eingesetzt. Ein ähnliches Verfahren soll auch bei Orion von OpenAI zum Einsatz kommen.

Diese Methoden werden von einigen KI-Forschern durchaus kritisch gesehen. So könnten beispielsweise Social-Media-Posts als Trainingsdaten das Niveau der ansonsten verwendeten Inhalte verwässern und damit die Ausgabequalität der KI-Modelle mindern. Bei synthetischen Trainingsdaten warnen KI-Experten wiederum vor der Gefahr, dass die trainierten Modelle beginnen könnten, die Verhaltensmuster der Modelle hinter den generierten Daten zu imitieren. Es könnte aber auch zu einer Degeneration oder sogar zu einem Zusammenbruch der Modelle kommen. Experimente an der Stanford University und der Rice University haben gezeigt: Werden KI-Modelle wiederholt mit KI-generierten Daten trainiert, treten irgendwann Fehler und Artefakte in den ausgegebenen Inhalten auf. Mit fortschreitendem Training kann es zu völlig unlesbaren und damit unbrauchbaren Ausgaben kommen.

Die genaue Ursache des Phänomens, das auch als Model Autophagy Disorder, Habsburg AI oder digitaler Rinderwahnsinn bezeichnet wird, ist noch nicht vollständig geklärt. KI-Forscher gehen jedoch davon aus, dass KI-generierten Daten die natürliche Diversität und Unregelmäßigkeit menschlicher Inhalte fehlt. Stattdessen basieren KI-generierte Daten auf gelernten statistischen Zusammenhängen und Mustern – „praktisch die Fingerabdrücke der Generatorarchitektur“, wie die Stanford- und Rice-Wissenschaftler sagen. Werden diese wiederholt in ein Modell eingespeist, verstärken sich die entsprechenden Muster. Das führe schließlich zu einer autophagischen Schleife.

Braucht es ganz neue KI-Architekturen?

Eine unmittelbare Lösung gibt es für die Herausforderungen nicht, denen die KI-Entwickler derzeit begegnen. Deshalb wurde bei OpenAI ein neues Team gegründet, das Wege finden soll, die zukünftigen Modelle trotz der begrenzten Masse an Trainingsdaten weiter zu verbessern. Angeblich gehört dazu, dass die großen Basismodelle der GPT-Reihe durch spezialisierte kleinere Modelle ergänzt werden, die bei Spezialfragen aktiviert werden – ähnlich wie ChatGPT bereits um die Internetsuche erweitert wurde, um zeitaktuelle Fragen zu beantworten und auf Wissen zuzugreifen, das im Modell nicht enthalten ist. Dies könnte zum Beispiel für Bereiche wie Mathematik, Medizin oder Fremdsprachen der Fall sein.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Einige KI-Forscher sehen auch die Option, einfach die bereits vorhandenen Trainingsdaten effektiver zu nutzen. Denn die derzeitigen Trainingsprozesse seien ineffizient, was dazu führe, dass ein Teil der Inhalte nicht im Modell ankomme. Daher bräuchte es alternative oder zusätzliche Ansätze, um Modelle nachhaltiger aufzubauen. Einer könnte das sogenannte Curriculum Learning sein, bei dem Trainingsdaten so strukturiert werden, dass sie aufeinander aufbauen. Einem KI-Modell werden etwa zunächst die Grundlagen der Biologie beigebracht, bevor es mit Gen-Manipulation konfrontiert wird. Ein verwandter Ansatz ist das Teacher-Student Curriculum Learning, bei dem ein KI-Modell den Lernprozess dynamisch steuert und Trainingsmaterial auf Basis des Lernerfolgs zuweist. Ob diese Methoden jedoch erfolgreich eingesetzt werden können, muss sich erst noch zeigen.

Auch die Architektur hinter den aktuellen Sprachmodellen wird hinterfragt: die sogenannten Transformer, ohne die es den aktuellen KI-Hype nicht gäbe. Potentielle Nachfolger und Weiterentwicklungen dieser Architektur sollen mehr aus dem Lehrmaterial herausholen. Als aussichtsreiche Kandidaten gelten beispielsweise Mamba, Graph Neural Networks, Liquid Neural Networks oder Extended Long Short-Term Memory. Sie sollen flexibler mit Informationen umgehen und diese miteinander verknüpfen können - und das auch noch energieeffizienter und schneller. Bis sich eine der Architekturen als möglicher Erbe der Transformer herauskristallisiert, dürfte allerdings noch einige Zeit vergehen.

Ilya Sutskever, der nach seinem Ausscheiden bei OpenAI das Start-up Safe Superintelligence – kurz SSI – gegründet hat, erklärte gegenüber Reuters bezüglich den aktuellen Entwicklungen, dass die KI-Industrie nach Jahren der bloßen Skalierung von KI-Modellen „nun wieder in der Ära der Wunder und Entdeckungen angekommen ist“. Es brauche also wieder mutige Forschung und neue Ansätze, um die sich abzeichnenden Grenzen und Hindernisse zu überwinden: „Jeder ist auf der Suche nach dem nächsten Ding“.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!