Den KI-Firmen gehen wohl bald die Daten aus

Der Wettlauf der großen Technologiekonzerne und KI-Unternehmen, immer fähigere und größere KI-Modelle zu trainieren, könnte ins Stocken geraten. Denn den Unternehmen gehen die Daten aus – und das schneller als erwartet.

Von Michael Förtsch

Der Kampf um die Spitze wird härter. Das Sprachmodell GPT-4 von OpenAI hat ernsthafte Konkurrenz bekommen. Das vom Start-up Anthropic für den Chatbot Calude entwickelte Modell Opus soll das aktuelle Spitzenmodell von OpenAI in einigen Disziplinen deutlich, in anderen zumindest knapp übertreffen. Das Modell Mistral Large der französischen Firma Mistral kommt zumindest nah an GPT-4 heran. Und wie einige Forscher nun prognostizieren, könnte der Kampf um das beste und vor allem fähigste Modell schon bald generell ein zähes Ringen um wenige Prozentpunkte in verschiedenen Tests werden. Denn die Ressource, die den Wettlauf befeuert, droht knapp zu werden. Den KI-Unternehmen gehen schlicht die Daten aus, um die Modelle mit immer mehr Wissen und Informationen zu trainieren.

Diese Erkenntnis ist im Prinzip nicht neu. Bereits vor zwei Jahren prognostizierten erste KI-Forscher, dass Trainingsdaten endlich sind. Firmen wie OpenAI, Anthropic, Mistral, Google, Baidu und andere verließen und verlassen sich auf Datensätze, die von Forschungseinrichtungen und Firmen zusammengestellt werden, auf offene Quellen wie Wikipedia, digitalisierte gemeinfreie Bücher, aber auch einfach auf alles, was sich mit so genannten Crawlern – automatisierten Programmen – im Internet finden lässt: Nachrichtenartikel, Bloginhalte, Datenbanken mit wissenschaftlichen Abhandlungen und vieles mehr. Es geht um eine riesige Datenmenge, die einen großen Teil des menschlichen Wissens umfasst.

Der Punkt, an dem diese Inhalte erschöpft sind, scheint jedoch näher als bisher gedacht. Laut einem Bericht des Wall Street Journal befürchten Forscher und Entwickler von KI-Unternehmen, dass bereits in zwei Jahren eine natürliche Grenze erreicht sein könnte. Einige optimistischere Experten peilen hingegen das Jahr 2028 an. Dann würde das Internet nicht mehr genügend qualitativ hochwertige Daten liefern, um Trainingsfortschritte zu erzielen, die sich in einer qualitativen Verbesserung der Modelle niederschlagen. Ein Großteil der Inhalte des Internets sei für das KI-Training nämlich unbrauchbar, sagen Wissenschaftler wie Pablo Villalobos vom Forschungsinstitut Epoch.

Droht KI-Modellen die Degeneration?

Verschiedene KI-Unternehmen sind bereits sehr motiviert auf der Suche nach noch unerschlossenen Datenquellen. Dazu gehören die teilweise noch nicht oder nicht vollständig digitalisierten Archive von Medienunternehmen wie der New York Times, Springer, Reuters oder AP. OpenAI soll für sein nächstes Modell GPT-5 bereits auf automatisch erstellte Transkriptionen von YouTube-Videos setzen, wodurch Millionen von Stunden an neuen Textinhalten nutzbar gemacht werden könnten.

Einige Unternehmen und Forschungsinitiativen experimentieren wiederum mit sogenannten synthetischen Daten, also Daten, die von anderen KIs generiert wurden. Diese Methode soll auch bei der Entwicklung von Claude Opus zum Einsatz gekommen sein. Die von Menschen generierten Daten seien dafür mit KI-generierten Inhalten gemischt worden. KI-Forscher warnen jedoch, dass die Verwendung von zu vielen synthetischen Daten zu einer Degeneration der Modelle führen kann. Dieses Phänomen wurde beispielsweise bei nach-getunten Stable-Diffusion-Text-Bild-Modellen gut sichtbar, die mit Inhalten anderer Bildgeneratoren wie Midjourney trainiert wurden. Grundsätzlich sind aber alle Modelltypen betroffen: Bild, Text, Audio und Video.

Die genaue Ursache für das als digitaler Rinderwahn oder Habsburger AI bezeichnete Phänomen ist noch nicht gesichert. Die Annahme von Forschern der Stanford University und der Rice University ist jedoch, dass KI-generierten Daten die Diversität und Unregelmäßigkeit fehlt, die menschgemachte oder natürliche Daten ausmachen. KI-generierte Daten basieren auf statistischen Zusammenhängen und erlernten Mustern. Werden solche Daten wiederholt als Trainingsdaten in ein Modell gespeist, werden sie immer weiter verstärkt. Es kommt zu einer „autophagischen – also selbstverzehrenden – Schleife“, die letztendlich zum Kollaps der KI führt.

Ein Markt für Daten?

Mit der Zunahme von KI-generierten Inhalten im Internet auf Medienseiten, Social Media und auch Plattformen wie Reddit steigt das Risiko, dass KI-Unternehmen ihre Modelle unabsichtlich und langsam vergiften. Einige KI-Entwickler glauben daher, dass nicht mehr Daten die Lösung sind, sondern gute Daten besser und effektiver genutzt werden müssen. Das Start-up Datology AI, das von ehemaligen Meta- und DeepMind-Forschern gegründet wurde, arbeitet deshalb an einem neuen Lernverfahren.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Mit dem sogenannten Curriculum Learning – also einem Lernen nach Lehrplan – sollen Modellen die vorhandenen Daten in einer klar definierten Reihenfolge vermittelt werden. Und zwar so, dass gezielt bestimmtes Wissen und bestimmte Fähigkeiten antrainiert werden können. Denn ähnlich wie ein Mensch könnte – so die Theorie – ein KI-Modell davon profitieren, Daten vermittelt zu bekommen, die aufeinander aufbauen. Zuerst könnte etwa physikalisches Grundwissen vermittelt werden und erst anschließend Studien über Supraleiter oder Abhandlungen über den Bau von Fusionsreaktoren.

Mit dieser Methode könnte, behaupten die Gründer von Datology AI, die Menge der benötigten Daten um die Hälfte reduziert werden. Jedoch ist bislang nicht bewiesen, dass diese Methode tatsächlich funktioniert.

OpenAI soll wiederum parallel mehrere Optionen ausloten. Es tüftelt selbst an neuen Methoden, um KI-Modelle zu trainieren, arbeitet jedoch angeblich auch an einer Art von Datenmarkt. Hier könnten Medienunternehmen ihre eigenen Inhalte bereitstellen und nach dem Spotify-Prinzip entlohnt werden. Je mehr ein Inhalt zu einem Modell beiträgt, desto besser würde er bezahlt. Auch Google soll an einem solchen Konzept arbeiten. Dadurch sollen die Ersteller von Inhalten ermutigt werden, Daten freizugeben.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

5 „Gefällt mir“

Die Frage ist doch nicht, wie viele Informationen gefüttert werden, sondern die Frage ist, wie diese Informationen verarbeitet werden. Daran wird sich entscheiden, ob es wieder nur einfach Algorithmen sind, oder ob die sog. „künstliche“ Intelligenz WIRKLICH lernfähig ist. So muss KI etwa begreifen, dass eine grundsätzliche Kenntnis von etwas nicht allein deshalb korrekt sein muss, weil sie häufig wiederholt, also etwa überwiegend in Texten und Videos rezitiert wird. Sondern KI muss solche Grundkenntnisse selbstständig auf logische Brüche hin untersuchen und gleichwertig mit neuen Erkenntnissen abwägen, auch wenn diese neuen Erkenntnisse (noch) äußerst selten in Quellentexten oder -videos auftauchen. Nicht zu unrecht nämlich wird aus den verschiedensten Wissenschaftsspaten heraus beklagt, dass der Mangel an neuen Erkenntnissen und echter Kreativität die Wissenschaften der letzten 4 bis 7 Jahrzehnte in eine Art Sackgasse bzgl. der Erkenntnisentwicklung geführt hat. – Kann KI die Überwindung des reinen Datensammelns als eigenständige Intelligenzleistung nicht einbringen, dann ist sie lediglich eine beschleunigte Recherchehilfe, die letztlich aber stets nur an der Oberfläche arbeitet und folglich durchschnittliche Resultate (nämlich im Wortsinn !) abliefert. Den Unterschied der KIs werden also nicht die verfügbaren Datensätze machen, sondern der Unterschied wird daran entschieden, ob eine KI mit den gesammelten Daten KONSTRUKTIV umzugehen versteht, ohne sich dabei für bestimmte (politische, gesellschaftliche) Zweckbindungen missbrauchen zu lassen.

1 „Gefällt mir“