20. Juli 2023

Werden ChatGPT und Co. an digitalem Rinderwahn erkranken, weil das Internet mit KI-Inhalten überflutet wird?

Immer mehr Texte, Bilder und andere Medien im Internet werden von Künstlicher Intelligenz erstellt. Das bringt Probleme – insbesondere für die Entwickler der KI-Systeme. Denn, wie sich nun zeigt, werden die KI-Modelle krank und degenerieren, wenn sie mit Inhalten, die von KI erschaffen wurden, trainiert werden.

Von Michael Förtsch

Selten wurde eine neue Technologie so schnell von so vielen Menschen angenommen wie die generative Künstliche Intelligenz. Gemeint sind damit KI-Chatbots und -Sprachmodelle wie ChatGPT, Bard oder Claude, aber auch Bild-Generatoren wie Midjourney, DALL-E 2 und Stable Diffusion. Seit 2022 erleben diese einen ungekannten und zuvor vollkommen unerwarteten Boom. Hunderte Millionen Nutzer verwenden sie, um Texte zu schreiben oder zusammenfassen zu lassen, Programmiercode zu generieren, fotorealistische Bilder oder abstrakte Kunst zu erschaffen. Es ist eine Technologierevolution, die manche für den Start einer neuen digitalen Epoche halten, die Kunst, Kultur, Wirtschaft, Wissenschaft und Gesellschaft grundlegend verändern und prägen wird. Etwas, das viele sowohl begeistert als auch verängstigt.

Die Werke der generativen KI-Systeme landen natürlich vor allem im Internet. Zahlreiche Nutzer teilen ihre KI-generierten Bilder und Videos auf Plattformen wie Tumblr, Twitter und dedizierten Portfoliowebsites. Das gleiche gilt für KI-generierte Texte. Immer mehr Menschen nutzen sie, um Inhalte für ihre Blogs und Websites zu schreiben. Einige Start-ups experimentieren mit KI-Tools, um Nachrichten zusammenzufassen oder die Ergebnisse von Sportereignissen gut lesbar zu präsentieren. Auch setzen immer mehr Medienunternehmen wie CNET, GO Media und andere Text-Generatoren ein, um Content zu erzeugen – bislang mit eher zweifelhaftem Erfolg. Und immer mehr Podcaster und Radios experimentieren mit KI-genierten Stimmen. Schon jetzt ist also klar: Generative KI wird das Internet massiv verändern.

Wenn das Internet nur noch aus KI besteht

Nach einer Analyse von Europol, der EU-übergreifenden Polizeibehörde in Den Haag, könnten 2026 bereits 90 Prozent aller Online-Inhalte einen synthetischen Ursprung haben. Seien es Texte, Bilder, Videos, Musik, Sprache oder etwas anderes. Die Polizeibehörde sieht darin kein grundsätzliches Problem. Das Gros davon wäre rechtlich wohl eher unbedeutend. Dennoch gäbe es zahlreiche Herausforderungen. Denn all die KI-Tools könnten genutzt werden, um Desinformation zu verbreiten, Missbrauchsdarstellungen oder Fälschungen zu erzeugen. Für die Strafverfolgung würde das viel Arbeit bedeuten.

Hat die MAD-Epidemie bereits begonnen?

Im Juni 2022 begannen sich viele Nutzer von ChatGPT zu beschweren, dass der Dienst nicht mehr so clevere und hilfreiche Antworten liefere wie zuvor. Insbesondere die Programmierfähigkeit habe nachgelassen, wurde bemängelt. OpenAI tat das als Einildung ab.

Jedoch hat eine Studie von der Stanford University und UC Berkley im Juli nachgewiesen, dass die Leistungen von ChatGPT tatsächlich signifikant abgenommen haben. Insbesondere beim Lösen mathematischer Probleme und dem Generieren von Code habe sich der Dienst verschlechtert. Konnte GPT-4 via ChatGPT im März eine Primzahl in über 97 Prozent der Fälle identifizieren, war das im Juni nur in 2,4 Prozent der Fälle der so.

Die Gründe sind unklar. Mutmaßungen gehen in die Richtung, dass OpenAI verschiedene Versionen seiner GPT-3- und GPT-4-Modelle teste, die mal besser, mal schlechter ausfallen.

Andere Nutzer sehen die Ereignisse als erste Symptome der degenerativen KI-Krankheit.

Nicht alle sind von der Zahl überzeugt, die Europol angibt. Dennoch sind KI-Forscher und Netzexperten ziemlich sicher, dass der Anteil an rein menschgemachten Inhalten im Internet über die kommenden Jahre rasant schrumpfen und der Anteil der KI-generierten Inhalten blitzschnell wachsen wird. Beziehungsweise: Das passiert jetzt schon. Insbesondere Text-Generatoren erschaffen riesige Mengen von Inhalten. Wie Forscher jetzt spekulieren, wird das wohl nicht nur rechtliche und gesellschaftliche Fragen oder Diskussionen um eine neue Medienkompetenz mit sich bringen, sondern auch massive Probleme verursachen – und zwar bei der weiteren Entwicklung von Künstlicher Intelligenz.

Künstliche Daten

Das Training von Künstlicher Intelligenz – insbesondere von sogenannten Basis- oder Foundation-Modellen – ist ziemlich aufwendig, energie- und rechenintensiv. Und teuer. Das Training von GPT-3 soll rund 1,4 Millionen US-Dollar gekostet haben. Neuere und größere Sprachmodelle sollen sogar über 10 Millionen US-Dollar an Rechenkosten anhäufen. Die erste öffentliche Fassung von Stable Diffusion soll wiederum 600.00 US-Dollar verschlungen haben und Midjourney seit dem Entwicklungsstart mehrere Millionen.

Die Inhalte, mit denen KI-Systeme bisher trainiert wurden und werden, stammen größtenteils aus dem Internet. Spezialisierte Datasets wie The Pile , LAION-5b und andere umfassen Links zu Texten, Bildern und – je nach der Ausrichtung des KI-Systems – auch Videos und Audiodateien, die dann automatisiert heruntergeladen werden. Auch haben KI-Entwickler wie OpenAI eigene Datasets, die zum Training genutzt werden. Darin enthalten sind Unmengen an Nachrichtenartikeln, Texte aus Blogs, Posts von Reddit und Twitter, Wikipedia-Einträge, ganze Bücher aus dem Internet Archive, Bilder aus Wiki Commons, von Künstler-Portfolio-Websites und vielen anderen Quellen. Fast alles menschgemacht – jedenfalls bis im Jahr 2022 die Revolution der generativen Künstlichen Intelligenz begann.

Die neue Herausforderung: Viele Quellen, die bislang genutzt wurden, um Trainingsdaten für das Maschinelle Lernen zu akkumulieren, sind mittlerweile auch mit KI-generierten Inhalten durchsetzt. Zwangsläufig werden kommende Datasets also auch aus KI-genierten Inhalten bestehen – und tun es bisweilen schon. LAION-5B, zum Beispiel, enthält in seiner aktuellen Fassung einige Bilder, die mit DALL-E und BigGAN erstellt wurden. Das könnte die Weiterentwicklung von Künstlicher Intelligenz ziemlich erschweren. Denn wie Wissenschaftler der Stanford University und der Rice University feststellten , werden KIs krank, wenn sie mit zu viel KI-generierten Daten gefüttert werden. Sie entwickeln eine Model Autophagy Disorder, eine Art degenerative KI-Krankheit.

Wenn KI krank wird

Das Forscherteam erprobte den Effekt mit der Bild-KI StyleGAN-2, die für die Erstellung realistischer Portraits bekannt ist. Sie speisten KI-generierte Portraits in die Bild-KI ein und trainierten sie in mehreren Zyklen damit. Nach fünf Trainingszyklen begannen neu generierten Gesichter, merkwürdige Schlieren und visuelle Missbildungen zu zeigen, die die Forscher als Kreuzschraffur-Artefakte bezeichnen. Wie sie anführen, hätten sie sich „der Einfachheit halber auf Bilddaten konzentriert“, aber das Problem würde für jeden KI-Typ gelten: Bild-, Text-, Video- und wohl auch Audiomodelle. Ein Team der Cornell University bestärkt diese Annahme in einer eigenen Studie, in der der Effekt als „Fluch der Rekursion“ bezeichnet wird.

Der von den Forschern beobachtetet Effekt ist nicht neu. Ähnliches haben bereits Nutzer des Text-zu-Bild-Generators Stable Diffusion auf Debattenplattformen wie Reddit oder der Entwicklerplattform Github dokumentiert. Sie versuchten etwa Basismodelle mit KI-generierten Gesichtern und Bildern aus Stable Diffusion und anderen Text-zu-Bild-Generatoren wie Midjourney und DALL-E 2 zu tunen. Generierte Bilder zeigten jedoch nach mehrmaligen Trainingsdurchläufen absurd verzogene Gesichter und deformierte Pupillen bei menschlichen Figuren und schlierenhafte Bildfehler und Artefakte, wie sie bei einer fehlerhaften Kompression auftreten.

Laut den Stanford- und Rice-Forschern entsteht beim Training einer Künstlichen Intelligenz mit KI-Daten „eine autophagische – also selbstverzehrende – Schleife“, deren genaue Dynamik „bislang kaum verstanden“ ist und daher weiter erforscht werden sollte. Die Annahme ist jedoch: Den KI-generierten Inhalten fehlen die Diversität, die Unregelmäßigkeiten, die Zufälligkeiten und auch die Unschärfen, die die Natürlichkeit meschengemachter Daten definieren. Denn die Inhalte, die eine KI erschafft, basieren auf statistischen Zusammenhängen und erlernten Mustern. Generiert ein KI-Modell nun Bilder, Videos, Texte oder Audioinhalte spiegeln sich darin die „Fingerabdrücke der Generatorarchitektur“. Wird die KI wieder und wieder mit solchen KI-Werken als Lerninhalt konfrontiert, verstärken sich diese immer mehr, so die Hypothese.

Frische Daten für die KI

Die Lösung für die Datenarmut? Mehr Menschen müssten ohne KI-Unterstützung viele neue Inhalte generieren, die sicht- und nachprüfbar nicht von KI-Tools mitgestaltet werden. Aber ist das möglich? Im New-York-Times-Podcast Hardfork spekulierten die Tech-Journalisten Kevin Roose und Casey Newton bereits im Juni über Datenmarkplätze und eine dystopische Zukunft, in der Autoren von KI-Firmen bezahlt werden, um etwa Artikel zu schreiben, aus denen die KIs der Unternehmen lernen können.

Gänzlich neu wäre das nicht. Schon jetzt arbeiten rund um die Welt zahlreiche Menschen für KI-Systeme, in denen sie als Klick-Arbeiter die Inhalte von Bildern identifizieren, Texte bewerten und KI-Filter trainieren, die Gewalt und sexuelle Abbildungen erkennen sollen.

Dadurch werden die Muster weiter und weiter potenziert. Sie beschneiden die Variabilität und Flexibilität des Modells. Ebenso könnten Fehler in den Modellen, die sonst kaum bis gar nicht sichtbar sind, plötzlich sichtbar werden. Irgendwann käme es dann zum Kollaps des Modells. Ganz ähnliche Effekte sollen in der Vergangenheit bereits bei weniger komplexen Systemen zu beobachten gewesen sein. „Einige Studien haben gezeigt, dass beispielsweise ein Empfehlungssystem, das auf eine maximale Klickrate ausgerichtet ist, zu einer Echokammer führt, in der die Nutzer nicht mehr mit unterschiedlichen Ideen konfrontiert werden“, so die Wissenschaftler in ihrer Studie.

Als Analogie aus der Welt der Biologie ziehen die Forscher die „Fütterung von Rindern mit den Überresten – einschließlich Gehirnen – anderer Rinder heran“. Erst dadurch konnte die Bovine spongiforme Enzephalopathie – kurz BSE oder Rinderwahn –, die zu einer schwammartigen Durchlöcherung des Gehirns führt, zu einem länderübergreifenden Problem werden. Model Autophagy Disorder funktioniere und gedeihe ähnlich, sagen die Forscher. Es sei eine Art Rinderwahnsinn für digitale Gehirne. Und es sei wichtig herauszufinden, „was man tun kann, um zu verhindern, dass generative Modelle MAD entwickeln“.

Was tun?

Wie die Stanford- und Rice-University-Forscher schreiben, ist es nicht grundsätzlich verdammenswert eine Künstliche Intelligenz mit KI-generierten Inhalten zu trainieren. Aber schadensfrei möglich sei das nur, wenn das in Maßen und als Beimischung zu einer unweit größeren Menge an „frischen echten Daten“ geschieht. „Unsere wichtigste Schlussfolgerung über alle Szenarien hinweg ist, dass ohne genügend frische Daten in jeder [Trainings- oder Entwicklungs-]Generation eines Modells durch eine autophagische Schleife zukünftige generative Modelle dazu verdammt sind, ihre Qualität progressiv zu verringern“, schreiben die Forscher. Das zu verhindern, könnte sich aber als knifflige Mission erweisen.

Da immer mehr Inhalte im Internet synthetischer Natur sind, wird es „für KI-Unternehmen zwangsläufig schwieriger werden ihre Trainingsdatensätze davon freizuhalten“. Denn Filter- und Erkennungssoftware und digitale Wasserzeichen für KI-generierte Inhalte erweisen sich bislang als eher unzuverlässig. Dadurch drohten den großen etablierten und jungen KI-Firmen, wie die Forscher spekulieren, auch die sauberen Daten irgendwann auszugehen, um immer größere und fähigere Modelle zu erschaffen, die mehr wissen und können. Verlass darauf, dass etwa bestimmte Texte oder Textarten KI-frei erstellt wurden, sei nicht mehr gewährleistet. Auch Wissenschaftler, Rechtsanwälte oder Ökonomen werden KI-Tools nutzen, um Aufsätze, Doktorarbeiten oder Rechtsgutachten zu verfassen.

KI-Entwickler müssten daher riskante Kompromisse eingehen: Sie können auf neue Inhalte für das Modell verzichten, oder das Risiko eingehen, dem Modell zu schaden. Die Forscher sind sich ziemlich sicher, dass KI-Autophagie schon in naher Zukunft sichtbar werden und erste Folgen haben wird. Es gebe schließlich nicht wenige Unternehmen und Projekte, die schon auf KI-generierte Inhalte für das Training von KI-Modellen setzen, weil es schnell und vor allem billig ist. Der schlimmstmögliche Fall ist, meinen die Forscher, dass in den kommenden Jahren unabdingbar zahlreiche Modelle von MAD befallen werden und diese letztlich die „Datenqualität und -vielfalt des gesamten Internets vergiften“.

Michael Förtsch

Leitender Redakteur

0

Cooler Artikel!

Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Anmelden

Registrieren

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot

Mitglied werden!

Anmelden

Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Mitglied werden!

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Zur Startseite

Kommentare

Share Your ThoughtsBe the first to write a comment.

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

Werden ChatGPT und Co. an digitalem Rinderwahn erkranken, weil das Internet mit KI-Inhalten überflutet wird?

Wenn das Internet nur noch aus KI besteht

Hat die MAD-Epidemie bereits begonnen?

Künstliche Daten

Wenn KI krank wird

Frische Daten für die KI

Was tun?

Michael Förtsch

Leitender Redakteur

0

Job, der Bot

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

Job, der Bot

Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Job, der Bot

Weiter bei 1E9...

Überschrift 3

Überschrift 3

Überschrift 3

Überschrift 3

Newsletter

Menü

Folgen

Du willst beim Festival als Speaker dabei sein?

Du willst als Partner dabei sein?