Sollten wir OpenAI und Co. einfach unsere Texte zum Training ihrer KIs geben?

Michael · 24. August 2023 um 21:50

Mit KI-Chatbots wie ChatGPT, Bard und Sprachmodellen wie LLaMA wurde ein neuer KI-Hype angestoßen. Die KI-Modelle verfügen bereits über erstaunliche Fähigkeiten und werden auf vielfältige Weise eingesetzt. Doch um sie noch mächtiger zu machen, braucht es mehr und mehr Daten. Die werden vor allem aus dem Internet gesaugt – ohne die Autoren und Ersteller zu fragen. Ist das gerecht?

Von Michael Förtsch

Sie haben Hunger. Großen Hunger sogar. Die Firmen hinter Sprachmodellen – oder Large Language Models, kurz LLMs – erleben gerade einen gewaltigen Boom. Etablierte Tech-Größen wie Microsoft, Google, aber auch Risikokapitalgeber investieren Millionen oder sogar Milliarden in bereits bekannte Firmen wie OpenAI, Anthropic und Inflection AI – und in noch eher wenig namhafte wie Cohere, AI21 Labs, Primer, Zhipu AI oder Baichuan Intelligence. Aber: Sie alle brauchen nicht nur Geld und Rechenkraft, um ihre Sprachmodelle aufzubauen, die Texte generieren, zusammenfassen, umschreiben und übersetzen, Computercode erzeugen, mit Menschen chatten, als Suchmaschinenersatz und noch viel mehr taugen sollen. Sie benötigen vor allem Daten – und zwar massenhaft. Die kommen vor allem aus dem Internet, allerdings ohne die Autoren vorher zu fragen.

Als erstes Sprachmodell gilt ELIZA. Dabei handelt es sich jedoch nicht um eine Künstliche Intelligenz im heutigen Sinne, sondern um ein bereits 1966 entwickeltes Computerprogramm, das aus einer einfachen Datenbank mit mehreren vorgefertigten Sätzen bestand, die regelbasiert ausgespielt wurden. Moderne Sprachmodelle wie die GPT-Reihe von OpenAI oder LLaMA von Meta basieren hingegen auf künstlichen neuronalen Netzen, die in ihrer Struktur grob dem Gehirn von Säugetieren nachempfunden sind. Solche Modelle werden mit unzähligen Texten gefüttert. In einem Lernprozess identifizieren die KI-Systeme darin erkennbare Muster und statistische Zusammenhänge. Zum Beispiel wiederkehrende Anordnungen von Wörtern und Satzzeichen, aber auch Daten, Namen und Codes. Auf diese Weise kann sich ein solches Modell ein Sprachverständnis, aber auch Schreibstile und sogar Wissen aneignen.

Sie müssen lernen

Die Größe eines Sprachmodells wird in Parametern angegeben. Bei diesen handelt es sich um Variablen, aus denen Inhalte abgeleitet werden. Parameter sind also die Stellschrauben, die die Künstliche Intelligenz justieren kann, um Sätze zu formen oder Codezeilen zu verfassen. Die Anzahl an Parametern ist nicht unmittelbar von der Menge an Trainingsdaten abhängig, sondern vielmehr von der Komplexität der Architektur des neuronalen Netzes. Allerdings ist es so, dass ein komplexeres Netz mit mehr Parametern in der Regel von mehr Daten profitiert. Je mehr Lernmaterialien in ein entsprechend ausgebautes Netz gespeist werden, umso genauer und feiner lassen sich die Stellschrauben durch ein Training justieren. Umso fähiger, flexibler, vielfältiger und mächtiger wird ein LLM – in der Theorie und weitgehend auch in der Praxis. Scaling nennt sich das.

Wie der ehemalige OpenAI-Entwickler und jetzige Anthropic-Chef Dario Amodei im Podcast Hard Fork sagte, „haben wir [bei OpenAI] Ende 2018 erkannt, dass man diese Dinger einfach weiter skalieren kann, mehr Daten in sie einspeisen kann, die Modelle größer machen kann, sie irgendwie die Kapazität absorbieren und dann können sie alle möglichen Dinge tun“. Die erste Fassung von GPT wurde mit nur 117 Millionen Wörtern trainiert – etwa 158 mal die Bibel. GPT-2 wurde mit 40 Gigabyte an Textdokumenten aus dem Netz aufgebaut – darunter verschiedene vordefinierte Datensets. Für GPT-3 kam die über 40-fache Menge zum Einsatz – darunter auch lizenzierte Bücher und Datenbanken etwa aus der Wissenschaft und der Informatik. Wie groß die Datenbank für GPT-4 war und welche Daten hier einflossen, das hält OpenAI geheim. Das gleiche gilt für das in Arbeit befindliche GPT-5.

Wie OpenAI selbst schreibt, habe man „nicht erwartet, dass die Skalierung so wichtig sein würde, wie es sich herausgestellt hat“. Einige KI-Entwickler glauben sogar, dass die Skalierung hinsichtlich der Parameter und der Trainingsdaten der Weg zu einer Artificial General Intelligence sein könnte – einer Künstlichen Intelligenz, die ähnlich denken und lernen kann wie ein Mensch. Aber genau hier steuern OpenAI und andere KI-Unternehmen auf ein Problem zu.

Nicht genügend Daten?

Wie Forscher erst im Juli in einer Studie feststellten, können KI-Modelle nicht problemlos mit Daten trainiert werden, die selbst von KI-Systemen erstellt werden: Sie beginnen zu degenerieren, es wird sogar von „digitalem Rinderwahn“ gesprochen. Doch genau auf diese Methode setzen bereits mehrere Firmen – auch gezwungenermaßen. Zwar haben Menschen über Jahrhunderte unzählige Daten erzeugt, aber viele davon sind nicht oder schlecht archiviert. Unzählige historische Manuskripte und wissenschaftliche Arbeiten vor den 1970ern sind nicht digitalisiert. Außerdem wird die Bandbreite an Daten im Internet, die von Menschen stammen, zunehmend schmaler. Immer mehr Inhalte im Internet sind synthetisch – also von KI-Systemen erstellt. Dadurch werden authentische menschliche Texte und andere Kreationen allmählich zu einer zunehmend raren und wertvollen Ressource. Genau die wollen die KI-Unternehmen daher nun ganz gezielt und möglichst schnell sammeln, so lange sie noch auffindbar sind.

OpenAI hat beispielsweise einen eigenen Webcrawler gestartet: ein Programm, das das Netz durchforsten, Webseiten und Online-Datenbanken analysieren und deren Inhalte für das Training der eigenen KI-Systeme spiegeln soll. Oder, wie OpenAI es formuliert: Mit GPTBot würden „regelmäßig öffentliche Daten aus dem Internet [gesammelt], die zur Verbesserung der Fähigkeiten, der Genauigkeit und der Sicherheit zukünftiger Modelle verwendet werden können“. In der Ankündigung erklärt OpenAI allerdings auch, dass der GPTBot mit einem einfachen Eintrag in einer auf dem Webserver liegenden Robots.txt-Datei ausgesperrt werden kann. Jedoch verheimlicht OpenAI, wie lange der Bot bereits existiert und vielleicht schon vollkommen unbeobachtet und unentdeckt viele Gigabyte an nutzbaren Daten gesammelt hat.

Ebenso hat Google seine Nutzungsbedingungen für die USA angepasst: denen zufolge können für die Google-Suchmaschine gesammelte Daten künftig auch für das Training von KI-Modellen genutzt werden. Vorerst vor allem für den Google-Übersetzer, aber auch für die Nutzung zum Ausbau der Modelle hinter dem KI-Chatbot Bard könnten sie verwendet werden. Andere Unternehmen dürften diesen Vorbildern folgen – oder sind es schon. Denn es ist schwierig, sogenannte Webcrawler zu identifizieren und auszuschließen, die ausschließlich Daten für KI-Trainings sammeln.

Daneben existieren auch Projekte wie Common Crawl – eine von mehreren Initiativen, die jene Datasets geschaffen haben, mit denen aktuelle Sprachmodell erst möglich wurden. Seit 2008 durchforstet der CCBot von Commons Crawl einmal im Monat das Internet. Auch er lässt sich durch einen Eintrag in der Robots.txt aussperren. Common Crawl verfügt mittlerweile über mehrere Petabytes an Daten. Aufforderungen bestimmte Daten aus dem Corpus zu löschen, kommt die gemeinnützige Organisation nach Berichten von Internetnutzern nicht nach.

Erste Medienunternehmen reagieren bereits darauf. Die Online-Ausgabe der New York Times hat in ihren Nutzungsbedingungen die Verwendung ihrer Inhalte für „die Entwicklung von Softwareprogrammen, einschließlich des Trainings eines Systems für maschinelles Lernen oder Künstliche Intelligenz“ explizit untersagt und ihre Robots.txt angepasst. Bei Verstößen droht die Zeitung mit „zivil-, straf- und/oder verwaltungsrechtliche Strafen, Geldbußen oder Sanktionen gegen den Nutzer und seine Helfer“. Das Technologie-Magazin The Verge hat kurz nach der Ankündigung des GPTBot eben jenen der Tür verwiesen. Das gleiche gilt in Deutschland bereits für die Süddeutsche Zeitung, die Frankfurter Allgemeine und den Sender SWR. Genau wie für mehrere weniger bekannte Online-Angebote.

Du kommst hier nicht rein!

Die Gründe, um den GPTBot abzuweisen – und in Zukunft wohl auch die Webcrawler anderer Entwickler – sind vielfältig. Wie einige Betreiber auf Plattformen wie Twitter und Reddit äußern, stehen sie der Entwicklung von Künstlicher Intelligenz generell kritisch gegenüber. Andere sehen in dem, was OpenAI tut, klare Urheberrechts- und Datenschutzverstöße. Das Gros zweifelt jedoch schlichtweg an der Fairness. Wenn die Crawler von klassischen Suchmaschinen die eigene Website durchforsten, wird diese im Gegenzug in den Suchergebnissen sichtbar gemacht, als Nachrichtenquelle geführt und erhält Besucher. Die KI-Unternehmen bieten hingegen keinen direkten Gegenwert bei diesem Handel.

Stattdessen verarbeiten die Firmen die Inhalte von kommerziellen und privaten Seiten in einem eigenen Produkt. Eines, das vielleicht nur gegen Bezahlung nutzbar ist, wie etwa im Falle von GPT-4 mit ChatGPT Plus. „Es ist Selbstsabotage, wenn du deine Website von OpenAIs GPTBot crawlen lässt“, warnt der Technologiejournalist Alistair Barr, der die Entwicklung des Internet bereits seit den 90ern begleitet. Denn „[…] leistungsstarke Modelle beantworten Fragen auf clevere Weise sofort, so dass es weniger notwendig ist, die Nutzer zu den Quellen der ursprünglichen Informationen zu schicken. Das mag für die Nutzer ein tolles Erlebnis sein, aber die Anreize, qualitativ hochwertige, kostenlose Informationen online zu teilen, brechen dadurch schnell zusammen“.

Wer KI-Entwickler die eigene Website durchsuchen und deren Daten verarbeiten lasse, der mache sich letztlich selbst Konkurrenz, warnen Barr und andere. Dass das nicht nur Theorie ist, das soll bereits der Abstieg der Plattform Stackoverflow zeigen, auf der sich Entwickler von Softwareprogrammen austauschen, Lösungen und auch konkret Computercode teilen. Die Zahl der Besucher der Plattform bricht seit dem Start von ChatGPT oder dem auf der gleichen Technologie basierenden GitHub Copilot sichtbar ein, weil sich immer mehr Entwickler von einem Bot helfen lassen, statt auf der Plattform nach einer Lösung zu suchen. Elon Musk bezeichnete diese Entwicklung als „Tod durch LLM“.

Wir wollen Geld

Eine langsam wachsende Gruppe fordert, dass die Datensammlung im Internet einvernehmlich geschehen müsse. Zumindest, wenn es um KI-Werkzeuge geht. Ähnliches haben bereits zahlreiche Künstler in der Debatte rund um KI-Bild-Generatoren gefordert. Der Standard müsse sein, dass Daten nicht einfach ungefragt gesammelt werden. Wer bereit ist, seine Daten verarbeiten zu lassen, solle die Option zu einem expliziten Opt-in bekommen – und nicht nur zum Gegenteil. Dass es bald dazu kommt, erscheint jedoch unrealistisch. Zumindest Projekte wie Common Crawl sehen ihr Tun im Einklang mit Recht und Gesetz. Ähnlich sieht es wohl auch bei OpenAI und Co. aus.

Dennoch sind erste KI-Firmen und Medien zu Einigungen gekommen. Die New York Times hat mit Google im Februar 2023 einen Vertrag über 100 Millionen US-Dollar zur Nutzung der Verlagsinhalte vereinbart. Die Nachrichtenagentur Associated Press wiederum hat eine Partnerschaft mit OpenAI geschlossen. OpenAI will der weltweit tätigen Agentur nun Lizenzgebühren für die Nutzung ihrer Datenbanken zahlen. Ebenso soll Associated Press als Teil der Partnerschaft verschiedene Werkzeuge und Technologien von OpenAI nutzen dürfen.

Auch deutsche Verlage würden gerne für die Nutzung ihrer Texte und anderer Inhalte entlohnt werden. „Eine Verwertung von Verlagsangeboten durch KI-Sprachmodule für die Veröffentlichung konkurrierender Inhalte ist unseres Erachtens nur mit einer Lizenz des Verlages zulässig“, heißt es in einer Stellungnahme des Bundesverbands der Digitalpublisher und Zeitungsverleger und des Medienverbands der freien Presse. Nur wer bezahlt, solle sie also im Rahmen von einem KI-Training verwerten dürfen. Hier greife möglicherweise bereits das Urheberrechtsgesetz gegen Text- und Data-Mining. Denn wenn eine Nutzung von Verlagsinhalten über eine Analyse, „um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“ hinaus geht, müsse der Rechteinhaber zustimmen.

Anders könne es bei anderen Verarbeitungsformen durch KI-Systeme ausschauen, beispielsweise der Erstellung von Zusammenfassungen von Nachrichten und Artikeln. Laut der Verwertungsgesellschaft Corint Media – ehemals VG Media – ist unsicher, ob die Forderungen der Medienunternehmen hier beispielsweise bereits durch das Leistungsschutzrecht gesetzlich gedeckt sind. Denn das automatisierte Zusammenfassen und Umformulieren einer Meldung oder das Generieren einer Nachrichtenübersicht durch eine KI könne durchaus ohne Lizenz und Rücksprache erlaubt sein, da „die Nutzung der in einer Presseveröffentlichung enthaltenen Tatsachen“ nicht lizenzpflichtig ist.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Was sagt ChatGPT?

Betreffend den Umgang mit dem Datenhunger der KI-Firmen und ihrer Modelle stellen sich also viele Fragen. Vor allem hinsichtlich der Fairness. Einige große Unternehmen wie die New York Times und Associated Press werden bereits für ihre Inhalte bezahlt, während andere die Bots der KI-Unternehmen explizit abweisen müssen – ohne zu wissen, ob ihre Daten vielleicht schon abgesaugt wurden. Hier kann auch ChatGPT nur begrenzt weiterhelfen. Nach einer Einschätzung und Meinung gefragt, schreibt der Chatbot, dass die Lage „kompliziert“ sei. Aber auch, dass es für Betreiber von Webseiten und Online-Magazinen eine „beunruhigende“ Situation darstelle, die „mehrere ernsthafte Bedenken“ aufwerfe.

Das Tun von OpenAI und anderen könne aus „rechtlicher, ethischer und geschäftlicher Sicht problematisch“ erscheinen, so ChatGPT. Ethischer und fairer wäre es eindeutig gewesen, wenn OpenAI rechtzeitig und transparent über seinen Bot informiert hätte. Daher rät ChatGPT dazu, den GPTBot und andere Crawler, die mit dem Training von KI-Modellen in Verbindung stehen, vorerst auszusperren. Es solle ein Dialog mit OpenAI und anderen gesucht werden, um „klarzustellen, was akzeptabel ist und was nicht“. Auch ein Eingreifen von Behörden könne hilfreich sein, schreibt der Chatbot. Es könnten Gesetze nötig sein, die „die Unternehmen dazu verpflichten, klar über ihre Webcrawling-Praktiken zu informieren, und klare Richtlinien für das Einholen von Zustimmung aufstellen“.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!