Unreguliertes KI-Training: Wer entscheidet, welche Daten verwendet werden dürfen?

Bisher nutzen KI-Unternehmen sehr großzügig alle möglichen Daten, die im Internet verfügbar sind, um ihre KI-Modelle zu trainieren. Seien es Texte, Bilder, Musikstücke oder Videos. Dagegen regt sich Widerstand. Sie richtet sich aber fast ausschließlich gegen westliche Unternehmen.

Von Michael Förtsch

Es scheint manchmal geradezu magisch, wozu aktuelle KI-Modelle fähig sind. Erst kürzlich präsentierte der OpenAI-Herausforderer Anthropic das Sprachmodell Claude 3.5 Sonnet, das Nutzeranfragen besser verstehen, Texte und Bilder genauer analysieren, komplexere mathematische Aufgaben lösen und Programmiercode mit noch weniger Fehlern erzeugen soll als das aktuelle GPT-Modell 4o. Darüber hinaus buhlen derzeit gleich mehrere KI-Videomodelle mit teils spektakulären Bewegtbildern um Aufmerksamkeit – darunter Luma Labs Dream Machine, Runway Gen-3 und der offiziell nur in China einsetzbare Dienst Kling. Gleiches gilt für die Musikgeneratoren Suno und Udio, die für einen nicht enden wollenden Strom teils kurioser, teils durchaus hörenswerter Ohrwürmer sorgen. Gleichzeitig wird allerdings auch die Kritik an den Machenschaften der dahinterstehenden Firmen immer lauter.

Denn so nützlich und unterhaltsam KI-Tools auch sein mögen, so schmallippig werden ihre Entwickler, wenn es darum geht, wie und vor allem mit welchen Daten sie trainiert wurden. Sowohl ethisch als auch rechtlich, sagen Kritiker aus verschiedenen Lagern und auch aus der KI-Branche selbst, seien viele der Prozesse wohl nicht zu verantworten. Deshalb, so der Vorwurf, schweigen die teils mit dreistelligen Millionen- bis hohen Milliardenbeträgen finanzierten Unternehmen lieber darüber oder vermeiden konkrete Angaben. Bereits Ende letzten Jahres haben mehrere Autoren wie John Grisham, Jonathan Franzen und Elin Hilderbrand Klage gegen OpenAI und Microsoft eingereicht, genau wie der Verlag der New York Times. Mehrere Onlinemedien und Tageszeitungen taten dies ebenfalls. Und gerade folgte die US-Non-Profit-Organisation Center for Investigative Reporting, die unter anderem Mother Jones und Reveal herausgibt.

Nun hat auch die für ihre Filesharing-Klagen ebenso berühmte wie berüchtigte Recording Industry Association of America, die Interessenvertretung einiger der größten Musikverlage in den USA, Klage gegen Suno und Udio eingereicht. Der Vorwurf: Die beiden Firmen sollen ihre Modelle mit abertausenden nicht-freien Musikstücken trainiert haben, ohne diese bei den Verlegern zu lizenzieren oder die Künstler zu entschädigen. Bis zu 150.000 US-Dollar wollen die Musikverlage „pro Verletzung“, wodurch sich eine Schadenersatzsumme von mehreren Milliarden Dollar ergeben könnte, wie Bloomberg berichtet. Tatsächlich machten beide Firmen bisher nicht öffentlich, welche Trainingsressourcen sie genutzt haben.

„Wir versuchen, unser Netz so weit wie möglich auszuwerfen, um alle verschiedenen Musiktraditionen in unserem Modell abzubilden“, sagt etwa Udio-CEO David Ding. Dass Suno und Udio sowohl Klassiker als auch aktuelle Musikstücke für das Training ihrer Modelle verwendet haben, gilt aber sowohl bei den Musikverlagen als auch bei vielen KI-Experten als sicher. Denn selbst wenn die Dienste versuchen, die Verwendung von Musikernamen in den Prompts zu unterbinden – etwa indem sie die Prompts via Sprachmodellen anpassen, umschreiben oder blockieren –, ist es Nutzern teils gezielt, teils zufällig immer wieder gelungen, die Dienste zu jailbreaken. Sie werden also dazu gebracht, ihre künstlichen Beschränkungen zu ignorieren und beispielsweise die Stimmen und Stile ganz bestimmter Musiker zu imitieren.

Einige Nutzer entdeckten sogar auffällige Markenzeichen wie Producer Tags in ihren KI-Songs. Dabei handelt es sich um bestimmte Soundelemente oder sogar gesprochene Namen von Produzenten, die beispielsweise häufig am Anfang eines Songs zu hören sind. Solche Ergebnisse sind nur möglich, wenn die KI-Modelle auch mit den Titeln eben jener Produzenten trainiert wurden. „Wenn es zu einem Prozess kommt und nachgewiesen werden muss, dass Musikstücke ungefragt für das Training verwendet wurden, dann ist genau so etwas ein wichtiges Beweisstück“, sagt ein KI-Forscher, der mit KI-Soundmodellen vertraut ist, gegenüber 1E9. „Denn das sind keine Artefakte, die einfach zufällig entstehen können, sondern markante Merkmale einzelner kommerzieller Musiker, die irgendwo in den Datasets vorgekommen sein müssen.“

Die Kritik wird lauter

RIAA-Chef Mitch Glazier wirft Suno und Udio vor, „die Lebenswerke von Künstlern zu stehlen und ohne deren Zustimmung für den eigenen Profit auszubeuten“, anstatt wirklich innovative KI-Systeme zu entwickeln. Ähnlich fällt die Kritik an den zahlreichen anderen KI-Firmen aus, die Inhalte von YouTube, Medienwebsites, Textarchive oder sogar ganze Bücher für das Training ihrer KI-Werke verwenden. Laut Firmen wie OpenAI handelt es sich dabei um Fair Use, eine in den USA und einigen anderen Ländern geltende Rechtsdoktrin, die besagt, dass urheberrechtlich geschützte Werke auch ohne explizite Erlaubnis oder Lizenz genutzt werden dürfen, wenn sie beispielsweise der Bildung, der Kritik oder der Produktion transformativer oder gänzlich neuer Werke dienen.

„Wir glauben, dass dieses Prinzip fair gegenüber den Urhebern und notwendig für die Innovatoren ist“, so OpenAI in seiner Antwort auf die Klage der New York Times. In anderen Ländern gibt es durchaus ähnliche Regelungen, die aber zum Teil restriktiver sind. In Deutschland und der EU etwa darf urheberrechtlich geschütztes Material verwendet werden, wenn es im Forschungskontext genutzt wird – auch für das KI-Training. Grundsätzlich müssen sich aber „KI-Dienstleister (…) bei der Nutzung fremder Inhalte an die geltenden Gesetze halten“, wie das Bundesjustizministerium schreibt. Wenn ein Medium oder auch eine Privatperson auf ihrer Website darauf hinweist, dass eigene Texte, Bilder oder andere Inhalte nicht für Trainingsprozesse verwendet werden sollen, „dürfen (diese) Inhalte nicht für das Training von KI-Software verwendet werden“.

Ein solcher Widerspruch ist als Opt-out zu werten. So einfach ist das. Und: „Gegen eine rechtswidrige Nutzung können die Rechteinhaber Unterlassungs- und Schadensersatzansprüche geltend machen“, so das Bundesjustizministerium weiter. Doch einige Vertreter der KI-Branche haben ganz eigene Vorstellungen, die nicht nur mit dem deutschen Recht ziemlich unvereinbar sind. Dazu gehört der ehemalige Deepmind-Forscher, Inflection-AI-Mitbegründer und heutige Chef von Microsoft AI, Mustafa Suleyman.

In einem Interview mit CNBC behauptet er, dass es bereits seit den 1990er Jahren eine Art „sozialen Vertrag“ gäbe, der besagt, dass alle öffentlich zugänglichen Inhalte im Internet kopiert, reproduziert oder zur Erstellung neuer Inhalte verwendet werden dürfen. Dies schließe auch KI-Trainings ein. Alles, was im Internet nicht explizit mit einer Schranke versehen sei, sei gewissermaßen „frei“, so Suleyman. Und selbst wenn eine Privatperson oder ein Verlag die Nutzung der eigenen Inhalte für KI-Trainings oder die Verschlagwortung verbiete, sei das „eine Grauzone, die ihren Weg durch die Gerichte finden wird“. Für diese Aussagen erntete Suleyman viel Kritik, auch von Forschungs- und Berufskollegen. Ein solches Abkommen sei ein Hirngespinst. Es sei lediglich eine Rechtfertigung für ein Vorgehen, das sowohl rechtlich als auch ethisch fragwürdig sei.

KI ohne Datendiebstahl?

Tatsächlich gibt es bislang keine Einigkeit darüber, ob und inwieweit KI-Firmen wie OpenAI, Anthropic oder Google und Meta eigentlich geschützte Daten aus dem Internet kopieren dürfen, um ihre Modelle zu trainieren. Oder ob sie dies vielleicht sogar müssen, wie etwa OpenAI Anfang dieses Jahres in einer Stellungnahme für das britische Oberhaus argumentierte. Denn ohne die massenhafte ungefragte Nutzung von Inhalten – vom Fachartikel bis zum Blogpost und Reddit-Kommentar – sei es „unmöglich, die führenden KI-Modelle von heute zu trainieren“. Eine Aussage, die von einigen KI-Forschern als unbewiesen kritisiert wird.

Fest steht: Die Selbstverständlichkeit, mit der KI-Unternehmen ungefragt Inhalte aus dem Internet für ihre Datensätze sammeln, wird zunehmend zum Gegenstand öffentlichen Widerstands. Zumindest scheint sie allmählich an Grenzen zu stoßen. Denn bereits im vergangenen Jahr haben Unternehmen wie OpenAI, Google und andere begonnen, Lizenzvereinbarungen mit großen Inhalte-, Wissens- und Medienplattformen abzuschließen. Darunter mit Nachrichtenagenturen wie Reuters und AP, Verlagen wie Axel Springer, aber auch Social-Media-Plattformen wie Reddit und Programmierforen wie StackOverflow, die einen Jahre bis Jahrzehnte überspannenden Fundus an hochwertigen Text-, Bild- und Videodaten bergen sowie über die Mittel verfügen würden, einen Rechtsstreit zu führen, wenn die Daten ungefragt kopiert und für KI-Trainings verwendet würden.

Aber auch Unternehmen wie Stability AI, die Entwickler der Text-zu-Bild-Modellfamilie Stable Diffusion, zogen Kritik auf sich und gaben anschließend Künstlern die Möglichkeit, ihre Werke aus den Datensätzen neuer Modelle wie Stable Diffusion 3 zu entfernen. Die Firma Runway, bekannt für ihre Videomodelle der Gen-Familie, kündigte ihrerseits in Kooperation mit Getty ein Videomodell an, das vollständig mit Videos der Bild- und Videoagentur trainiert werden soll, deren Urheberrecht bereits abgelaufen ist oder die nachweislich lizenziert sind und somit urheberrechtlich unbedenklich genutzt werden können.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Was, wenn sich nicht alle an Regeln halten?

Das Einlenken einzelner KI-Unternehmen auf die Kritik wird jedoch nicht nur positiv aufgenommen. Denn sie würden sich zwar mit den großen kommerziellen Plattformen arrangieren, nicht aber – oder kaum – mit den hunderten Millionen Privatpersonen, deren Texte, Bilder, Videos und Musikstücke für KI-Trainings verwendet werden. Ihre kreativen Werke würden weiterhin ungefragt und unreflektiert gecrawlt und verarbeitet. Und nicht nur das: Bislang reagierten fast ausschließlich westliche KI-Unternehmen auf die Kritik. KI-Firmen in anderen Regionen der Welt würden dies nicht tun und sich sogar explizit über Urheberrechte und Wünsche von Autoren, Künstlern und Unternehmen hinwegsetzen.

„Man kann davon ausgehen, dass wenn jemand was ins Internet stellt, dass russische und chinesische Firmen darauf trainieren“, sagt Christoph Schuhmann vom KI-Verein LAION. Einige Beteiligte und Beobachter der KI-Industrie sehen darin die Gefahr eines möglicherweise schnell wachsenden Ungleichgewichts. In Kombination mit chinesischen Datenhorten wie staatlich kontrollierten Datenbanken, den Überwachungs- und Gesichtserkennungssystemen von Privatunternehmen könnten insbesondere chinesische Firmen wie Zhipu AI und andere ihre derzeit noch im Vergleich mit GPT-4o, Claude 3 oder Mistral Large rückständigen Modelle deutlich schneller und aggressiver skalieren, zu westlichen KI-Firmen aufschließen und sie letztlich überholen.

Derzeit werden über 1.600 einzelne und teils sehr unterschiedliche Regularien für Künstliche Intelligenz verfolgt. Verschiedene Initiativen und Aktivisten fordern daher strenge und klare Regeln für den Einsatz und die Ausbildung von Künstlicher Intelligenz – und zwar einheitlich und länderübergreifend. Es brauche eine globale Ordnung, wie Künstliche Intelligenz entwickelt und eingesetzt wird. Eine, die für alle gilt. Aber auch bei diesen Initiativen spielen das Urheberrecht und die Anhäufung von Trainingsdaten bisher oft eine untergeordnete Rolle. Die aktuellen Entwicklungen zeigen jedoch, dass sich dies ändern muss.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

2 „Gefällt mir“