OpenAI: ChatGPT wäre ohne das Sammeln von urheberrechtlich geschütztem Material „unmöglich“

,

Für das Training seiner KI-Modelle hat OpenAI zahlreiche Daten aus dem Internet gesammelt – viele davon sind urheberrechtlich geschützt. Die New York Times hat daher bereits geklagt. Wie OpenAI jetzt in einem Statement an das britische Oberhaus erklärt, wären Sprachmodelle wie GPT-4 ohne diese Praxis nicht machbar.

Von Michael Förtsch

Hinter KI-Chatbots wie ChatGPT, Bard, Claude und anderen stehen Sprachmodelle, so genannte Large Language Models, die mit riesigen Datenmengen trainiert werden. Viele dieser Daten stammen aus sogenannten Datasets, die beispielsweise gemeinfreie Bücher, Wikipedia-Artikel und andere freie Inhalte enthalten. Andere, wie die der Organisation Common Crawl, bestehen aus Terabytes von Texten, die im Internet gesammelt werden. Außerdem setzen Firmen wie OpenAI, Google, Meta und Co. eigene Crawler ein, die das Internet nach neuen Informationen durchforsten. Das ist keineswegs unumstritten. Daher verklagte die New York Times kürzlich die ChatGPT-Firma OpenAI und Microsoft.

Wie OpenAI nun in einer Stellungnahme an das britische Oberhaus House of Lords argumentiert, ginge es für KI-Firmen nicht anders, als massiv urheberrechtlich geschütztes Material zu sammeln, ohne zu fragen. Ohne diese Praxis wäre es „unmöglich, die führenden KI-Modelle von heute zu trainieren“. Das Urheberrecht decke und schütze schließlich „praktisch jede Art von menschlicher Äußerung“ – vom Blogpost über wissenschaftliche Fachartikel bis hin zu statischen Daten von Regierungsstellen. Wie OpenAI ausführt, wäre es zwar ein „interessantes Experiment“, ein Modell ausschließlich mit gemeinfreien Inhalten wie „Büchern und Zeichnungen, die vor mehr als einem Jahrhundert entstanden“, zu trainieren. Diese wären jedoch nicht ausreichend, um Sprachmodelle hervorzubringen, „die den Bedürfnissen der heutigen Nutzer entsprechen“.

OpenAI vertritt, wie etwa The Telegraph berichtet, in seinem Schreiben die Auffassung, dass die derzeit gängige Praxis weitestgehend rechtlich zulässig sei. Demnach wäre es legal, geschütztes Material im Internet zu sammeln und für das Training der Modelle zu nutzen. Auf diesem Wege würde es möglich, dass KI-Modelle „die ganze Vielfalt und Breite der menschlichen Intelligenz und Erfahrung repräsentieren“. Wobei die Firma gleichzeitig argumentiert, dass Urheber von Texten, Kunst, Grafiken und anderen Werken „unterstützt und gestärkt“ werden sollten. Der Hintergrund der Stellungnahme: Derzeit debattieren Vertreter der britischen Regierung eine Regulierung von Künstlicher Intelligenz und Anpassungen des Urheberrechts, um rechtliche Grauzonen zu schließen und gleichzeitig KI-Unternehmen nach Großbritannien zu locken.

Bereits zahlreiche Klagen

Die Zusammensetzung der Trainingsdaten, die insbesondere für kommerzielle Modelle wie GPT-4, Googles Gemini oder Anthropics Claude 2 genutzt werden, ist geheim. Wie Forscher jedoch herausfinden konnten, scheinen diese nicht nur im Internet frei verfügbare Texte zu enthalten, sondern auch komplette Romane wie die Harry-Potter- und Game-of-Thrones-Reihen sowie Fachbücher zu Wissenschaft, Technik und Recht. Daher haben bereits mehrere Autoren wie John Grisham, Jodi Picoult, Jonathan Franzen, Elin Hilderbrand und George R.R. Martin eine Sammelklage gegen OpenAI angestrengt. Die Autoren werfen dem Unternehmen „systematischen Diebstahl in großem Stil“ vor.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Laut der Authors Guild, die Organisatorin der Klage, müssten Künstler die Möglichkeit haben, „zu kontrollieren, ob und wie ihre Werke von generativer KI verwendet werden“. Außerdem erlaube es ChatGPT schnell und einfach, Werke zu erzeugen, die das geistige Eigentum von Autoren verletzen – etwa indem es Geschichten auf der Grundlage von Charakteren erzeugt, die in bekannten Romanreihen wie Game of Thrones vorkommen. Unabhängig von dieser Klage haben auch weitere Künstler wie die Komikerin Sarah Silverman und die Schriftsteller Paul Tremblay, David Henry Hwang und Michael Chabon wegen „eindeutiger Verletzung geistigen Eigentums“ gegen OpenAI geklagt.

Aktuell versucht OpenAI aktiv Partnerschaften mit großen Medienhäusern zu schließen. Unter anderem ist OpenAI eine Kooperation dem Axel Springer Verlag eingegangen. Die Firma soll dadurch Zugriff auf das Archiv von Springer-Publikationen wie Welt, Bild oder auch Politico bekommen und diese für das Training seiner Modelle verwenden dürfen – zunächst für drei Jahre. Mit der Nachrichtenagentur The Associated Press, dem American Journalism Project und der New York University ist die KI-Firma eine vergleichbare Partnerschaft eingegangen. Auch mit der New York Times wolle OpenAI trotz der angestrengten Klage gerne weiter verhandeln, hat das Unternehmen auf seinem Blog angekündigt.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

1 „Gefällt mir“