Nun wird auch der OpenAI-Herausforderer Anthropic von Romanautoren verklagt. Das KI-Unternehmen soll seine KI-Modelle mit den Inhalten von fast 200.000 raubkopierten Büchern trainiert haben. Es war wohl keineswegs die einzige Firma, die das tat.
Von Michael Förtsch
Im Wettstreit um die Spitze der KI-Entwickler hat sich Anthropic als bisher stärkster Herausforderer von OpenAI hervorgetan. Dessen Chatbot Claude und sein aktuelles Modell Claude 3.5 Sonnet werden vor allem von Programmierern dafür gelobt, dass sie sehr komplexe Probleme lösen und oft fehlerfreien Code generieren können. Erst kürzlich sind zudem einige namhafte Entwickler von OpenAI zu Anthropic gewechselt, das unter anderem von Amazon, Google und dem deutschen Softwareunternehmen SAP unterstützt wird. Aber wie schon OpenAI gerät nun auch Anthropic in das Visier. Mehrere Autoren haben sich zusammengeschlossen und Klage eingereicht, weil die KI-Firma ihre Modelle mit urheberrechtlich geschützten Büchern trainiert haben soll.
Wie Reuters berichtet, wurde die Klage am Montag von der We-Were-Never-Here-Autorin Andrea Bartz, dem The-Good-Nurse-Autor Charles Graeber und Kirk Wallace Johnson, Autor von The Feather Thief, bei einem kalifornischen Gericht eingereicht. Sie werfen Anthropic vor, „durch den Diebstahl hunderttausender urheberrechtlich geschützter Bücher ein Milliardengeschäft aufgebaut zu haben“. Konkret geht es darum, dass das Unternehmen für das Training seiner KI-Modelle einen Datensatz namens Books3 verwendet haben soll, der aus insgesamt 196.640 Büchern zahlreicher bekannter Autorinnen und Autoren besteht. Das Dataset war 2020 von dem Open-Source-Aktivisten Shawn Presser zusammengestellt worden.
Bis August 2023 war Books3 Teil des KI-Trainingsdatensatzes The Pile, der aus einzelnen Datensätzen bestand und von der gemeinnützigen KI-Forschungsgruppe EleutherAI kuratiert wurde. Neben EleutherAI selbst soll The Pile auch von KI-Unternehmen wie DataBricks, Meta und OpenAI genutzt worden sein. Im Gegensatz zu diesen hat Anthropic die Verwendung von The Pile zur Erstellung seiner KI-Systeme jedoch öffentlich eingeräumt. Unter anderem gegenüber Vox und Proof. Und auch in einem Paper von Anthropic aus dem Jahr 2021 wird die Nutzung angedeutet. 32 Prozent des damals verwendeten Datensatzes sollen aus „internet books“ – eine Umschreibung für raubkopierte Bücher – bestanden haben.
Auch YouTube-Untertitel gestohlen?
In der Klageschrift heißt es: „Es ist offensichtlich, dass Anthropic Kopien von The Pile und Books3 heruntergeladen und vervielfältigt hat, obwohl sie wussten, dass diese Datensätze urheberrechtlich geschützte Inhalte enthielten“. Die Autoren fordern daher, dass Anthropic die Nutzung unlizenzierter Werke in Zukunft unterlässt und darüber hinaus Schadensersatz für die bisherige Nutzung zahlt. Ein Sprecher von Anthropic sagte der Nachrichtenagentur Reuters, man wisse von der Klage, wolle sie aber nicht kommentieren.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Erst kürzlich wurde bekannt, dass EleutherAI einen Datensatz mit den Untertiteln von 174.536 YouTube-Videos zusammengestellt hat. Darunter befinden sich größtenteils automatisch generierte Texte aus Videos von YouTubern wie MrBeast und Marques Brownlee, aber auch von Bildungseinrichtungen wie dem MIT und Harvard sowie Medieneinrichtungen wie NPR und der BBC. Das schlicht YouTube Subtitles getaufte Dataset war zwischenzeitlich wie einst Books3 Teil der Dataset-Sammlung The Pile und soll unter anderem von Anthropic, Apple, Nvidia, Salesforce und Databricks genutzt worden sein.
Seit März wird The Pile nicht mehr von EleutherAI selbst angeboten. Es wird jedoch darauf hingewiesen, dass es weiterhin über Bittorrent oder über Nutzer aus der KI-Community bezogen werden kann.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!