KI-Training ohne Urheberrechtsverletzung? Das Projekt SourcePlus soll es möglich machen

Viele Künstler kritisieren, dass ihre Werke für das Training von KI-Modellen verwendet werden, ohne sie zu fragen oder zu entlohnen. KI-Entwickler haben immer wieder beteuert, dass dies nicht anders möglich sei. Ein neues Projekt bietet nun eine Datenbank mit über 40 Millionen frei und legal nutzbaren Bildern für das KI-Training an. Die Macher hoffen auf Nachahmer.

Von Michael Förtsch

Es ist einer der zentralen Streitpunkte bei der Entwicklung von Künstlicher Intelligenz: Woher kommen die ganzen Daten, mit denen die Modelle trainiert werden? Die Antwort lautet fast immer: irgendwo aus dem Internet. Sowohl Start-ups als auch Forschungseinrichtungen durchforsten das sichtbare World Wide Web nach Texten, Bildern, Videos und anderen Inhalten. Vor allem viele Kreative wie Fotografen, Maler und Künstler fühlen sich dabei bestohlen. Denn sie wurden und werden nicht um Erlaubnis gefragt. Ihre Werke werden dadurch zu erlernten Mustern für Stile und Motive, die dann in Midjourney oder Stable Diffusion mit einem Prompt aktiviert werden können. Wie einige KI-Entwickler argumentieren, sei das legal – und zudem alternativlos. Es gäbe nicht genug wirklich freie Inhalte, um brauchbare KI-Modelle zu trainieren. Ein ambitioniertes Projekt könnte nun das Gegenteil beweisen.

Der in Berlin lebende Brite Mathew Dryhurst kann nachvollziehen, wie sich Künstler fühlen, wenn sie mit Künstlicher Intelligenz konfrontiert werden. Denn er ist selbst einer, will der Technologie aber sowohl offen, als auch kritisch begegnen. Gemeinsam mit der Künstlerin Holly Herndon steht er hinter der Organisation Spawning, die bereits eine Suchmaschine ins Leben gerufen hat, um herauszufinden, ob eigene Bilder in dem viel genutzten Bild- und Metadatensatz LAION 5B enthalten sind, und die Künstlern hilft, ihre Werke aktiv daraus zu entfernen. „Wir beschäftigen uns also schon seit Jahren mit dem Thema des nicht-konsensuellen KI-Trainings“, sagt Dryhurst im Gespräch mit 1E9. Eine Idee, die dabei immer wieder aufkam, sei gewesen, einen Gegenentwurf zu den aktuellen Datensätzen zu schaffen, die voll von urheberrechtlich geschützter Kunst sind.

Obwohl das Thema seit Jahren diskutiert wird, habe es bislang kaum Bemühungen gegeben, „gut kuratierte, qualitativ hochwertige und öffentlich zugängliche Datasets zu erstellen, auf denen KI-Modelle trainiert werden können“, so Dryhurst. Dabei könnten solche Datensätze viele der Probleme und Kontroversen lösen, die mit Midjourney, Stable Diffusion und anderen Bildgeneratoren verbunden sind. Denn wenn ein KI-Modell ethisch und rechtlich unbedenklich trainiert ist, könnte es als neutrale Basis von Künstlern, einer Community und Unternehmen genutzt werden. Beispielsweise um ein solches Modell dann gezielt mit eigenen Werken oder lizenziertem Material zu tunen und freizugeben. So wie es jetzt mit Stable Diffusion geschieht, aber ohne die Gefahr, dafür kritisiert oder gar verklagt zu werden.

Weniger, dafür besser?

Statt darauf zu warten, dass jemand anderes ein problemfreies Dataset aufbaut, das urheberrechtlich nicht zu beanstanden ist, hat Mathew Dryhurst die Idee mit Spawning selbst vorangetrieben. „Wir haben im letzten Jahr mit Unterbrechungen an diesem Projekt gearbeitet“, sagt er. Das Ergebnis nennt sich SourcePlus. Streng genommen ist es kein Dataset, sondern eine Plattform, um aus einer Sammlung von derzeit mehr als 40 Millionen Bildern ebensolche zu erstellen. Das sind zwar deutlich weniger als die 5 Milliarden, die beispielsweise LAION 5B bietet, das für das Training von Stable Diffusion 1.5 verwendet wurde – und SourcePlus dürfte wohl zahlreiche Größenstufen kleiner sein, als die geheimen Datensätze hinter Midjourney oder DALL-E 3. Dennoch ist es ein immenser Grundstock an freien und uneingeschränkt nutzbaren Bildern mit Metadaten.

Die Fortschritte in der Entwicklung von KI-Architekturen erlauben es mittlerweile, mit deutlich weniger Material ein fähiges Basismodell für die Bild-Generierung zu erstellen. Mit der KI-Architektur CM3Leon von Meta werden etwa nicht mehr Milliarden von Bildern benötigt, sondern nur noch Millionen – wenn die Qualität stimmt. „Die jüngsten Fortschritte beim Training von Bildmodellen bedeuten, dass man heute ein hervorragendes Basismodell auf etwa 14 Millionen Bildern trainieren kann“, sagt Dryhurst überzeugt. Dafür biete SourcePlus also mehr als genug Material, das zudem über eine einfache Oberfläche durchsucht, in Sammlungen sortiert und als Pakete geladen werden kann.

Wie Dryhurst jedoch anmerkt, handelt es sich bei den Bildern „überwiegend um gemeinfreie Werke, die von Museen und Kunstinstitutionen angeboten werden. Die meisten sind also ältere Werke, die aufgrund ihres Alters zum Gemeingut geworden sind“. Dazu kommt ein kleiner Teil an Material, der von Künstlern unter der Creative-Commons-0-Lizenz etwa für das Medienarchiv Wikimedia Commons freigegeben wurde. Neuere Gemälde oder digitale Zeichnungen von aktuellen Malern, Zeichnern und Grafikern gibt es bei SourcePlus also kaum. Dementsprechend gibt es auch nur wenige Bilder, die zeitgenössische Stile oder Szenen darstellen. Dasselbe gilt für Fotografien. Was Motive wie Smartphones, Computer, Fahrzeuge oder moderne Kleidung angeht, ist SourcePlus also nicht wirklich up to date. Und auch nicht so divers, wie etwa die Datasets, die der deutsche Verein LAION bereitstellt. Aber das soll sich schnell ändern.

Auch Text und Audio kommen!

Wie Mathew Dryhurst erklärt, ist SourcePlus derzeit eine Beta-Version dessen, was er mit dem Spawning-Team plant. Unter anderem sollen bald gemeinfreie oder freigegebene Fotografien aus verschiedenen Quellen hinzugefügt werden. Außerdem soll die Möglichkeit für Kreativarbeiter eingerichtet werden, eigene Werke zu spenden. Ihnen soll es aber auch möglich sein, ihre Kunst über SourcePlus gegen eine Gebühr zu lizenzieren. „Wir werden Funktionen für KI-Entwickler einführen, die es ihnen beispielsweise erlauben, ihre Datensätze mit gemeinfreien oder lizenzierten Beiträgen von Fotografen und Künstlern zu ergänzen“, sagt Dryhurst.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Dieses System soll nicht nur Künstlern, sondern auch den KI-Entwicklern zugutekommen. Es soll KI-Entwicklern dabei helfen, kommende KI-Richtlinien wie jene der EU einzuhalten. Unter anderem will das Team einen Service anbieten, der bestehende Datensätze mit einer Datenbank von Künstlern abgleicht, die ihre Werke dezidiert nicht für KI-Trainings freigeben wollen. „Ein Datensatz kann dann durch SourcePlus geleitet werden, und wir können alle nicht freigegebenen Werke durch qualitativ hochwertige gemeinfreie und/oder lizenzierte Werke ersetzen“, sagt Dryhurst. „Unser Ziel ist es, Datensätze zu erstellen, die konsensuell und konform sind und sogar besser sind als das, was man aus dem Internet zusammenklauben könnte.“

Das Interesse an SourcePlus sei bereits groß, sagt der Künstler aus Berlin. Deshalb könne sich das Team auch gemeinfreie Datenbanken für Texte, Musik und Sounds vorstellen. Ebenso wären drei große Partnerschaften in Sicht. Vor allem aber habe Spawning mit dem Projekt bereits jetzt gezeigt, dass solche Datensätze nicht nur theoretisch, sondern auch praktisch machbar sind – selbst von einem kleinen Team. Nachahmer sind Dryhurst durchaus willkommen. „Wir sind fest davon überzeugt, dass es einen Weg gibt, Datensätze einvernehmlich, rechtlich unbedenklich und von höherer Qualität zu erzeugen“, sagt er. „Wir haben von Anfang an darauf hingewiesen, dass die Qualität eines Modells fast ausschließlich von der Kuration des Datensatzes abhängt. Ich würde gerne sehen, wie andere an solche Datensätze herangehen.“

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!