Ein kleiner Verein namens LAION ist in den letzten Jahren zu einer sichtbaren Größe im internationalen KI-Wettrennen gewachsen. Denn er hat unter anderem die Datasets erstellt, die Stable Diffusion und andere KI-Modelle ermöglichten. Der Verein will eine offene und transparente Forschung und Entwicklung von KI ermöglichen – und soll auch helfen, die Stellung von Europa bei Künstlicher Intelligenz zu verbessern.
Von Michael Förtsch
Sie sind derzeit oft nur zwischen Tür und Angel zu erreichen. Vielleicht ein bisschen zu oft, meint Robert Kaczmarczyk, als ich ihn und Christoph Schuhmann zum Zoom-Interview treffe. Manchmal werde es etwas unübersichtlich. Wie zum Beispiel an diesem Tag. Denn sie hätten ihre Termine etwas durcheinandergebracht, entschuldigt sich Kaczmarczyk. Beide müssen gleich weiter, um ebenfalls via Videochat einen Vortrag zu halten. Deshalb sitzt Schuhmann noch im Auto. Er muss schnell nach Hause, um sich rechtzeitig mit Webcam und stabilem Internet für den Vortag einloggen zu können. Dass die beiden so gefragt sind, liegt daran, dass sie in Deutschland einen der stillen Treiber des aktuellen KI-Hypes gegründet haben: den gemeinnützigen Verein LAION, der vor allem mit seinen Datasets bekannt wurde. Diese wurden und werden zum Beispiel genutzt, um die KI-Modelle hinter Text-zu-Bild-Generatoren wie Stable Diffusion zu trainieren.
Gegründet wurde LAION – die Abkürzung steht für Large-Scale Artificial Intelligence Open Network – bereits 2021, also noch bevor ChatGPT für Aufsehen sorgte. Oder: „Bevor es laut wurde“, wie es Kaczmarczyk formuliert, der Medizin studiert hat und nun an der Technischen Universität München im Bereich Dermatologie forscht. Dennoch sei OpenAI indirekt für die Gründung von LAION mitverantwortlich, erklären Kaczmarczyk und Schuhmann, der wiederum Physik und Informatik lehrt. Denn Anfang 2021 stellte die KI-Firma die erste Version des Bildgenerators DALL-E vor, der seinerzeit Staunen verursachte. „Es ist ein ziemlich performantes Modell, bei dem man Text eingeben kann und dann ein Bild bekommt, das wirklich dieses Motiv zeigt“, sagt Kaczmarczyk. „Da gingen Sachen, die man sich noch kaum vorstellen konnte.“
Viele KI-Interessierte wollten daher wissen, wie das Modell funktioniert und entstanden ist. „Aber wir waren dann ein wenig desillusioniert“, sagt Kaczmarczyk. Denn außer einem Blogeintrag veröffentliche OpenAI nichts über DALL-E: keine Informationen über die Datensätze oder die Modellarchitektur. Zwar war OpenAI einst als gemeinnützige Organisation gestartet, die die Forschung und Entwicklung von KI transparent und reproduzierbar vorantreiben wollte. Doch schon damals wurde daraus unter der Leitung von Sam Altman ein gewinnorientiertes Unternehmen, das inzwischen mit Milliarden von Investorengeldern und Partnern wie Microsoft arbeitet. „Das war für uns ein Signal. Da war nichts mehr offen“, sagt Schuhmann. „Wir haben gesehen, dass das nicht in die richtige Richtung geht, dass etwas getan werden muss und dass wir etwas tun können.“
Crawling in the net
Was der Verein LAION tun wollte, war es, anderen zu ermöglichen, KI-Modelle wie DALL-E nachzubauen – vor allem für Forschungszwecke, aber auch um mehr Transparenz und Offenheit zu schaffen. Eine der größten Hürden dabei waren die Trainingsdaten. Ein Modell wie DALL-E braucht Milliarden von Bildern, die mit passenden Beschreibungen versehen sein müssen. Nur so kann ein Modell lernen, wie zum Beispiel eine Katze, ein Hund oder eine Bratwurst aussieht. „Wir fragten uns: Wie könnte man jetzt an diese Trainingsdaten rankommen?“, sagt Schuhmann. Die Antwort war logisch: im Internet natürlich. Dort, wo auch OpenAI mit ziemlicher Sicherheit seine Daten holt. Es war vor allem Schuhmann, der begann, das Internet nach Inhalten zu durchforsten. Dabei ging er etwas anders vor als Google und Co.
Er wollte eine bereits existierende Datenbank namens Common Crawl nutzen, deren Software einmal im Monat fast das gesamte sichtbare Internet nach Inhalten durchsucht. Darin, so Schuhmanns Logik, könnte man nun gezielt nach Links zu Bildern und deren Schlagworten oder Alternativtexten suchen. „Das müsste eigentlich beschreiben, was zu sehen ist“, sagt der Physiker und Informatiker. In kleinen Chargen könnten die Datenberge geladen, durchsucht und so ein Datensatz generiert werden. Und das alles auf den heimischen Rechnern der LAION-Mitglieder. Zur Qualitätskontrolle nutzte das kleine Team ein von OpenAI veröffentlichtes Tool namens CLIP. „Damit kann man feststellen, ob Bilder und Texte gut zueinander passen“, sagt Schuhmann. Gearbeitet wurde damals wie heute primär in einem Channel des Chatdienstes Discord.
Das Ergebnis der Arbeit? Zunächst LAION 400M, eine Datenbank mit 400 Millionen Links zu Bildern im Internet mit kurzen Informationen darüber, was sie zeigen. Ihre Veröffentlichung erregte Aufmerksamkeit. Forscher und auch einige Unternehmer erkannten das Potential. Darunter Emad Mostaque, der das Team mit Rechenressourcen in der Cloud unterstützte – und später StabilityAI gründete. So folgte wenig später LAION 5B mit über fünf Milliarden solcher Bild-Text-Paare. Das gab es noch nie. Die Arbeit zahlte sich also schnell aus. Die Datensätze wurden viel genutzt – unter anderem vom Team hinter dem freien Text-zu-Bild-Generator Stable Diffusion, aber wohl auch von den Machern von Midjourney, sowie von Entwicklern verschiedener spezialisierter KIs, die der Bild- und Objekterkennung dienen. „Ich denke, wir haben schon einiges bewegt“, sagt Kaczmarczyk.
Kritik und Bedenken
Die LAION-Datensätze werden von vielen KI-Forschern und auch unabhängigen Entwicklern als großer Beitrag zur offenen Forschung geschätzt. Sie sind aber nicht frei von Kritik. Insbesondere Künstler sind verärgert. Denn ihre Bilder seien ohne ihre Zustimmung in das Dataset einsortiert worden, so dass Entwickler von Bildgeneratoren ihre Stile und Motive stehlen könnten. Ein deutscher Fotograf reichte sogar Klage ein. Das Dataset enthielt außerdem Links zu Missbrauchsdarstellungen und Fotos aus Patientenakten, wie Studierende der Stanford University herausfanden. Urheberrechtsverletzungen, Verantwortungslosigkeit und Datenwäsche unter dem Deckmantel der Forschung wurden dem Team daraufhin vorgeworfen. Das Team von LAION räumte einige der Kritikpunkte ein.
Der Verein arbeitet nun mit Forschungseinrichtungen und NGOs zusammen, um die Sicherheit der Datensätze zu gewährleisten und wolle keinesfalls zur Verbreitung illegaler Inhalte beitragen. Christoph Schuhmann weist aber einen Teil der Kritik zurück. Denn was LAION mit seinen Datensätzen anbiete, werde oft missverstanden und falsch kommuniziert. „Wir verbreiten nur die Links zu Bildern“, sagt er. „Nicht die Bilder selbst.“ Tatsächlich habe der Verein nur einmal alle Bilder geladen, um das Dataset zu überprüfen und zu finalisieren. „Das ist völlig im Einklang mit dem deutschen Urheberrecht, das explizit Ausnahmen für nichtkommerzielle Forschung und wissenschaftliche Analyse vorsieht“, fügt der Physiker hinzu. „Nichts anderes haben wir gemacht.“
Außerdem sei ein Datensatz wie LAION 5B kein kommerzielles, sondern ein reines Forschungsprojekt. LAOIN warnt sogar explizit davor, es für „die Herstellung fertiger Industrieprodukte zu verwenden“. „Insofern übernehmen wir keine Verantwortung, weil wir von Anfang an darauf hingewiesen haben“, sagt Schuhmann. Die Popularität und der Einfluss der Datensätze? Damit hatte niemand gerechnet. Schließlich sei ein solches Dataset letztlich nur eine Linkliste. Praktisch jeder könne die Bilder und anderen Inhalte auch ohne sie herunterladen. „Das ist keine Zauberei“, sagt Schuhmann. Auch könne jeder die Betreiber von Webseiten oder Domains kontaktieren, wenn er in einem Dataset einen Link zu einer Datei finde, der dort nicht hingehöre.
Wie Kaczmarczyk sagt, sei es wohl die Transparenz, die LAION angreifbar macht. Die gut finanzierten KI-Start-ups in den USA hingegen würden einfach geheim halten, was ihre Datasets enthalten. Russische und chinesische Firmen würden sich ohnehin über alle Gesetze zu Urheberrecht und Privatsphäre hinwegsetzen. Wie und mit welchen Daten aus welchen Quellen sie ihre Modelle trainieren, dazu gebe es keine Einblick und auch keine Möglichkeit, Einfluss darauf zu nehmen. Dass diese Argumentation nicht alle Kritiker überzeugt, ist den LAION-Mitgliedern durchaus bewusst. „Aber das ist die Realität“, sagt Schuhmann. „In dem Moment, in dem ich etwas ins öffentliche Internet stelle, wird es irgendwo zum Training einer KI verwendet.“
Für bessere KI
Mittlerweile hat sich LAION auch abseits der Datensätze als Akteur im Bereich der KI etabliert. Denn in und aus dem Verein heraus sind zahlreiche größere und kleinere Projekte entstanden. Darunter LeoLM, ein Sprachmodell auf Basis von Metas LLaMA 2, das mit deutschen Texten getunt wurde und damit viele andere Sprachmodelle in Sachen deutscher Sprache weit hinter sich lässt. Björn Plüster, damals Masterstudent an der Universität Hamburg, wurde von Kaczmarczyk das Projekt vorgeschlagen. „Er fand die Idee gut, aber hatte da noch nicht viel Erfahrung“, so Kaczmarczyk. „Er schaute sich dann aber Tutorials an, las Sachen nach und ging das einfach mal an.“ Dazu fand er Unterstützung der TU Darmstadt und mit Hessian.AI einen Sponsor, der die Rechenleistung bereitstellte. LeoLM wird mittlerweile von mehreren deutschen Start-ups eingesetzt.
Mit Open Empathic wird zudem eine technologische Grundlage geschaffen, die KIs helfen soll, eine Art emotionale Intelligenz und Empathie zu entwickeln. Mit Clara wird an Modellen gearbeitet, die KIs helfen sollen, sprachliche Nuancen zu erkennen, die auf Ironie, Humor oder Traurigkeit hinweisen. Mit BUD-E soll zudem in Zusammenarbeit mit dem ELLIS Institute Tübingen und dem Tübingen AI Center ein voll entwickelter Sprachassistent entstehen, der auf heimischer Hardware lauffähig ist, und deutlich intelligenter sein soll, als es beispielsweise Siri und der Google Assistant derzeit sind.
Darüber hinaus hat LAION eine offene Variante des OpenAI-CLIP-Tools entwickelt, von dem es inzwischen viele verschiedene und sehr spezialisierte Varianten gibt. Einige können anstößige, beleidigende oder verstörende Bilder in Datensätzen identifizieren. Andere verarbeiten Beschreibungen in verschiedenen Sprachen und vieles mehr. „Das ist jetzt nicht so shiny und nicht so cool, wie etwa ein Bild-Generator oder ein LLM“, sagt Christoph Schuhmann. „Aber die wissenschaftlichen Anwendungsmöglichkeiten sind immens. Man kann damit ganze Suchmaschinen und Detektoren für alle möglichen Bereiche und Nischen bauen.“
LAION will sich aber auch mit größeren Forschungsprojekten exponieren. So soll demnächst in einem Projekt mit Unterstützung des EU-Hochleistungsrechnerprogramms HPC Europe untersucht werden, ob und wie gut sich KI-Modelle mit urheberrechtsfreien Daten erstellen lassen. Also mit Bildern, Videos und Texten, deren Urheberrecht abgelaufen ist oder die von den Urhebern unter offenen Lizenzen veröffentlicht wurden. So hat LAION bereits einen Datensatz mit 30 bis 40 Millionen völlig freien Bild- und Textpaaren erstellt. Die Hoffnung: ein Modell, „das vielleicht nicht so gut ist wie Stable Diffusion 3, aber vielleicht so gut wie Stable Diffusion 1.5“, sagt Schuhmann. „Das wäre ein erster Schritt.“ Im nächsten Schritt soll untersucht werden, ob sich mit solchen Modellen synthetische Daten erzeugen lassen, mit denen die Modelle weiter trainiert werden können, ohne sie zu schädigen.
Einfach machen
Viele, eigentlich fast alle LAION-Projekte entstehen ad hoc. Einfach dadurch, dass jemand eine Idee auf dem stetig wachsenden Discord-Server des Vereins postet, andere diese kommentieren, sich Gruppen bilden, die diese dann umsetzen wollen. Manche Ideen würden wieder versanden, andere eine große Traktion bekommen. „Wir versuchen da auch alles transparent darzustellen, was wir gerade machen und dass auch jeder mitmachen kann“, sagt Kaczmarczyk. „Egal, ob jemand IT-Fachmann, Arzt, Lehrer oder etwas anderes ist. Total egal. Jeder kann mitarbeiten, der will.“ Schließlich, so argumentieren die LAION-Gründer, brauche man nicht nur Leute, die sich mit neuronalen Netzen auskennen, sondern auch solche, die organisieren, gestalten und kritisieren können.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Derzeit sind über 28.000 Mitglieder in den Kanälen der KI-Vereinigung aktiv. Und jeder soll sich eingeladen fühlen, ebenfalls Mitglied zu werden und eigene Ideen zur Diskussion zu stellen oder sich laufenden Projekten anzuschließen. „Denn es ist jetzt wirklich richtig wichtig, dass die Leute Projekte in Angriff nehmen; dass da etwas geschieht“, sagt Schuhmann. Deutschland und Europa drohten im Rennen um Künstliche Intelligenz weit zurückzufallen – hinter Firmen in den USA, die ihre KI-Modelle als geschlossene und intransparente Systeme entwickeln, genau wie hinter intransparente und staatlich gelenkte Unternehmen aus China. Deshalb brauche es Gegengewichte und mutige Menschen, „die einfach mal machen“, sagt Schuhmann. Er und Kaczmarczyk seien „letztlich nur Lehrer und Hautarzt mit viel zu wenig Zeit“, keine Top-KI-Ingenieure, sagt Schuhmann.
Wer zur KI-Forschung beitragen will, wer mithelfen möchte, Künstliche Intelligenz zu einer offenen und positiven Technologie zu entwickeln, der kann das tun, auch wenn er selbst glaubt, dafür eigentlich nicht qualifiziert zu sein. Genau dafür sei eine Community wie die, die sich unter dem Dach von LAION gebildet habe, da. Dort könnten auch Ressourcen gefunden werden. Denn es gebe jede Menge Firmen und Fördertöpfe, die Rechenzeit und Geld für die verschiedensten Initiativen zur Verfügung stellen. Und wenn ein Projekt scheitert oder nicht die erhofften Ergebnisse bringt, dann sei das auch keine Katastrophe. „Es ist wirklich wichtig dafür zu kämpfen, dass diese Technologie der ganzen Welt zugutekommt, als sie nur einer Handvoll Firmen zu überlassen“, sagt Kaczmarczyk. „Denn die Folgen dieser Technologie werden in fünf und zehn Jahren viel einschneidender sein, als es sich viele derzeit vorstellen können.“
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!