Der Erfolg von Text-zu-Bild-Generatoren ist riesig. Millionen von Menschen nutzen Künstliche-Intelligenz-Werkzeuge wie Midjourney, DALL-E 2 und Stable Diffusion, um fantastische Bilder zu erzeugen. Das offene Modell von Stable Diffusion kann sogar selbst trainiert und mit neuen Inhalten wie Gesichtern gespeist werden – und genau damit habe ich experimentiert. Dass es so einfach geht, ist sowohl inspirierend als auch erschreckend.
Von Michael Förtsch
Es ist bereits einige Jahre her, dass mich eine neue Technologie wirklich begeistert und gefangen genommen hat. Zumindest in einer Weise, die mich für Stunden vor den Rechner fesselte, um zu tüfteln, nachzulesen und mit meinen Experimenten wieder und wieder zu scheitern, ohne entnervt aufzugeben. Doch neue Text-to-Image-KIs haben genau das geschafft. Mit nur wenigen beschreibenden Worten lassen sich mit Midjourney, DALL-E 2, Stable Diffusion und anderen Programmen Bilder erzeugen, die überraschend kunstvoll, amüsant und sogar fotorealistisch wirken. Zumindest wenn ihnen der Mensch vor dem Computer die richtigen Worte einflüstert. Mit meiner Begeisterung bin ich keineswegs alleine. Vor allem das einfach zu nutzende und stilistisch sehr eigenwillige Midjourney soll mittlerweile zwischen drei und vier Millionen Nutzer haben, die Millionen von Bildern generieren.
Eine nicht zu unterschätzende Mitschuld daran trägt wohl der Künstler Ryan Murdock. Der hatte Ende 2020 entdeckt, dass sich die Funktionalität des von OpenAI entwickelten KI-Systems CLIP – Contrastive Language–Image Pre-training –, das mit unzähligen Bildern trainiert wurde, um Objekte in Bildern zu identifizieren, umdrehen lässt. Eben um mittels Stichwörtern und Beschreibungen entsprechende visuelle Inhalte zu generieren. Die ersten Ergebnisse waren eher bescheiden. Aber die Entdeckung stand für alle sichtbar im Raum, wurde aufgegriffen und die Technik entwickelte sich rasant weiter – und tut es immer noch.
Anfang 2021 erschien die erste Fassung von OpenAIs DALL-E-Bildgenerator, der eher mäßig beeindruckte. Im April 2022 erschien der Nachfolger, dessen Bildkreationen dann allerdings für Staunen sorgten. Nur wenig später, im Juli 2022, startete Midjourney und im Oktober die erste Fassung von Stable Diffusion. Seitdem wurden die Modelle, die die Bildkreationen ermöglichen, immer wieder aufgerüstet mit mehr Bildern, neuen Einstellungen und länger trainiert. Überzeugendere, bessere und realistischere Ergebnisse sind damit möglich. Der Einfluss dieser Technik wird gewaltig sein und könnte die Kunst- und Kulturwelt drastisch verändern. Auch weil die Technik nicht ausschließlich auf den Servern irgendwelcher Unternehmen existiert, sondern auch von den Nutzern selbst aufgegriffen und weiterentwickelt wird.
Adaptierung durch die Masse
Die Text-zu-Bildgeneratoren Midjourney und DALL-E 2 sind Entwicklungen von Firmen. Hinter Midjourney steht das gleichnamige Forschungs- und Entwicklungslabor, das vom Informatiker David Holz gegründet wurde. Midjourney ist nur über den Chat-Dienst Discord zugänglich, herunterladen oder verändern lassen sich die Software und das KI-Model nicht. Das gleiche gilt für DALL-E 2 von OpenAI. Doch bei Stable Diffusion ist das anders. Es wurde ursprünglich als Projekt der Forschungsgruppe CompVis an der Ludwig-Maximilians-Universität München gestartet und dann mit den KI-Firmen Stability AI und Runway ML weiterentwickelt und veröffentlicht. Und das als Open-Source-Projekt, das jeder herunterladen und verändern kann.
Genau dieser Open-Source-Status verhilft Stable Diffusion zu immer größerer Beliebtheit und hat das Entstehen einer sehr kreativen Gemeinschaft ermöglicht. Anders als bei DALL-E 2 und Midjourney gibt es etwa nicht nur einen zentralenDienst, über den die Text-zu-Bild-KI genutzt werden kann, sondern mittlerweile dutzende. Darunter sind professionelle Anbieter, aber auch Hobby- und Community-Projekte. Ebenso existieren unzählige Applikationen, die das KI-Model auf dem heimischen Rechner, verschiedenen Cloud-Diensten oder sogar auf dem Smartphone nutzbar machen. Vor allem aber gibt es eine wachsende Bibliothek an Modellen, die die ursprünglichen Stable-Diffusion-Modelle verändern und erweitern – und das sowohl auf spannende wie auch fragwürdige Weisen.
Es gibt Modelle wie Redshift Diffusion, die mit zahlreichen Bildern von detaillierten 3D-Render-Modellen trainiert wurden und dadurch sehr plastische Bilder generieren. Modelle wie ChromaV5 wurden mit professionellen Portrait- und Landschaftsfotos, 3D- und 2D-Kunstwerken und Videospiel-Screenshots getuned. Außerdem existieren Versionen, die insbesondere darauf abziehen, realistische Erotik-Aufnahmen zu erstellen – und das auch mit den Gesichtern von Prominenten, Schauspielerinnen und Schauspielern. Das ist nicht ohne Kritik. Zahllose Modelle sind auch auf verschiedene Anime- und Manga-Stile spezialisiert – wirklich: es sind absurd viele!
Nachdem ich die Community ein bisschen beobachtet hatte, wollte ich dann auch ein eigenes Modell entwickeln – eines mit einem bestimmten Stil, der mir besonders gefällt. Primär um zu erfahren, was möglich ist und wie schwer das tatsächlich ist. Also legte ich los.
Ein Stable-Diffusion-Modell trainieren ist einfach
Um herauszufinden, wie und wo man mit einem eigenen Stable-Diffusion-Model beginnt, schaute ich mir auf YouTube mehrere Tutorials an. Insbesondere grub ich mich aber durch zahlreiche Threads auf der Plattform Reddit, wo sich seit dem Erscheinen der ersten Fassung des Text-zu-Bildgenerators zahlreiche Menschen versammeln, debattieren und sich gegenseitig Ratschläge und Kritik geben. Manches davon war sehr hilfreich, anderes weniger. Klar war jedoch, dass Dienste, die es online erlauben, gegen kleine Beträge das eigene Gesicht in ein Online-Model zu trainieren, meinen Ansprüchen eher nicht genügen würden. Daher entschied ich mich, eine Implementierung von Stable Diffusion für den Google-Cloud-Computing-Dienst Colab zu nutzen.
Diese wurde von einem unabhängigen Entwickler geschaffen und ist einfach bedienbar. Notwendig ist zum Start lediglich das Fast Stable Diffusion getaufte Programm und ein bereits heruntergeladenes und auf dem Google Drive abgelegtes Model – oder alternativ ein Konto bei der KI-Entwickler-Plattform Huggingface, die von den Stable-Diffusion-Entwicklern für die Veröffentlichung genutzt wird. Um das Model zu trainieren, braucht es ansonsten nicht sehr viel: jeweils etwa 15 bis 35 vielfältige Bilder der Personen oder Objekte, die dem Model hinzugefügt werden sollen. In meinem Fall: 1E9-Chefredakteur Wolfgang Kerler. Oder eben auch Bilder eines bestimmten Mal-, Zeichen- oder Fotografie-Stils – wie etwa die Optik der beiden Blade-Runner-Filme.
Die entsprechenden Bilder müssen lediglich in ein möglichst gleichseitiges Format – wie 512 mal 512 Pixel – zugeschnitten und konkret beispielsweise als „Wolfgang Kerler (01)“, „Wolfgang Kerler (02)“ und so weiter bezeichnet werden. Mittels der Applikation werden sie hochgeladen und anschließend in das Model hinein-trainiert. Das kann etwas dauern. Die Bilder werden nacheinander in einzelnen Schritten verarbeitet. Das ist rechen- und zeitaufwendig. In der Community haben sich 200 Schritte pro Bild als gutes Maß erwiesen. Werden 20 Bilder genutzt, wären das 4.000 Schritte. Das sind bei der Nutzung des Premium-Dienstes von Google Colab rund zweieinhalb bis drei Stunden. Aber das Warten lohnt.
Erschreckend glaubhafte Bilder
Das fertige Model kann direkt nach dem Training in der App genutzt werden. Das geht mittlerweile über eine aufgeräumte Nutzeroberfläche. Meine ersten Ergebnisse waren schon durchaus vorzeigbar. Stable Diffusion zeichnete „Wolfgang Kerler as astronaut“ oder „Wolfgang Kerler as cowboy“, wobei sein Gesicht erkennbar, aber nicht immer wirklich überzeugend und noch etwas unschärfer wirkte als der Rest des Körpers. Auch der von mir ein-trainierte Stil ließ sich mit einem entsprechenden Token, also dem Schlagwort, das ich in den Dateien dafür gesetzt hatte, aktivieren. Wobei auch hier die Ergebnisse sichtbar, aber nicht gänzlich stimmig waren. Ich ließ das Modell daher für einige Stunden weiter trainieren – mit einigen zusätzlichen Bildern. Nicht nur von Wolfang Kerler, sondern auch einigen weiteren Personen. Und das durchaus mit Erfolg.
Nach einigen Tausend Durchläufen zeichnet Stable Diffusion mit den richtigen Prompts durchaus beeindruckende Aufnahmen von Wolfgang Kerler und mehreren Schauspielern, die ich in das Model eingebettet habe. Es zeichnet sie als Ritter, Astronauten, Cyberpunk-Krieger oder dank dem an-trainierten Style als Blade-Runner-Charaktere, die so durchaus auch auf der Leinwand zu sehen sein könnten. Nicht immer ist die Optik perfekt. Oft zeigen sich kleine Fehler und merkwürdige Artefakte – etwa in Form von Jacken, die zu viele Reißverschlüsse haben oder Ohrringen, die keine klar erkennbare Form haben. Aber manche der Bilder sind erstaunlich glaubhaft und detailreich. In Teilen erscheinen sie sogar verstörend realistisch.
Derartige Ergebnisse sehen einige Forscher und Tech-Experten durchaus als Gefahr. Auch wenn Fotos und Bilder schon immer manipuliert werden konnten, können solche KI-Werkzeuge das Herstellen von Fakes zu einer geradezu mühelos einfachen Arbeit machen. Sie könnten dazu führen, dass die Macht des fotografischen Beweises in Frage gestellt werden muss, schreibt etwa der auf Bildforensik spezialisierte Informatiker Hany Farid. „Ich und andere Forscher werden weiterhin forensische Techniken entwickeln müssen, um echte Bilder von Fälschungen zu unterscheiden“, so der Informatiker. „Die Regulierungsbehörden müssen ernster nehmen, wie diese Technologien als Waffe gegen Einzelpersonen, Gesellschaften und Demokratien eingesetzt werden.“
Werkzeug für die Desinformation
Tatsächlich ließen sich schon mit dem von mir trainierten Modelle durchaus Bilder erstellen, die die betreffenden Personen in unangenehmen Situationen zeigen oder für kompromittierende Zwecke eingesetzt werden können. Es könnten damit Bilder gefälscht werden, die eine Person beim Fremdgehen oder bei illegalen oder zweifelhaften Aktivitäten zeigen. Sie ließen sich für das Anlegen von gefälschten Social-Media- oder Dating-App-Accounts nutzen. Manchmal braucht es für solche Bilder nicht einmal böse Absicht. Selbst das Eintippen von eigentlich harmlosen Prompts kann hin und wieder dazu führen, dass Stable Diffusionen zufällig Bilder kreiert, die Menschen ohne Oberteil oder Hose darstellen – wenn auch nicht unbedingt in allzu glaubhafter oder überzeugender Manier. Das kann witzig, aber auch irritierend sein.
Der US-Tech-Journalist Benj Edwards hat das Problem auch identifiziert und mit einer ebenso mittels KI geschaffenen Person erforscht. Er hat getestet, wie einfach es ist, kompromittierende Bilder herzustellen. Es ist einfach. „Man schätzt, dass weltweit über vier Milliarden Menschen soziale Medien nutzen“, so Edwards. „Wenn einer von ihnen eine Handvoll öffentlicher Fotos online hochgeladen hat, ist er anfällig für diese Art von Angriff durch eine ausreichend motivierte Person. Ob es tatsächlich passiert oder nicht, ist von Person zu Person sehr unterschiedlich, aber jeder sollte wissen, dass das von nun an möglich ist.“ Er argumentiert, dass vor allem Teenager und Kinder schnell zu einem Opfer dieser Technologie werden könnten. Sie könnte für Mobbing und schlimmeres genutzt werden.
Diese Warnung ist nicht unberechtigt. In dedizierten Foren und Chat-Gruppen werden bereits gefälschte pornographische Bilder von normalen Personen, Schauspielerinnen, Schauspielern und Anime-, Manga- und Videospielcharakteren getauscht. Ebenso gibt es Angebote von Personen, gegen Geld derartige Fake-Bilder von gewünschten Menschen anzufertigen. Ganz ähnlich wie es bereits bei Deepfakes der Fall ist.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Demokratisierung der bildenden Kunst?
Viele Künstler und Kreative, die sich mit der Technologie befassen und sie für ihre Arbeit adaptieren, warnen dennoch davor, KI-Bild-Maschinen pauschal als Gefahr oder Bedrohung zu sehen. Schließlich hätten auch Werkzeuge wie Photoshop und Deepfakes ein enormes Missbrauchspotential mitgebracht – das auch genutzt wurde und wird, bisher aber nicht zu Katastrophen geführt hat. Auch wenn das Missbrauchspotential unwiderlegbar ist und einer gesellschaftlichen Debatte bedarf, würde ich mich den Künstlern anschließen. Denn das kreative Potential der Technologie ist enorm. Mit Text-zu-Bildgeneratoren wird das Erschaffen von komplexen und ansprechenden Bildern erstmals für viele Menschen realisier- und erfahrbar. Ihnen wird eine neue Möglichkeit eröffnet, sich auf visuelle Weise auszudrücken und eigene Werke zu erschaffen.
Damit wird einer riesigen Zahl an Personen die Möglichkeit gegeben, in einem bislang begrenzten Kunst- und Kulturbereich teilzuhaben. Werkzeuge wie Midjourney, Stable Diffusion, DALL-E 2 und andere führen zu einer massiven Demokratisierung der bildenden Kunst – und vor allem der Popkultur. Denn es sind nicht zuletzt die Erzeugnisse der popkulturellen Welt, die die Modelle der KI-Bildgeneratoren antreiben: Filme, Comics, Fan-Art, Fantasy- und Science-Fiction-Illustrationen sind ein integraler Bestandteil der Data Sets, die in die Machine-Learning-Algorithmen gespeist werden. Es wird möglich zu erkunden, wie der Kultfilm Tron ausgehen hätte, wenn ihn der eigensinnige Regisseur Alejandro Jodorowsky gedreht hätte. Oder wie wohl ein gemeinsamer Film vom Alien-Designer HR Giger und dem Muppet-Show-Erfinder Jim Henson aussähe. Es sind fantastische Welten, die da entstehen.
Auch das schafft Probleme und sorgt für Kritik. Denn es stellt sich durchaus die Frage, wem ein Stilistik gehört und ob es so einfach sein sollte, zum Beispiel die so eigene Inszenierung und Optik der Wes-Anderson-Filme über einen Automatismus wie einen KI-Generator zu nutzen und zu mischen. Ist es etwas wirklich Neues, das da entsteht? Ist das Kunst, Original, Kopie oder Plagiat? Auch hier halte ich pure Ablehnung, Furcht und Angst vor der Technik und ihrem Einfluss für die falsche Reaktion. Ich sehe diese Entwicklung derzeit als einen weiteren – wenn auch sehr großen – Schritt in der Remix-Kultur, wie sie Dirk von Gehlen bereits vor Jahren beschrieben hat. Doch auf jeden Fall ruft all das nach einer gesellschaftlichen und kulturellen Verhandlung.
Die KI-Generatoren sind aber nicht nur Remix-Maschinen, sondern auch Co-Schöpfer gänzlich neuer Werke, Arbeitsweisen und ganzer Gemeinschaften. Auf Twitter, Instagram, Reddit, Tumblr und anderen Plattformen werden jetzt schon tagtäglich Tausende von KI-Bildwerken getauscht – auch von mir. Nicht selten werden diese Bilder aufgriffen, weiterverarbeitet, von anderen neu-generiert und interpretiert. Es haben sich schon jetzt Zirkel von KI-Künstlern zusammengefunden, die gemeinsam an Werken und Modellen arbeiten und dadurch eine neue Form der künstlerischen Kollaboration erproben. Sie speisen ihre Stile in Modelle, lassen andere damit spielen; mischen Stile zusammen, erschaffen fiktive Protagonisten für ihre Bilder und vieles mehr. Ob KI-Bild-Werkzeuge ein Erfolg werden, diese Frage stellt sich gar nicht mehr. Sie sind es bereits. Nur wie wir letztlich mit ihnen umgehen, wie sie unsere Kultur-, Kunst- und Popkultur-Welt prägen, das muss sich noch zeigen.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!