Der KI-Bildgenerator Stable Diffusion stammt aus München – und soll KI „demokratisieren“

Wolfgang · 15. Dezember 2022 um 06:50

Künstliche Intelligenzen, die aus Texteingaben Bilder machen, sorgen gerade für Begeisterung und Kritik. Neben DALL-E 2 und Midjourney gehört Stable Diffusion zu den populärsten Modellen. Anders als die Konkurrenz läuft es auf normalen PCs und ist Open Source. Was viele nicht wissen: Stable Diffusion wurde von einem Team der Universität München entwickelt. Wir haben mit dessen Leiter, Prof. Björn Ommer, gesprochen.

Ein Interview von Wolfgang Kerler

Täuschend echte Sessel, die wie Avocados aussehen. Katzen, die auf fotorealistischen Aufnahmen Fahrrad fahren. Oder das Schloss von Disneyland gemalt von Van Gogh. Füttert man sie mit den richtigen prompts , also Texteingaben, spucken auf Deep Learning basierende Künstliche Intelligenzen wie DALL-E 2 von OpenAI, Midjourney vom gleichnamigen Research Lab oder die Open-Source-Software Stable Diffusion derart fantastische Bilder aus.

Der letzte der drei genannten Text-zu-Bild-Generatoren, Stable Diffusion, wurde von der Forschungsgruppe CompVis der Ludwig-Maximilians-Universität München entwickelt, die dorthin von der Universität Heidelberg gewechselt war. Die technischen und wissenschaftlichen Details dazu sind im Aufsatz High-Resolution Image Synthesis with Latent Diffusion Models von Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser und Björn Ommer nachzulesen.

Im Interview mit 1E9 erzählt Björn Ommer, der Leiter der Forschungsgruppe, was das Ziel seines Teams ist, was Stable Diffusion von der Konkurrenz absetzt, warum ihm die Demokratisierung von KI so wichtig ist, welche Schattenseiten Programme wie Stable Diffusion haben und was das Forschungsteam vom Hype um Text-zu-Bild-KIs hält.

1E9: Sie leiten die Computer Vision & Learning Group an der LMU. Was macht diese Gruppe?

Björn Ommer: Unser grundsätzliches Ziel ist es, Maschinen das Sehen beizubringen. Denn Computer können zwar sehr gut rechnen und sich Dinge merken. Aber sobald Daten etwas fuzzier sind oder Aufgabenstellungen unklarer, können uns Computer aktuell nicht besonders gut unterstützen. Um das zu ändern, müssen es Computer insbesondere schaffen, Bilder zu verstehen. Dann könnten sie zu einem wertvolleren Werkzeug für uns alle werden.

Wobei könnten uns sehende Computer denn unterstützen?

Björn Ommer: Ein Beispiel: Sie können im Moment mit Photoshop und Konsorten einzelne Pixel in Bildern anfassen, verschieben und manipulieren. Aber Sie können dem Computer nicht natürlich-sprachlich einen Befehl geben: ‚Mach doch mal das mit dem Bild.‘ Davon sind die Anwendungen, die wir tagtäglich nutzen, weit entfernt. Das sorgt für Frustration. Wenn wir uns natürlich-sprachlich mit Maschinen unterhalten könnten, könnten sie, um beim Beispiel der Bildbearbeitung zu bleiben, die Kreativität von Millionen von Menschen beflügeln, die vielleicht nicht mit der handwerklichen Gabe eines Picassos gesegnet wurden.

Und schon sind wir bei Stable Diffusion, der Text-zu-Bild-KI, die von Ihrer Forschungsgruppe entwickelt wurde. Wie würden Sie Stable Diffusion erklären?

Björn Ommer: Stable Diffusion ist ein generatives KI-System, mit dem man dem Computer mit Text ganz einfach beschreiben kann, was man gerne in einem Bild hätte. Und der Computer setzt den Text dann in ein Bild um.

Wie groß die Welle am Ende wurde, hat uns trotzdem überrascht.

Angefangen hat das als normales Forschungsprojekt einer Universität. Inzwischen ist daraus eine Software geworden, die millionenfach genutzt wurde, um Bilder zu kreieren – und das, obwohl es mit DALL-E 2 oder Midjourney starke Konkurrenz von privatwirtschaftlichen Firmen gibt. Wie erklären Sie sich das?

Björn Ommer: Dass generative KI ein wichtiges Gebiet ist, dass im Bereich der Künstlichen Intelligenz einiges transformiert, haben wir natürlich gesehen. Und wir haben gesehen, dass sogenannte Diffusionsmodelle, wie Stable Diffusion eines ist, großes Potenzial haben und dementsprechend Aufmerksamkeit auf sich ziehen. Wie groß die Welle am Ende wurde, hat uns trotzdem überrascht. Verantwortlich dafür war wohl das, was Stable Diffusion von den Werkzeugen vieler anderer Gruppen absetzt.

Und das wäre?

Björn Ommer: Dass wir von vornherein ein Werkzeug entwickeln wollten, das nicht nur wenigen großen Firmen mit Supercomputern vorbehalten ist, sondern auf jedem einigermaßen ausgestatteten Consumer-PC läuft.

Das zu schaffen, hat von uns einiges an Forschung verlangt. Schließlich brauche ich Milliarden von Bildern als Trainingsdaten, wenn ich einem Computer beibringen will, Bilder zu generieren. Wir mussten das Internet also so zusammenkochen, dass es am Ende des Tages in Ihren heimischen PC passt. Von vielen Terrabyte zu wenigen Gigabyte.

Für uns Menschen ist so eine Abstraktionsleistung alltäglich. Für Computer stellt sie eine große Herausforderung dar. Das ist der Kern dessen, was Stable Diffusion ausmacht.

Können Sie erklären, wie Ihrer Arbeitsgruppe dieses „Herunterdampfen“ gelungen ist?

Björn Ommer: Erstmal ist zu verstehen, dass Stable Diffusion – wie viele von den Konkurrenzsystemen auch – ein Diffusion Model ist. Wie solche Modelle grundsätzlich funktionieren, ist gar nicht so kompliziert: Ich habe ein Bild und addiere ein kleines bisschen Rauschen. Für uns Menschen sieht das Bild dann zunächst fast so aus wie vorher. Wenn ich das aber Hunderte oder Tausende Male mache, sieht das Bild aus, als hätte ich das Antennenkabel aus meinem Fernseher gezogen.

Und warum macht man die Bilder freiwillig so kaputt?

Björn Ommer: Weil der Computer lernen soll, diesen Prozess wieder umzudrehen. Ich starte also mit einem Signal, das aussieht, als hätte ich das Antennenkabel aus meinem Fernseher gezogen. Dann lasse ich es ihn Hunderte oder Tausende Male etwas weniger verrauscht machen – und lande am Ende bei einem Bild, das zwar nicht genau das ursprüngliche Bild ist, aber trotzdem natürlich aussieht. So funktioniert das Training von Diffusionsmodellen.

Nun haben wir aber beobachtet, dass solche Modelle zwar sehr mächtig sind, aber ein Problem haben: Sie konzentrieren sich mit ihren Hunderten Millionen von Parametern auf kleinste Details im Bild, die nicht wirklich relevant sind. Das ist Verschwendung. Wir wollen auf einem Bild Haare haben, aber wie genau jedes einzelne Haar liegt, kümmert uns nicht.

Wir wollen auf einem Bild Haare haben, aber wie genau jedes einzelne Haar liegt, kümmert uns nicht.

Um ein kompaktes System zu ermöglichen, haben wir deswegen einen zweistufigen Prozess entwickelt: In der ersten Stufe kommt eine einfachere KI-Architektur zum Einsatz – ein normales Convolutional Neural Network –, die diese Detailfragen, die für das finale Bild nicht erheblich sind, deutlich effizienter löst. Das Diffusionsmodell verwenden wir dann im zweiten Schritt dafür, wofür es wirklich gut ist: langreichweitige Beziehungen in Bildern zu erzeugen, die die Bilder natürlich machen und Szenen einen Kontext geben.

Ist das der einzige Unterschied zwischen Stable Diffusion und der „Konkurrenz“ wie DALL-E 2 oder Midjourney?

Björn Ommer: Das ist ein wesentlicher Aspekt. Diese Systeme, die von Firmen zur Verfügung gestellt werden, laufen weiterhin auf deren sehr großen Rechnern. Unsere Software läuft, wie gesagt, auf normalen PCs. Außerdem haben wir sie unter Open Source zur Verfügung gestellt, damit sie sich jeder herunterladen kann.

Warum war Ihnen die Open-Source-Veröffentlichung wichtig?

Björn Ommer: Mich hat besorgt, dass einige wenige Firmen eine Technologie, die für unsere Gesellschaft eine hohe Relevanz hat, in der Hand halten. Deswegen war es uns wichtig, nicht nur die Anwendung dieser Technologie zu demokratisieren, sondern auch die Forschung an diesem Modell. Wir wollten eine offene Plattform schaffen, ähnlich wie die von Linux.

Natürlich haben wir jetzt nicht mehr völlig in der Hand, wie die Entwicklung weitergeht. Aber ich denke, es war der richtige Zeitpunkt, um die Awareness für das Potenzial dieser Technologie – positiv wie negativ – zu schaffen. So können wir als demokratische Gesellschaft diskutieren, was sie für die Zukunft bedeuten kann und soll.

Sie sagen, die Technologie hat positives und negatives Potenzial. Was meinen Sie damit?

Björn Ommer: Modelle wie Stable Diffusion sind mächtige Werkzeuge. Künstler und Medienschaffende sagen, dass sie damit viel schneller neue Ideen ausprobieren können. Laien, die keine künstlerische Ausbildung oder keine ausgeprägten Computerkenntnisse haben, können damit ihre Kreativität umsetzen. Eine ganze Menge an Entwicklern bauen auf Stable Diffusion neue Software auf – für Filmschaffende oder Spieleentwickler, zum Beispiel, oder Tools für die großen Bildbearbeitungssysteme. Im Moment werden ganze Branchen von den neuen Möglichkeiten beflügelt.

Das größte negative Potenzial sehe ich im Moment darin, dass Menschen auf synthetisch hergestellten Bildern in einem Kontext gezeigt werden, in dem sie nicht erscheinen möchten. Wir kennen das bereits von Deepfakes. Das Problem existiert also bereits und sollte diskutiert werden.

Gefakte Bilder sind so alt wie Bilder selbst.

Allerdings muss man dazu sagen, dass unser System nicht spezifisch für Gesichter trainiert wurde, da sind andere Systeme besser. Und: Gefakte Bilder sind so alt wie Bilder selbst. Denn das Manipulieren von Bildern, um damit Meinungen zu beeinflussen, braucht definitiv keine Künstliche Intelligenz.

Kommen wir nochmal zurück, auf das kreative Potenzial von Stable Diffusion. Beobachten Sie und Ihr Team eigentlich im Netz, welche Bilder mit Ihrem Modell erschaffen werden?

Björn Ommer: Auf jeden Fall. Und ich bin überwältigt davon, welche Kreativität da draußen ist, die anscheinend nur auf die richtigen Werkzeuge gewartet hat. In meiner eigenen Arbeitsgruppe hat sich auch der ein oder andere in einen Künstler verwandelt.

Haben Sie ein Lieblingsbild?

Björn Ommer: Es kommen jeden Tag neue dazu. Ein paar schöne naturalistische Szenen haben mich bisher am meisten begeistert.

Gleichzeitig gibt es auch schon mit Stable Diffusion erzeugte Bilder, die eher in die Kategorie fallen, die Sie als „negatives Potenzial“ bezeichnet haben. Etwa, weil sie Personen in unerwünschten Situationen darstellen. Ist das der Preis, den man für ein Open-Source-Projekt zahlen muss?

Björn Ommer: Das lässt sich leider nicht ganz verhindern. Aber selbst von Closed-Source-Lösungen gibt es mittlerweile Open-Source-Kopien oder Nachbauten. Wenn man so etwas verhindern möchte, müsste man effektiv die Forschung und die Publikation von wissenschaftlichen Arbeiten in unserem Themenbereich verbieten. Ich glaube, dass wir das aus verschiedensten Gründen in unseren offenen Gesellschaften nicht wollen.

Eine andere Problematik wird in Verbindung mit Text-zu-Bild-KIs ebenfalls kontrovers diskutiert: Die Modelle wurden auch mit Werken von Künstlern trainiert, die dazu kein Einverständnis gegeben haben – und können deren Stil jetzt sozusagen „plagiieren“. Einige Betroffene beschweren sich darüber.

Björn Ommer: Ich selbst bin kein Rechtswissenschaftler, habe mir aber sagen lassen, dass es sehr gute Gründe gibt, warum Stil nicht patentierbar ist. Das würde kreative Arbeit, ganz unabhängig von Stable Diffusion, stark einschränken. Zumal wir auch für das Kopieren oder das Interpretieren von Stilen keine Künstliche Intelligenz brauchen. Das haben Künstler schon immer gemacht.

Trotzdem kann ich die Bedenken nachvollziehen und verstehen. Ich bin dafür, dass es für Künstler möglichst schnell die Möglichkeit geben sollte, kundzutun, ob die eigenen Werke zum Training von KI-Systemen genutzt werden dürfen oder nicht. Opt-In oder Opt-Out für Datenbanken sozusagen.

Eine konkrete Frage aus der Praxis: Wenn man mit den Texteingaben, den prompts, bei Stable Diffusion experimentiert, merkt man, dass Kommas, Punkte und selbst Schreibfehler die Ergebnisse beeinflussen zu scheinen. Haben Sie eine Erklärung dafür?

Björn Ommer: Ja, habe ich. Ich frage mich nur, wie ich sie möglichst einfach darstellen kann. Der Textraum, den das neuronale Netz sieht, ist viel, viel größer als unsere natürliche Sprache. Veränderungen der Sprache, die nicht natürlich-sprachlich sind, produzieren daher auch Bilder – sinnvolle und weniger sinnvolle. Dieser Teil des Textraumes ist allerdings nicht mehr wirklich trainiert. Was darin passiert, wird immer wilder, je weiter ich mich von der natürlichen Sprache wegbewege.

Als Stable Diffusion fertig war, wurde es zusammen mit dem Start-up Stability AI veröffentlicht. Wie kam diese Zusammenarbeit zustande?

Björn Ommer: Wir arbeiten an einer Universität, nicht in einer der Big-Tech-Firmen mit Tausenden von GPUs. Uns war also von vornherein klar, dass wir das Modell, wenn wir noch mehr Computer und Daten einsetzen würden, deutlich leistungsfähiger machen könnten.

Wir arbeiten an einer Universität, nicht in einer der Big-Tech-Firmen mit Tausenden von GPUs.

Wir haben das System im Sommer 2022 auf einer großen Konferenz vorgestellt, es aber schon im Dezember 2021 als Preprint veröffentlicht. Nach dieser Publikation kamen einige Leute auf uns zu, die gesehen haben, was für Potenziale das System hat. Stability AI hat uns vorgeschlagen, AWS Cloud Ressourcen zu sponsoren. Damit konnten wir das Modell auf einem deutlich größeren Datensatz der LAION-Initiative und mit deutlich mehr GPUs trainieren. Und, oh Wunder, auf einmal funktionierte es noch besser.

Wie viel München steckt dann noch in Stable Diffusion?

Björn Ommer: Das Modell ist ein Münchner Modell, in dem die Arbeitszeit mehrerer Doktoranden und eines ganzen Teams steckt. Dazu kamen dann noch einmal Rechenzeit von etwa einem Monat mit den von Stability AI gesponserten Ressourcen.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Sie arbeiten an einer Universität und haben ein Open-Source-Modell entwickelt – aus guten Gründen. Doch gerade in Deutschland wird der Wunsch stärker, aus solcher Grundlagenforschung Unternehmen zu machen. Gibt es in Ihrem Lab vielleicht schon Überlegungen, nach diesem Erfolg Start-ups zu gründen?

Björn Ommer: Es gibt einige Mitarbeiter, die zu Firmen gegangen sind. Es gibt eine Menge an Firmen, die entsprechende Interessen haben. Ich persönlich habe bisher großes Interesse gehabt, Wissenschaftler zu sein. Mal gucken, was sich in Zukunft so tut.

Schauen wir zum Schluss nochmal auf das große Ganze. Ihr Ziel ist es, Computern das Sehen beizubringen. Was bedeutet der Erfolg von Stable Diffusion auf dem Weg dorthin?

Björn Ommer: Der direkte Weg, um Maschinen das Sehen beizubringen, war über viele Jahre, Bilder zu markieren: Das ist ein Hund, das ist eine Katze. Jetzt suche nach Hunden und Katzen in anderen Bildern. So funktionieren die sogenannten diskriminativen Modelle. Das Problem ist, dass solche Modelle sehr schummeln können. Sie erkennen die Katze anhand des Sofas, auf dem sie liegt, und den Hund am Knochen. Die Computer lernen also nicht wirklich, was Hunde und Katzen ausmacht.

Wie komme ich von den Pixeln weg zu den tatsächlichen Inhalten eines Bildes?

Generative Modelle wie Stable Diffusion sind sehr schön, weil wir an ihren Bildern sehr direkt sehen können, was sie noch nicht begriffen haben. Sie können nicht schummeln. Jeder, der Stable Difussion genutzt hat, wird in den Bildern eine Menge an unerwünschten Artefakten entdeckt haben. Für die Forschung ist das revolutionär. Wir können die generativen Modelle jetzt gezielt versessen und tiefer an die Beantwortung der Frage gehen, die mich besonders interessiert: Was macht ein Bild aus? Was muss ich aus einem Bild abstrahieren, um an die Semantik eines Bildes zu kommen? Und wie komme ich von den Pixeln weg zu den tatsächlichen Inhalten eines Bildes?

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

Job · 21. Dezember 2022 um 20:40

Dies kam gerade als anonymer Leserbrief zum Thema rein:

"1.Finde ich es vermessen von Kritik zu sprechen im Einleitungssatz. Es herscht in der Künstlerszene ein regelrechter Aufschrei gegen die Technik. 2. Das Problem ist weniger, das Stile kopiert werden könnten, sondern das Urheberrecht von der Software ignoriert wird. Im großen Stil wird das kreative Schaffen von Künstlern unentgeldlich benutzt, um selbst damit Geld zu verdienen. Ob nun Open Source oder nicht, jemand profitiert davon ohne den Urheber zu fragen ob er es darf und das geht nicht!"

0x78 · 24. Dezember 2022 um 10:42

Ich glaube das ist ein größeres Problem des Internets und von digitaler Information. Copying und Vervielfältigung is free.

Was hoffentlich jetzt in Konsequenz kommt: schaffende signieren digital ihre Inhalte. Damit kann man Echtheit zunächst garantieren. Und in der Kunst ist der/das Erste ihrer Art zunächst das Stil prägende und werthaltige. Das kopieren etc halte ich dann schon wieder für Deko/ Kommerz / fun etc etc etc.

Wenn man einmal digital signiert hätte kommt der Nichtse schritt: Immer spricht auch an dass man in öffentlich zugänglichen Datenbanken dann für den weiteren Gebrauch zustimmen oder nicht zustimmen könnte könnten

justherb · 27. Dezember 2022 um 14:56

Zu genau dem Punkt „Digital Art or Digital Forgery“ gibts es ein aktuelles Pre-Print:

Anscheinend sieht man in diffusion models, dass bei weniger Datenmengen im Training eher ein Kopieren von „input styles“ beobachtet werden kann, als wenn man mit mehr Datensätzen trainiert. Was genau passiert und warum diffusion models hier eher Daten replizieren als andere ML Ansätze (GANs, LDM, wo data replication wohl besser verhindert werden kann) ist nicht klar - more guess work.

Wäre vielleicht eine gute Frage an Prof. Ommer & Team?