Die Künstliche Intelligenz DALL-E 2 erzeugt erschreckend realistische Bilder

Michael · 7. April 2022 um 02:34

Die KI-Firma OpenAI hat eine Künstliche Intelligenz vorgestellt, die erstaunlich realistische Bilder basierend auf einfachen Textbeschreibungen generieren kann. Ebenso lassen sich Bilder und Fotos mit der KI-Software manipulieren und bearbeiten. Daher hat das Unternehmen bereits Regeln erlassen, um einen Missbrauch der Technologie möglichst zu verhindern.

Von Michael Förtsch

Bereits im vergangenen Jahr hat das KI-Forschungs- und Entwicklungsunternehmen OpenAI seine Künstliche Intelligenz Dall-E – eine Anspielung auf den Künstler Salvador Dalí und den Pixar-Roboter WALL-E – vorgestellt. Diese besteht aus künstlichen neuronalen Netzwerken, die mit zahlreichen Bildern und dazugehörigen Beschreibungen gespeist und trainiert wurden. Das ermöglicht es der Künstlichen Intelligenz mittels Texteingaben neue und zuweilen sehr absurde Bilder zu generieren. Derartige Text-To-Image-Systeme sind keine Neuigkeit, sondern werden bereits von zahlreichen Künstlern genutzt und sind in Form von Diensten wie NightCafé oder Wombo Dream für jeden nutzbar. Doch die Ergebnisse sind oft skurril und nicht überzeugend.

Mit DALL-E 2, das hat OpenAI nun angekündigt, sei das jetzt anders. Die neue und weiterentwickelte Fassung von DALL-E kann vergleichsweise hochauflösende, stimmige und sogar fotorealistische Bilder auf Basis von Texteingaben generieren, wie sich etwa auf dem zugehörigen Instagram-Account sehen lässt. „A photo of an astronaut riding a horse“, “Teddy bears mixing sparkling chemicals as mad scientists“ und “A Shiba Inu dog wearing a beret and black turtleneck“ sind da zusehen. Weitere Beispiele, die in einem Video auf der Website und von OpenAI-Mitarbeitern gezeigt werden, sind unter anderem Bilder von einem Eisbär, der einen Bass spielt; ein Roboter, der im Stil von Picasso gemalt wurde, eine Mäusefamilie an einem Lagerfeuer oder ein Koala, der ein Motorrad fährt.

Da DALL-E 2 nicht nur mit den bloßen Textbeschreibungen, sondern auch zahlreichen Fotografien samt Metadaten – die beispielsweise Angaben zu Objektiven und Blendeneinstellungen und mehr enthalten – gespeist wurde, kann die Künstliche Intelligenz auch Bilder generieren, die die Optik von bestimmten Kameras, Filmtypen und festgelegten Brennweiten emulieren. Auch mehrere spezifische Zeichen- und Malstile von bekannten Künstlern kann die KI nachstellen.

DALL-E 2 kann aber noch mehr. Das OpenAI-Experiment kann vorhandene Bilder mit simplen Beschreibungen bearbeiten. Beispielsweise wird in einem Video demonstriert, wie mit einem digitalen Pinsel eine Fläche markiert und dort ein Hund mittels Textbefehl durch eine Katze ersetzt wird. Mit dem gleichen Prozess sollen sich Blumen auf einen leeren Tisch zaubern oder Menschen aus einem Foto entfernen lassen. Inpainting wird dieser Prozess von OpenAI genannt.

Selbst Schattenverläufe und Reflexionen in einem Bild sollen sich mit DALL-E 2 korrigieren lassen. Zudem soll die Künstliche Intelligenz, wenn ein Originalbild in das System geladen wird, mehrere Variationen des gleichen Motivs erstellen können. Wer DALL-E 2 etwa ein Foto einer Blume vorsetzt, kann dutzende weitere davon erzeugen, die die gleiche Blume aus verschiedenen Winkeln und vor verschiedenen Hintergründen zeigen.

Du hast Lust auf Zukunft?

Dann bist du bei 1E9 richtig. Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Konstruktiver Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du außerdem exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Missbrauch wird befürchtet

Aufgebaut sind DALL-E und DALL-E 2 auf vorhergehenden Forschungsprojekten von OpenAI. Darunter ist CLIP – Contrastive Language–Image Pre-training –, ein System, das es einem neuronalen Netz ermöglicht, visuelle Elemente in einem Bild zu erkennen und zu beschreiben. Laut den Open-AI-Entwicklern sei bei der Konzeption mit viel Vorsicht gearbeitet worden, um einen Missbrauch von DALL-E 2 möglichst auszuschließen. Unter anderem seien zahlreiche möglicherweise anstößige, gewalthaltige oder sexuell konnotierte Bilder aus dem Datenpaket gefiltert worden, mit dem DALL-E 2 trainiert wurde. Auch Gesichter von Prominenten seien nicht genutzt worden. Daher könne DALL-E 2 nicht das Gesicht einer Person in einem Foto durch das einer Schauspielerin oder eines Schauspielers ersetzen.

OpenAI hat auch entschieden, dass das KI-Model von DALL-E 2 – zumindest vorerst – nicht freigegeben werden soll. Jedoch wird es Partnern des Unternehmens erlaubt, die KI zu testen und für Forschungsarbeiten zu nutzen. Wer mag, kann sich auch selbst auf eine Warteliste setzen lassen, um DALL-E 2 später über die Website von OpenAI zu erproben. Dabei soll es einige Einschränkungen geben, um Missbrauch zu verhindern. Es soll beispielsweise verboten sein, Fotos mittels DALL-E 2 zu bearbeiten, die Nacktheit, obszöne Gesten oder „Hass-Symbole“ wie beispielsweise ein Hakenkreuz enthalten. Auch das Manipulieren von Fotos von „Ereignissen im Zusammenhang mit wichtigen aktuellen geopolitischen Vorgängen“ ist untersagt. Damit soll verhindert werden, dass die KI genutzt wird, um Fake News oder Verschwörungstheorien zu verbreiten.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Rena · 7. April 2022 um 15:12

Sehr interessanter Artikel! Und auch verstörend. Wieder eine Weiterentwicklung die mich erschreckt.
Das ist doch auch nicht viel anders als Deepfake. Ähnlich, vielleicht ausgefeilter, oder?
Es ist lobenswert, dass bei der KI DALL-E 2 verschiedene Arten der Manipulation verboten werden. Leider heißt das noch lange nicht verhindert.
Das kennen wir doch schon zur Genüge aus anderen Bereichen.

Michael · 7. April 2022 um 17:43

Ja, die Technologie ist die gleiche, aber die Mechanismen bzw. Spezialisierungen sind etwas anders. Was DALL-E 2 aber jetzt so mächtig macht, ist vor allem das Model - also die Summe des Gelernten -, die in ihrem Umgang wohl so alles übersteigt, was wir bisher in diesem Bereich gesehen haben.

Es ist lobenswert, dass bei der KI DALL-E 2 verschiedene Arten der Manipulation verboten werden. Leider heißt das noch lange nicht verhindert.

Ich bin ziemlich sicher, dass wir nicht lange darauf warten müssen, dass die Technik missbraucht wird. Denn schon jetzt arbeiten erste Entwickler daran, die Erkenntnisse aus DALL-E 2 in Open-Source-Text-To-Image-Systeme einzubinden.

Rena · 7. April 2022 um 18:29

Danke Michael für die Ergänzungen. Da wird mir schon mulmig!

anon10086338 · 5. Juni 2022 um 09:21

Ich finde es auch gruselig. Auch die weitere nachricht, dass Dall-E eine eigene Sprache entwickelt hat. Das ist nicht das erste Mal, dass eine KI angeblich eine eigene Sprache entwickelt hat.