OpenAI hat DALL-E 3 vorgestellt: Es soll nun wirklich die Bilder erzeugen, die die Nutzer wollen

Michael · 21. September 2023 um 01:55

Das KI-Forschungs- und Entwicklungsunternehmen OpenAI hat die neue Version von DALL-E angekündigt. Der Bildgenerator soll jetzt nicht nur schönere Bilder erzeugen. Er soll vor allem besser verstehen, was die Nutzer wollen, und genauer auf Prompts reagieren.

Von Michael Förtsch

Bereits im Juli haben wir über Gerüchte über eine neue Version des KI-Bildgenerators DALL-E berichtet, an der OpenAI arbeiten soll. Diese haben sich nun bestätigt. Denn OpenAI hat nun offiziell die neue Generation des Text-zu-Bild-Modells vorgestellt. Die soll nicht nur realistischere und höher aufgelöste Bilder erzeugen, sondern vor allem deutlich akkuratere. „Moderne Text-zu-Bild-Systeme neigen dazu, Wörter oder Beschreibungen zu ignorieren“, heißt es auf der Website der Firma. Die Nutzer seien daher gezwungen zu lernen, wie sie die Modelle mit komplexen Prompts dazu bringen, sich stärker an den eingegebenen Text zu halten. Mit DALL-E 3 soll das einfacher sein. Die neue Version von DALL-E solle nicht nur Wörter und Wortkombinationen, sondern auch Kontexte erfassen und längere Beschreibungen verstehen.

Text-zu-Bild-Modelle wie Midjourney und Stable Diffusion neigen bisher dazu, bei Prompts wie „Eine junge Frau in einem Tiger-Jumpsuit steht auf einem Weizenfeld auf dem Mond“ ein Bild von einer jungen Frau und einem Tiger zu erzeugen, die zusammen auf einem Weizenfeld stehen, hinter dem der Mond deutlich sichtbar ist. DALL-E 3 soll eine solche Eingabeaufforderung in vielen Fällen exakt umsetzen – und auch deutlich mehr Nuancen erkennen und einfließen lassen. Der Benutzer soll mit seinen Texteingaben sogar gezielt einzelne Objekte und Muster in Szenen platzieren können.

Die angebliche Fähigkeit von DALL-E 3, lesbaren Text und nicht mehr nur buchstabenartige Zeichen als Grafikelemente der Bilder zu erzeugen, deutet OpenAI auf der Projektwebsite nur mit Beispielbildern an. Jedoch veröffentlichte der OpenAI-Entwickler Adam Goldberg einige weitere Bilder, die mit dem Bild-Generator erzeugt wurden. Darunter auch eines, das eine Menschenmenge und mehrere Personen mit Schildern zeigt, auf denen „DALL-E can spell“ – DALL-E kann schreiben – steht.

Noch zugänglicher soll der Bild-Generator durch eine Verknüpfung mit dem Chatbot ChatGPT, ebenfalls von OpenAI, werden. Nutzer, die sich bei ihren Prompts unsicher sind, nicht die richtigen Worte für einen gewünschten Stil finden oder Hilfe möchten, um ein Prompt weiter zu verfeinern, um Elemente zu einer Szene hinzuzufügen, können dafür auf das Sprachmodell zurückgreifen. Sie können auch sehr grob Szenen oder ihre Wünsche beschreiben, die anschließend von ChatGPT in einen passenden Prompt übersetzt und durch DALL-E 3 generiert werden. Es sollen sich sogar in einem Konversationsstil ganze Reihen von Bildern erzeugen lassen, die etwa eine Geschichte illustrieren.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Keine Plagiats-KI?

Noch ist die neue DALL-E-Fassung nicht öffentlich zugänglich, sondern wird mit einer kleinen Gruppe von Personen intern und extern getestet. Damit soll ausgeschlossen werden, dass das System zur Erstellung von anstößigen Bildern oder missbräuchlich einsetzbaren Fakes genutzt werden kann. Aber schon im Oktober soll DALL-E 3 zunächst für ChatGPT-Plus- und ChatGPT-Enterprise- Abonnenten zur Verfügung stehen. Wann die neue Version des Bild-Generators frei verfügbar sein wird, ist noch nicht bekannt.

Im Gegensatz zu Midjourney und Stable Diffusion sei das Modell hinter DALL-E 3 explizit darauf trainiert, die Nachfrage der Nutzer nach Stilen noch lebender Künstler zu ignorieren. Namen wie der des Fantasy-Künstlers Greg Rutkowski würden also nicht dazu führen, dass DALL-E 3 dessen Stil imititiert. Stattdessen soll der OpenAI-Bildgenerator vor allem die Stile verstorbener Künstler verwenden oder eine Mischung aus verschiedenen Mal-, Zeichen- und Grafikstilen, die nicht oder weniger eindeutig zugeordnet werden können. Damit will OpenAI wohl auch Klagen von Künstlern zuvorkommen, wie sie derzeit unter anderem die Stable-Diffusion-Entwickler Stability AI und Midjourney treffen.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

Job · 21. September 2023 um 12:44

Dies kam gerade als anonymer Leserbrief zum Thema rein:

"Danke für diese Nachricht! Wäre toll wenn ihr öfter auch mal kürzere Meldungen wie die macht."