Der ChatGPT-Entwickler OpenAI soll an einem Nachfolger des Bild-Generators DALL-E 2 arbeiten. Einem YouTuber wurden anscheinend Bilder des KI-Werkzeugs zugespielt. Und die können durchaus beeindrucken. Außerdem kann der DALL-E-Nachfolger offenbar auch sinnvolle Texte schreiben.
Von Michael Förtsch
Die neueste Fassung von Midjourney ermöglicht die Erzeugung von fotorealistischen Bildern. Auch das KI-Unternehmen StabilityAI hat gerade erst eine neue Version des Open-Source-Bild-Modells Stable Diffusion veröffentlicht, die viele Nutzer beeindruckt. Es ist ein imposantes Wettrennen, das da zwischen den beiden führenden KI-Bild-Generatoren stattfindet.
DALL-E 2 hingegen scheint hinterher zuhängen. Und das obwohl OpenAI mit diesem Bildgenerator der Konkurrenz um mehrere Monate voraus war und erstmals zeigte, was mit modernen KI-Modellen eigentlich möglich ist. Doch nach dem Start von DALL-E 2 gab es nur noch kleinere Updates für das Modell des Bild-Generators, die vielfältigere und konsistentere Bilder erlaubten. Große Sprünge wie bei Midjourney und Stable Diffusion kamen hingegen nicht. Nun soll sich das ändern: Angeblich bereitet sich das von Sam Altman geführte Unternehmen darauf vor, wieder ins Rennen einzusteigen.
Der YouTuber MattVidPro hat jetzt ein Video veröffentlicht, in dem er Informationen und Bilder aus einem neuen KI-Bild-Modell präsentiert, an dem der ChatGPT-Macher arbeiten soll. „OpenAI hat nicht aufgehört, an DALL-E 2 oder DALL-E zu arbeiten“, behauptet der YouTuber. Das Team hinter dem Dienst werkle nicht nur an einem Update, sondern an einer „gänzlich weiterentwickelten Fassung“.
Entsprechende Bilder aus der neuen Fassung, die er über das Video hinweg präsentiert, sollen dem YouTuber von einem Nutzer seines Discord-Kanals zugespielt worden sein. Darunter Bilder von einer Zitrone mit Sonnenbrille an einem Strand, die ein Schild mit dem Namen des YouTubers in den Händen hält. Der anonyme Nutzer soll seit mindestens Mai zu einer kleinen Gruppe von rund 400 Personen gehören, die die neue Fassung von DALL-E über erproben können.
„Ihr habt keine KI-Bild-Generatoren gesehen, die so gut sind“, urteilt der YouTuber MattVidPro. „Midjourney kann da nicht mithalten.“ Die neue Fassung von DALL-E könne Bilder in hoher Auflösung und verschiedenen Seitenverhältnissen generieren. Das Modell sei fähig, sehr komplexe Prompts zu verarbeiten, die dennoch als einfache Beschreibungen eingegeben werden können. Bis ins letzte Detail soll das mutmaßliche DALL-E 3 erfüllen. Anders als Midjourney, das zwar optisch beeindruckende Bilder liefert, aber oft Teile von Prompts ignoriert.
Der YouTuber hebt insbesondere die Fähigkeit von DALL-E 3 hervor, klar lesbare und korrekt geschriebene Worte und Logos zu generieren. Darunter beispielsweise auch das Logo der Sandwich-Kette Subway. Mit dieser Fähigkeit ist DALL-E nicht ganz nicht alleine. Bereits das im April erstmals veröffentlichte, aber sehr ressourcenhungrige Bild-Modell DeepFloyd kann konsistenten und gut lesbaren Text erzeugen. Seit der Fassung Stable Diffusion XL kann auch das Open-Source-Bild-Modell Stable Diffusion lesbare, wenn auch nicht immer korrekt wiedergegebene Text erzeugen. Komplexe Logos können diese Tools jedoch nur bedingt reproduzieren.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Laut MattVidPro könne die kleine Gruppe an Testern die aktuelle Fassung des DALL-E-2-Nachfolgerns ohne Filter erproben. Mit ihr ließen sich also auch nahezu perfekte Kopien von Kunstwerken generieren, ebenso Nacktbilder und sehr überzeugende Bilder von Prominenten. Auch könne das Modell sehr spezifische Stile von mehr oder minder bekannten Künstlern nachahmen. Ob und wann die neue Version des DALL-E offiziell bekannt gegeben oder veröffentlicht wird, ist unklar.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!