Der neue Video-Generator von OpenAI erzeugt Szenen, die von der Realität kaum zu unterscheiden sind

Michael · 16. Februar 2024 um 01:52

OpenAI hat überraschend sein KI-Modell Sora vorgestellt. Dabei handelt es sich um einen Video-Generator, der fotorealistische Szenen erzeugt. Die Künstliche Intelligenz dahinter soll laut OpenAI verstehen, wie sich Objekte und Lebewesen in der Realität verhalten.

Von Michael Förtsch

In den vergangenen Monaten hatte OpenAI-Chef Sam Altman mehrfach angedeutet, dass OpenAI an verschiedenen neuen KI-Modellen arbeitet. Nun hat das Unternehmen überraschend eines davon enthüllt, das diverse Start-ups und Konkurrenten wohl ziemlich schockiert. Denn das KI-Modell Sora – japanisch für Himmel – ist ein Video-Generator, der aus einfachen Textvorgaben, einem Standbild oder einem anderen Video verblüffend fotorealistische Videoclips erzeugt, die erstaunlich konsistent und überzeugend wirken. Sora ist noch nicht für die Öffentlichkeit freigegeben. Aber OpenAI-Mitarbeiter teilen bereits viele Clips, die auf Vorschlägen von Nutzern des Kurznachrichtendienstes X – früher Twitter – basieren.

Laut OpenAI selbst ist das KI-Modell Sora nicht einfach ein Modell zur Erzeugung von Videos. Es wurde mit dem Ziel entwickelt, „einer KI beizubringen, die physische Welt in Bewegung zu verstehen und zu simulieren“. Sora verstehe, wie sich Objekte verhalten und wie Emotionen aussehen. Die produzierten Videos können bis zu einer Minute lang sein und verschiedene Szenen und Stile darstellen. Zu den bisher veröffentlichten Beispielen gehören ein täuschend echter Flug über einen Leuchtturm an der Küste, kleine Schiffe, die in einer Kaffeetasse segeln, oder eine junge Frau, die durch das abendliche Tokio läuft. „Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung verlangt hat, sondern auch, wie diese Dinge in der physischen Welt existieren“, so OpenAI.

Tatsächlich zeigen diese Videos kaum Artefakte, wie sie von anderen Videogeneratoren wie Gen-2, Pika oder Stable Video Diffusion bekannt sind, bei denen sich Gesichter und Formen verzerren, wenn sich die Blickrichtung ändert. Auch Gliedmaßen von Lebewesen wie Menschen, Vögeln oder Fantasy-Monstern bewegen sich erstaunlich natürlich. Texte und Logos auf sich bewegenden Oberflächen, wie zum Beispiel einem fahrenden Auto, bleiben konstant und klar sichtbar. Ganz perfekt sind Soras Kreationen aber nicht, wie andere Beispielvideos zeigen. In manchen scheinen Menschen zu schrumpfen und zu wachsen, während sie durch eine Stadtkulisse marschieren. Oder am Strand buddelnde Menschen ziehen einen Sandklumpen aus dem Boden, der sich plötzlich zu einem Stuhl formt. Einer Katze, die ihr Frauchen wecken will, wächst plötzlich eine dritte Vorderpfote.

Videos werden mit „Vorschau“ erzeugt

OpenAI selbst stellt fest, dass „das aktuelle Modell Schwächen hat. Es kann Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren, und es kann bestimmte Fälle von Ursache und Wirkung nicht verstehen. Zum Beispiel könnte eine Person in einen Keks beißen, aber der Keks könnte keine Bissspuren aufweisen.“

Die genaue Arbeitsweise und Architektur von Sora wird von OpenAI geheim gehalten. Der Kern soll jedoch – ähnlich wie bei Bildgeneratoren wie DALL-E 3 oder Stable Diffusion – ein Diffusionsmodell sein. Dabei werden Einzelbilder mit statischem Rauschen erzeugt, das nach und nach entfernt wird, um die per Prompt gewünschte Szene zu erzeugen. Auch andere Videogeneratoren arbeiten nach diesem Prinzip und erzeugen die für die Videos notwendigen Bilder in einer Reihe. Sora ist jedoch in der Lage, „ganze Videos auf einmal zu erzeugen“ und diese zu verlängern, indem eine Art Vorschau der gesamten Szene erzeugt wird.

Sora baut vor allem auf den Arbeiten an DALL-E, aber auch an den GPT-Modellen auf. Etwa der Recaptioning-Technik bei der sehr umfangreiche und hochdetaillierte Textbeschreibungen für das Training genutzt werden, die anschließend auch die Verarbeitung von deutlich feineren und detaillierteren Prompts erlauben.

Erstaunen und Warnungen

Die Reaktionen auf die Enthüllung von Sora und die bisher verfügbaren Videos reichen von Erstaunen bis Besorgnis. Als „revolutionär“ und „bahnbrechend“ wird Sora bezeichnet. Einige Film- und Videomacher prophezeien jedoch, dass das Modell schon bald Stock-Videoplattformen überflüssig und Kameraleute arbeitslos machen könnte. So antwortete die YouTube-Persönlichkeit MrBeast, die für ihre ausgeklügelten Wettbewerbe bekannt ist, auf den Ankündigungs-Tweet von Sam Altman: „Sam, bitte mach mich nicht obdachlos.“

Andere warnen davor, dass ein Modell wie Sora eine Gefahr für die Gesellschaft darstellen könnte. Es könnte dazu benutzt werden, Videos von Szenen zu verbreiten, die gar nicht stattgefunden haben – etwa von Terroranschlägen oder Kriegsszenen, die dazu benutzt werden könnten, Angst zu verbreiten oder Personen zu diskreditieren. Ähnlich wie es heute schon mit KI-generierten Bildern geschieht. Tatsächlich sind viele Szenen so überzeugend, dass sie selbst bei genauem Hinsehen nicht von Filmszenen oder Stock-Videos zu unterscheiden sind.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Wie OpenAI in seiner Vorstellung von Sora schreibt, ist man sich der potentiellen Gefahren des Modells bewusst. Daher werde das Modell zunächst mit sogenannten Red Teamern geteilt, Personen, die das Modell auf Missbrauchsmöglichkeiten überprüfen sollen. Dabei gehe es insbesondere um die Möglichkeit, das Modell für Desinformation, Hassreden oder sexualisierte Inhalte zu missbrauchen. Das Modell werde aber auch einigen Künstlern, Designern, Filmemachern und Spezialeffektkünstlern zur Verfügung gestellt, um Feedback zu erhalten.

„Trotz umfangreicher Forschung und Tests können wir weder alle vorteilhaften Möglichkeiten vorhersagen, wie Menschen unsere Technologie nutzen werden, noch alle Möglichkeiten des Missbrauchs“, schreibt OpenAI. „Deshalb glauben wir, dass das Lernen aus der realen Nutzung eine entscheidende Komponente bei der Entwicklung und Freigabe von immer sichereren KI-Systemen ist.“

Geht es nach den OpenAI-Entwicklern soll Sora ein weiterer Schritt in Richtung einer Allgemeinen Künstlichen Intelligenz sein – also einer KI, die lernen und verstehen kann.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!