Künstliche Intelligenz wird auch die Welt der Videos umkrempeln

Mit Text-zu-Bild-Generatoren wie Midjourney und Stable Diffusion lassen sich bereits täuschend echt erscheinende Bilder erzeugen. Der nächste Schritt sind Videos. Hier ist bereits Erstaunliches machbar. Die Technologie könnte die Art, wie Bewegtbilder erzeugt und bearbeitet werden in kurzer Zeit grundlegend verändern.

Von Michael Förtsch

Es sind irreale Bilder, die gerade auf Twitter, Reddit, Facebook und anderen Plattformen geteilt werden. Donald Trump läuft von der Polizei davon, um seiner Verhaftung zu entgehen. Elon Musk hat ein Date mit Alexandria Ocasio-Cortez. Daenerys Targaryen wird in der letzten Folge von Game of Thrones zur Herrscherin gekrönt. Und der Papst spaziert in einem opulenten Steppmantel durch Rom. Sie sehen auf den ersten Blick überzeugend aus. Erst beim genauen Hinsehen lassen sich Merkwürdigkeiten ausmachen und Fehler erkennen, die zweifeln lassen. Die Anzahl der Finger eines Polizisten, ein Schatten, der irgendwie unmöglich erscheint oder ein Elon Musk, der etwas zu sportlich ausschaut. Keines der Bilder ist echt. Sie wurden mit Hilfe von Künstlicher Intelligenz generiert – mit Midjourney und Stable Diffusion.

Im vergangenen Jahr gab es noch großes Erstaunen darüber, was sich mit diesen KI-Werkzeugen alles erschaffen lässt. Oder wie kunstvoll manche der Kreationen sind, die von Modellen ermöglicht werden, die mittels Milliarden von Bildern aus dem Netz trainiert wurden. Doch es wurde und wird auch immer noch über die absurden Macken geschmunzelt. So richtig realistisch mochten die Kreationen nämlich selten wirken und fast schon rituell wurde „Schön. Und jetzt lass uns die Hände sehen!“ unter Kreationen kommentiert. Denn es stimmt. Für die Text-zu-Bild-Generatoren sind Hände und Finger immer noch eine Herausforderung. Oft sehen sie krankhaft verformt aus. Trotzdem hat sich die KI-Kunst-Technologie in den vergangenen Monaten rasant weiterentwickelt. So, dass solche Fehler nun gerne übersehen werden.

Midjourney, Stable Diffusion und in Grenzen auch DALL-E 2 haben den Sprung in den Fotorealismus gemacht und erlauben es, nun Fotos von Momenten und Szenen zu erzeugen, die so nicht stattgefunden haben, was viele Menschen täuschen kann, selbst wenn die Fotos nicht perfekt sind. Denn die grundlegende Optik stimmt: Farben, Schatten, Gesichter, die Struktur von Kleidung und Umgebung. Realistische Szenen, für die Photoshop- oder 3D-Effekt-Künstler Stunden brauchen, lassen sich nun in Sekunden erzeugen – und das theoretisch von jedem. Einfach mit Worten. Zumindest, wenn die richtigen Prompts gesetzt werden. Das überzeugt. Schon jetzt haben erste Modelabel wie Levi‘s angekündigt, in Zukunft auf KI-generierte Models zu setzen. Denn: „Wir sehen Mode und Technologie sowohl als Kunst als auch als Wissenschaft.“

Auch auf vielen Speisekarten dürften in Zukunft KI-generierte Bilder zu sehen sein und keine echten Gerichte mehr. Dafür sorgt das Start-up Lunchbox, das professionell aussehende Schnappschüsse von zum Anbeißen glaubhaften Burgern, Pizzen und Milchshakes verspricht – und auch liefert. Über 150 Millionen Bilder wurden seit dem Start des Tools im Januar generiert. Schlichtweg, weil es schneller und günstiger ist, als einen Fotografen anzuheuern. Auch Architekten, Innenausstatter, Produktdesigner und echte Fotografen nutzen die KI-Tools in ihrer Arbeit, um Ideen auszutesten, Machbarkeiten zu illustrieren oder, um ein neues vielversprechendes Werkzeug in ihren Arbeitsprozess einzubinden.

Generative Künstliche Intelligenz bricht also die Welt der visuellen Kunst auf und macht es so einfach wie nie, Bilder zu erzeugen und zu manipulieren. Und zwar in einem Ausmaß, dessen Implikationen für Kunst und Kultur derzeit nur schwer zu ermessen sind. Das Gleiche dürfte in wenigen Monaten auch für Video gelten. Denn generative Künstliche Intelligenz ermöglicht auch eine gänzlich neue Art, bewegte Bilder zu gestalten, zu verändern und sich mit diesen kreativ auszudrücken. Das könnte die digitale Filmkunst neu definieren.

Video zu Video

Was jetzt schon in Sachen Bewegtbild geht, zeigen Künstler auf Plattformen wie Reddit. Nutzer wie davisoeditando demonstrieren, wie sie mit Stable Diffusion aus einem Videoclip eine Anime-Animation generieren – oder aber: eine fotorealistische Szene, in der aus dem Tag die Nacht wird und die blonde weiße Darstellerin mit Jeans zu einer schwarzen Frau, die eine Chino trägt. Video zu Video nennt sich dieser Prozess. Andere Nutzer ersetzen sich selbst in derartigen Videoschnipseln durch Monster oder Schauspieler – die sich in ein Modell hinein trainieren lassen –, ihre Klamotten durch funkelnde Kleider oder futuristische Körperpanzer und ihr Wohnzimmer durch das Innere von Raumschiffen oder Fantasy-Schlössern. Möglich ist das nicht mit Stable Diffusion allein. Umsetzbar wird es in dieser Form erst mit noch vergleichsweise neuen Zusatzwerkzeugen wie ControlNet. Entwickelt von zwei Forschern der Stanford Universität erlaubt dieses Programm, der KI einen Rahmen für ihre Arbeit vorzugeben.

Mit ControlNet lässt sich beispielsweise ein auf einem Bein stehender Astronaut aus einem Strichmännchen mit dieser Pose generieren. Eine wunderschöne Berglandschaft mit einem pittoresken Schloss kann aus einer einfachen Skizze einer solchen Landschaft erzeugt werden. Aber mit ControlNet kann Stable Diffusion auch vorgegeben werden, dass es innerhalb von Kanten und anderen prägnanten Elementen eines Originalbildes arbeitet und dabei die Struktur der Vorlage beibehält, aber die Optik des Inhalts manipuliert. So passiert in den Einzelbildern des obigen Videos mit der jungen Frau. Eine Sekunde besteht darin also aus 25 mit Stable Diffusion und ControlNet generierten einzelnen Bildern, die nacheinander abgespielt werden.

Noch sind solche Videos durchaus eine Herausforderung. Denn jedes Stable-Diffusion-Bild ist etwas anders. Die KI berechnet Details für jedes Bild auf eine immer neue Art und Weise. Die Platzierung von Haaren, die Form der Augen, die Struktur der Haut, das alles kann sich zwischen einzelnen Bildern leicht wandeln. Genau wie die Klinkersteine einer Hauswand oder die Wolken am Himmeln. Werden Bildreihen zusammengesetzt flackern und fluktuieren sie – was einige Videokünstler als Stilelement für sich entdeckt haben. Doch auch hier gibt es Werkzeuge wie Flowframes oder Ebsynth, die über die einzelnen Bilder mit ihren Unterschieden hinweg eine Konsistenz erzeugen können. Und das angesichts der kurzen Zeit, die diese Werkzeuge und KI-Tools existieren, mit beeindruckenden Ergebnisse.

Für viel Aufsehen sorgte Ende Februar ein Experiment der Special-Effects-Künstler und YouTuber von Corridor Digital. Sie nutzten Stable Diffusion und mehrere traditionelle Filmbearbeitungswerkzeuge, um einen über sieben Minuten langen Anime zu produzieren. Sie trainierten ein Modell mit dem Stil der Zeichner von Vampire Hunter D. Mit Hilfe der Künstlichen Intelligenz transformierten sich zwei der YouTuber selbst in Anime-Figuren. Außerdem wurden generative KIs genutzt, um basierend auf 3D-Umgebungen die ebenso im Anime-Stil gehaltenen Kulissen für die Handlung zu erzeugen. Mit DaVinci Resolve wurden schließlich Figuren und Hintergründe zusammengebracht und mit digitalen Filmeffekten optisch harmonisiert und aufgewertet.

„Ich glaube, wir haben eine neue Art der Animation gefunden“, so Niko Pueringer von Corridor Digital. „Eine Möglichkeit, die Realität in einen Zeichentrickfilm zu verwandeln. Es ist ein weiterer Schritt in Richtung wahrer kreativer Freiheit, bei der wir einfach alles erschaffen können, was wir wollen.“ Das Video der Special-Effects-Künstler wurde scharf debattiert. Einige bezeichneten es als „einen Schlag ins Gesicht von Profi-Animationskünstlern“ – auch, da die YouTuber für ihr Video einfach den Stil bekannter Zeichner adaptierten, ohne zu fragen. Andere sahen das Video als imposanten Machbarkeitsbeweis für eine Methode, die zukünftig durchaus auch von Profis genutzt werden könnte.

Dass bei Filmstudios und Animationskünstlern sowohl Interesse als auch Experimentierlust vorhanden ist, das hat The Dog & The Boy demonstriert. In dem Kurzfilm des Animationsstudios WIT für Netflix wurde nicht nur auf menschliche Künstler, sondern auch auf KI-Kunst gesetzt, die vor allem für die Hintergründe der Kulissen verwendet wurde. Das Start-up Seyhan Lee arbeitet mit Cuebric wiederum an einem System, das solche KI-generierten Hintergründe auch für Hollywood tauglich macht. Mit einem einfachen Web-Interface sollen sich vorab, aber auch vor Ort beim Dreh in Sekundenschnelle fotorealistische Kulissen generieren und sich in mehrere Vorder- und Hintergrundebenen zerlegen lassen – und das genau so, dass sie für große LED-Wände, wie sie mittlerweile bei vielen TV- und Kinoproduktionen genutzt werden, kompatibel sind und sich der Perspektive der Kamera anpassen können.

Text zu Video

Das Potential der Bild-Generatoren im Film ist enorm. Insbesondere, da Unternehmen wie Runway mit GEN-1 und GEN-2 oder Meta mit Make-A-Video bereits an leistungsfähigen dedizierten Text-zu-Film-Generatoren arbeiten. Bereits verfügbar ist ModelScope text2video vom DAMO Vision Intelligence Lab. Und die unabhängige Gruppe Picsart AI Research hat schon Text2Video-Zero als offenes Projekt freigegeben. Deren Ergebnisse sind zwar noch weit von der Qualität der Text-zu-Bild-Generatoren entfernt und keineswegs tauglich für Hollywood-Produktionen. Aber sie erlauben bereits das Erstellen äußerst kreativer Bewegtbildwelten, die etwa in Musikvideos eingesetzt werden können.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Sollte die Geschwindigkeit der Entwicklung dieser Text-zu-Video-Maschinen auch nur annähernd mit der der Text-zu-Bild-Generatoren vergleichbar sein, könnten von KI-Modellen generierte Szenen schon in naher Zukunft in ersten Serien, Streaming-Produktionen und Kinofilmen zu sehen sein. Vielleicht sogar mit Schauspielern, die dafür nicht einmal an einem Set waren, sondern nur ihr Antlitz lizenzierten.

Aber die Technologie ist nicht nur für Profis. Ganz im Gegenteil. Derzeit sind es eben zuvorderst KI-Enthusiasten, Künstler und Hobby-Entwickler, die die Grenzen des Machbaren verschieben; die testen, was möglich ist und es in die Welt hinaustragen. Es wird zahlreiche Nutzer geben, die in Filmen – gleich den Deepfakes – einen Darsteller durch einen anderen ersetzen. Es wird Künstler geben, die moderne Werke und Klassiker der Filmgeschichte in Disney-Zeichentrickfilme und Anime-Streifen konvertieren und damit neu erlebbar machen.

Das stilistische Umdichten erlaubt auch gänzlich neue Formen des Mash-ups; die Option, Filme zu kombinieren und zu verflechten, die optisch eigentlich nicht zusammenpassen. Mit KI-Tools zum In- und Out-Painting werden Fans in ihre Lieblingsfilme – mit etwas Können und Zeit – neue Figuren hineinarbeiten und Szenen hinzufügen können und vieles mehr. Wir werden Kreationen sehen, die wir uns derzeit nicht einmal vorstellen können. Natürlich ist all das nicht ohne Herausforderungen und Probleme. Vor allem das Urheberrecht dürfte durch diese technologischen Entwicklungen auf die Probe gestellt werden. Ebenso das Recht am eigenen Bild. Daher braucht es gesellschaftliche Debatten, um zu urteilen, wie wir mit diesen Werkzeugen umgehen können und wollen. Es wird eine spannende und turbulente Zeit.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

6 „Gefällt mir“

Cool! Looks like a colourful nu futscha… :ok_hand::blush:Ich mag den ja gern… https://instagram.com/remi_molettee?igshid=YmMyMTA2M2Y=

Remi Molette., macht K. I. Animationsfilme

Ja, für diese Art Videos und Filme taugt die Technik schon.