GPT-3, DALL-E 2, Stable Diffusion und andere Künstliche Intelligenzen, die auf Kommando Bilder und Texte erzeugen, sorgen zurzeit für Furore. Doch was kommt heraus, wenn man sie alle – und noch ein paar andere KIs – kombiniert? Zum Beispiel durchaus unterhaltsame, inhaltlich schlüssige und souverän vorgetragene PowerPoint-Präsentationen.
Von Wolfgang Kerler
Solltet ihr darüber nachgedacht haben, heute einen Delfin zu schlagen – tut es nicht. Warum nicht? Das verrät euch diese Präsentation mit drei absolut wasserdichten Argumenten und den passenden Bildern dazu. Vorgetragen wird sie vom ziemlich jung klingenden, aber gut informierten Kevin. Wie es sich gehört, klärt er euch gleich zu Beginn darüber auf, dass er eigentlich gar nicht existiert. Er ist lediglich die Computerstimme des „TNG Technology Consulting PowerPoint Karaoke Generators“.
Dahinter verbirgt sich ein technisches Experiment von Thomas Endres, dem Geschäftsführer des Münchner IT-Dienstleisters TNG Technology Consulting, und seinem Innovation Hacking Team. „Ich hatte spontan die Idee, PowerPoint-Karaoke zu automatisieren – und zwar komplett“, sagt er im Gespräch mit 1E9. Er wollte also aus dem Spiel, bei dem Menschen zu zufälligen, ihnen nicht bekannten Foliensätzen aus dem Stegreif Präsentationen halten müssen, die Menschen herausnehmen. Und noch mehr: Die KIs sollten die Präsentationen zu jedem Thema, das man ihnen vorgibt, gleich noch mitbauen.
Mit den aktuell vorhandenen KI-Tools ließ sich diese Idee erstaunlich schnell umsetzen. „Du gibst das Thema vor und dann generiert dir die KI nicht nur die Überschriften der Folien, sondern auch die dazugehörigen Bilder, den gesamten Vortragstext und liest diesen auch noch vor“, erklärt Thomas. „Im Wesentlichen verwenden wir dafür fast alles, was momentan unter Generative KI läuft: Für die Textgenerierung haben wir GPT-3 und eine KI von Aleph Alpha am Start, für die Bildgenerierung stehen Stable Diffusion und DALL-E 2 zur Verfügung.“ Für die Übersetzung der Texte in verschiedene Sprachen und ihre Umwandlung in gesprochene Sprache kommen weitere KIs von Meta und Amazon zum Einsatz. „Ein Potpourri aus verschiedenen KIs“, sagt Thomas.
Aus dem unterhaltsamen Projekt könnten ernsthafte Produkte werden
Aber, was soll das eigentlich? „Das ist die Frage, die praktisch immer kommt“, sagt Thomas. „Wir wollten einfach zeigen, was mit aktueller Technologie möglich ist und wie man verschiedene KIs miteinander verbinden kann, um etwas komplett Neues zu erschaffen – mit einem anderen Usecase als die bestehenden KIs.“
Wie gut es schon heute funktioniert, mit KIs Präsentationen zu automatisieren – oder auch nicht –, das zeigen die mehr als zwei Dutzend Beispiele, die TNG auf der Webseite ai-slides.com online gestellt hat. Beim Anschauen wird sofort klar: Dieses Projekt soll auch Spaß machen. In den Präsentationen geht es nämlich nicht nur um Delfine, sondern auch um Einhörner, UFOs oder SpongeBob. Dennoch ist sich Thomas Endres sicher, dass ähnliche Tools in Zukunft zu regulären – ganz seriösen – Produkten werden.
„Plugins für PowerPoint und andere Software oder einfach Webseiten, die den kreativen Prozess bei der Erstellung von Slides unterstützen, kann ich mir sehr gut vorstellen“, sagt er. „Sie könnten die Folien schon einmal strukturieren und mit Leben füllen, also mit Textvorschlägen und Bildern.“ Das würde den Nutzern eine Menge Vorarbeit ersparen.
Auf lange Sicht könnten aus seiner Sicht KIs für Menschen sogar die kompletten Präsentationen erarbeiten – und zwar, wenn sie personalisiert sind, also mit dem Wissen, vielleicht sogar der eigenen Sprache der User trainiert wurden. „Dann muss man die Präsentation vielleicht nur noch an wenigen Stellen ein bisschen anpassen“, meint Thomas.
Weshalb das Tool (bisher) nicht öffentlich zugänglich ist
Der KI-Präsentations-Generator von TNG läuft und ist so einfach zu benutzen, dass damit jeder arbeiten könnte. Doch eine Eingabemaske, um selbst damit zu experimentieren, findet man auf der Webseite des Projekts nicht. Dazu hat sich das Team ganz bewusst entschieden. „Wir haben momentan selbst noch Respekt und ein bisschen Angst vor der Technologie“, sagt Thomas. „Man kann damit nämlich nicht nur tolle Company-Präsentationen oder absurde Präsentationen machen, sondern auch Propaganda oder Verschwörungstheorien. Auch dazu liefert das Tool Präsentationen, die inhaltlich vielleicht nicht stimmen, aber durchaus schlüssig wirken.“
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Vielleicht würde das Tool, wäre es öffentlich zugänglich, aber auch einfach wegen zu vieler Anfragen in die Knie gehen. So ergeht es derzeit dem ganz ähnlichen Projekt ChatBCG, das ebenfalls Generative KI zur Präsentationserstellung nutzt und hinter dem zwei Entwickler von der Stanford University stecken. Das Programm ist zwar öffentlich zugänglich, aber offenbar an seiner Kapazitätsgrenze angelangt, so dass es keine Präsentationen mehr liefert.
Ganz ausgereizt ist die Idee mit dem automatisierten PowerPoint-Karaoke von Thomas Endres übrigens noch nicht. „Wir haben auch schon darüber nachgedacht, die Präsentationen von Deepfake-Erzählern in Videos vortragen zu lassen“, sagt er, „zum Beispiel von berühmten Personen mit ihren eigenen Stimmen.“ Vorhanden wären die Deepfake-Sprecher bei TNG schon, auch dieser Einfall ließe sich also schnell umsetzen.
Titelbild: Michael Förtsch, 1E9 / Generiert mit Stable Diffusion
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!