ChatGPT, Midjourney, DALL-E 2, Stable Diffusion, Bard und andere KI-Werkzeuge scheinen gerade eine Renaissance der Künstlichen Intelligenz einzuläuten. Sie verändern, wie wir Antworten auf Fragen suchen und drohen gar, Gesellschaft, Kunst und Kultur umzukrempeln. Bedient werden diese Tools mit den sogenannten Prompts – Befehlen in Textform. Aber wieso eigentlich? Und wie schreibt man gute Prompts?
Von Michael Förtsch
In den vergangenen Monaten sind Werkzeuge basierend auf Künstlicher Intelligenz so stark ins Bewusstsein der Gesellschaft geraten wie nie zuvor. Der Chatbot ChatGPT hat sich seit seinem Start im November 2022 zu einer der meistgenutzten Web-Applikationen überhaupt entwickelt. Rund 100 Millionen Nutzer hat das von OpenAI entwickelte Tool schon. Und Text-zu-Bild-Generatoren wie Midjourney, DALL-E 2 und Stable Diffusion mischen derzeit die Kunst- und Kulturwelt auf, indem sie es jedem erlauben, mal mehr, mal weniger faszinierende Bilder zu erschaffen. Weitere Tools sind schon absehbar – etwa um Musik, Animationen und sogar ganze Videos zu erzeugen. Eines haben diese neuen generativen KI-Applikationen alle gemeinsam: Gesteuert werden sie mit sogenannten Prompts.
Bei einem Prompt handelt es sich im Grunde lediglich um einen Anweisung, die einem KI-System in Textform vermittelt, was es generieren und ausgeben soll. Also: Was der Nutzer haben will. Es kann sich dabei um einen oder mehrere Sätze, komplexe Befehle über mehrere Zeilen oder auch nur eine Ansammlung von Stichworten handeln. Das funktioniert, da Modelle wie das hinter ChatGPT stehende GPT-3 und die Bild-Modelle von Midjourney, DALL-E 2 oder Stable Diffusion über eine Art assoziatives Gedächtnis verfügen. Sie wurden mit immensen Mengen an Texten respektive Bildern und auch dazugehörigen Kontextinformationen – wie etwa Verschlagwortungen und Inhaltsangaben – trainiert. Von der Künstlichen Intelligenz erfasste Muster und statistische Beziehungen der Eingangsdaten wurden dabei im Datenmodell in Form in eines sogenannten latent space kodiert.
Dieser latent space ist ein digitaler Raum, der es der Künstlichen Intelligenz ermöglicht, gelernte Konzepte mit verschiedenen Merkmalen zu verknüpfen. Das Aussehen eines Apfels ist etwa mit den Eigenschaften rund und rot verknüpft. Aber das Modell weiß, dass beides nicht absolut ist, sondern auf einem Spektrum existiert – und es etwa auch Äpfel gibt, die mehr oder weniger rund oder rot oder sogar würfelförmig und grün sind. Es versteht, dass ein Schiff normalerweise auf dem Wasser fährt, es aber auch ohne Wasser existieren kann. Oder, dass zu einem Ehemann oft eine Ehefrau gehört, aber nicht ausschließlich. Der Datenraum ermöglicht es einer Künstlichen Intelligenz ebenso, bei einem Rap-Song von Eminem den Stil getrennt vom Inhalt zu erfassen.
Entsprechend können die im Model gespeicherten Informationen selektiv abgerufen und neu kombiniert werden. Das macht aktuelle KI-Modelle so mächtig, flexibel und dynamisch – und Prompts zu einem interessanten Werkzeug. Denn erst durch sie lassen sich die Fähigkeiten und Daten der KIs effektiv nutzen. Wobei es insbesondere bei Text-Generatoren so einige bedenkenswerte Probleme und Herausforderungen zu beachten gibt.
Aber prompt!
ChatGPT beziehungsweise GPT-3, Midjourney, Stable Diffusion und DALL-E 2 sind nur einige der aktuellen KI-Tools, die sich mit Prompts steuern lassen. Craiyon und ChatSonic sind ebenfalls schon verfügbar. Claude, der Bard getaufte Chatbot von Google und andere sind schon absehbar. Sie alle sind verschieden. Sie basieren auf unterschiedlichen Modellen, wurden mit unterschiedlichen Datensätzen, Zielen und Spezialisierungen trainiert. Dennoch ist es bei allen so: Nur wer gute Prompts komponiert, kann auch gute Ergebnisse bekommen und die Möglichkeiten der KI-Modelle wirklich ausloten.
Erste Unternehmen suchen daher bereits Prompt-Ingenieure, die etwa erkunden sollen, wie KI-Systeme auf verschiedene Prompts reagieren; die Prompts konstruieren, die bestimmte Aufgaben effektiv erfüllen können und es dadurch ermöglichen, KI-Modelle für verschiedenste Aufgaben zu verwenden. Und Studierende messen sich in Prompt Battles, in denen der beste Prompt gefunden werden muss, um das schönste Bild oder den besten Text zu einem Thema zu generieren.
Aber was macht nun eigentlich einen guter Prompt aus? Das kommt ganz darauf an, was das Ziel ist. Prompts können vielfältige Formen haben. Mit ChatGPT lässt sich etwa in einem menschlichen Dialog kommunizieren. Der Chatbot versteht gut natürliche Sprache, so dass mit ihm über einen Frage-Antwort-Rhythmus auf das Ziel hingearbeitet werden kann. Doch idealerweise ist ein ausufernder Dialog nicht notwendig, sondern ChatGPT liefert nach möglichst wenigen Nachfragen oder sogar einem einzigen Prompt genau das, was der Nutzer möchte.
Dafür ist es notwendig, dem KI-Werkzeuge präzise zu vermitteln, welche Informationen abgerufen und wie sie aufbereitet werden sollen. Hierbei kann eine Aufforderung wie „Nenne zwei traditionelle norditalienische Gerichte und die zugehörigen Rezepte“ bereits seinen Zweck erfüllen. Aber besser ist es natürlich, mögliche Einschränkungen gleich mitzuliefern. Etwa: „Nenne zwei traditionelle norditalienische Gerichte und die Rezepte in klassischer Kochbuchform. Die Gerichte sollen alkohol- und glutenfrei sein und sich in unter einer Stunde zubereiten lassen. Ein Gericht soll ein Dessert sein.“
Mit solchen Einschränkungen und Vorgaben lassen sich auch ziemliche komplexe Ausgaben generieren.
-
ChatGPT kann etwa aufgefordert werden, eine Persona zu emulieren oder eine besondere Textform zu verwenden. Beispielsweise: „Schreibe im Stil eines deutschen Lyrikers des 18. Jahrhunderts.“
-
ChatGPT kann vorgeschrieben werden, in welchen Schritten eine Aufgabe erfüllt werden soll. Beispielsweise: „Liste die von Touristen am meisten besuchten Orte in Bayern auf. Filtere anschließend jene Orte aus, die mit der Bahn weiter als 30 Minuten von München entfernt sind. Erstelle anschließend eine Reiseroute und liste für jeden Ort die Top 5 der wichtigsten Sehenswürdigkeiten. Liste ebenso Details zu den Sehenswürdigkeiten.“
-
ChatGPT kann eine Zielsetzung vorgegeben werden. Etwa: „Das Ziel dieser Reise ist es, möglichst viele Sehenswürdigkeiten an einem Tag zu besuchen.“ oder „Das Ziel ist es, kulturell besonders wertvolle Orte zu besuchen, die architektonisch interessant sind.“
-
ChatGPT kann ein Format vorgegeben werden, in dem das Ergebnis präsentiert werden soll. Beispielsweise: „Präsentiere die Reiseplanung im Stil eines Liebesbriefes.“ oder „Präsentiere die Reiseplanung im Stil eines Lonely Planet Reiseführers.“
Mit einem ausführlichen, detaillierten und langen Prompt lassen sich also in Teilen sehr gehaltreiche und praktische Ergebnisse erzielen. Aber ein langer Prompt ist nicht automatisch ein guter Prompt. Und es existieren auch Grenzen. Denn für die Verarbeitung durch die Modelle werden Eingaben in sogenannte Token unterteilt. Bei einem Token kann es sich um ein Wort, ein Bruchstück eines Wortes oder auch Satz- und Sonderzeichenzeichen handeln.
Der sogenannte Tokenizer von OpenAI zeigt, wie Prompts von ChatGPT beziehungsweise GPT-3, aber auch von anderen KI-Tools separiert werden. Ein bis zwei kurze englische Sätze entsprechen etwa 30 Token; zwei deutsche Sätze gleichen Inhalts können zuweilen doppelt so viele Token umfassen.
OpenAI selbst gibt für GPT-3 und damit auch ChatGPT ein Limit von 4.097 Token an. Text, der über diese Grenze hinausgeht, wird von der Künstlichen Intelligenz ignoriert. „Das Limit ist derzeit eine technische Einschränkung“, sagt OpenAI selbst dazu. „Aber es gibt oft kreative Möglichkeiten, Probleme innerhalb des Limits zu lösen, zum Beispiel durch Verdichtung der Eingabeaufforderung, Aufteilung des Textes in kleinere Teile und so weiter.“
Jailbreak?
KI-Systeme mit Sprachmodellen lassen sich in begrenztem Umfang auch programmieren. Ihnen können für laufende Dialoge unter anderem Wenn-Dann-Regeln vorgegeben werden, wodurch sie auf Situationen und bestimmte Ereignisse auf eine konsistente Weise reagieren. Dadurch lassen sich beispielsweise simple Text-Abenteuer realisieren oder auch begrenzte Automatisierungsprozesse abwickeln. Das funktioniert in bisherigen Tests und Experimenten überraschend gut, aber nicht immer vollkommen zuverlässig und problemfrei.
Große Sprachmodelle nach dem Vorbild von GPT-3 beziehungsweise ChatGPT sind sehr vielseitig, aber auch sehr umstritten – und können auch Informationen ausgeben, die theoretisch missbraucht werden oder Menschen vor den Kopf stoßen können. OpenAI hat ChatGPT daher einen Filter vorgeschaltet, der verhindern soll, dass der Chatbot etwa Ratschläge für kriminelle Handlungen gibt und Obszönitäten oder allzu umstrittene Äußerungen tätigt. Wie Nutzer aber schnell feststellten, kann der Filter mit den richtigen Prompts ausgehebelt werden. Zumindest bis der Filter angepasst wird. Doch auch dann dürften sich Möglichkeiten finden lassen, solche Sprachmodelle zum Fluchen zu bringen.
Prompt zum Bild
Derzeit mischen Text-zu-Bild-Generatoren die Kunst- und Kulturwelt auf. Auch sie liefern nur wirklich gute und überzeugende Ergebnisse, wenn der passende Prompt gesetzt wird. Grundsätzlich lässt sich auch mit Midjourney, DALL-E 2 und Stable Diffusion in natürlicher Sprache kommunizieren – auch in Deutsch, wobei Englisch besser geeignet ist. Ein Satz wie „Generiere ein Foto von einem Hund, der auf einer Parkbank sitzt“ liefert also bereits ein durchaus verwertbares Bild. Wer jedoch gezielt ein Bild erschaffen möchte, muss auch hier präzise sein.
Viele KI-Künstler beginnen ihren Prompt mit dem Medium, das ihr Werk emulieren soll. Beispielsweise ein Foto, ein 3D-Render-Bild oder eine Malerei. Diese Spezifikation kann natürlich noch deutlich konkretisiert werden. Beispielsweise kann ein Foto auch ein „1950s black & white photo“, ein „yearbook photo“ oder „Polaroid photo“ sein und eine Malerei ein „oil painting“ oder „watercolour painting“. Anschließend werden nach einem Komma oder einfach einem „of“ das Objekt und seine Umgebung beschrieben. Etwa „a dog on a park bench in a garden“.
Ein solcher Prompt resultiert bereits in einem deutlich eindeutigeren Bild, das weniger zufällige Elemente enthält. Allerdings lässt sich noch viel mehr konkretisieren, um das Ergebnis zu verfeinern, wenn man weiß, welches Ergebnis gewollt ist. Zu diesem Zweck können noch weitere sogenannte Modifikatoren hinzugefügt werden. Das geschieht in den meisten Fällen durch einfache Stichpunkte, die mit Kommas getrennt werden. Füllwörter werden vermieden und Verben nur eingesetzt, wenn sie der Beschreibung des Bildinhalts zuträglich sind.
-
Mit Modifikatoren wie „bokeh“ , „shallow dof“ oder „blurry background“ lassen sich etwa unscharfe Hintergründe erzeugen, die Bildern eine professionellere Optik verleihen
-
Eine eher künstliche Optik lässt sich mit Wortkombinationen wie „digital art“, „3D rendering“, „Unreal Engine“ oder „Octane render“ erreichen.
-
Auch Bildwinkel und Brennweite lassen sich in vielen Fällen über Modifikatoren steuern. Insbesondere Midjourney und Stable Diffusion reagieren gut auf Stichworte wie „wide angle“, „fish eye lens“ oder Brennweitenangaben von Objektiven wie „23mm lens“.
-
Aufgrund von Unklarheiten über Urheberrechte kontrovers, aber funktional sind auch die Namen von Künstlern, um die Optik eines Bildes zu beeinflussen. Für Stable Diffusion existiert eine Übersicht aller bekannten Künstler, deren Werke für das Training von Stable Diffusion in den Versionen 1.4 und 1.5 genutzt wurden.
Bei Modifikatoren ist Experimentierfreude notwendig. Denn nicht jeder Modifikator wirkt zuverlässig und immer im gleichen Maße. Manchmal können sie einen gewaltigen Einfluss haben, manchmal fast keinen. Denn zuweilen können sich Konstellationen verschiedener Stile, Bildinhalte und Modifikatoren ausschließlichen. Das hängt auch vom jeweiligen Text-zu-Bild-Generator ab. Sie besitzen allesamt ihre Eigen- und Besonderheiten. Auch was Möglichkeiten jenseits des eigentlichen Prompt-Inhalts angeht.
Bei Midjourney lässt sich beispielsweise über das Kommando ‐‐s[hier eine Zahl zwischen 625 und 60000] der Grad der Stilisierung modifizieren – also das Ausmaß, wie kreativ oder wild Midjourey den Prompt interpretieren soll. Das Äquivalent bei Stable Diffusion nennt sich Guidance Scale und wird in verfügbaren Nutzungsoberflächen meist über einen Schieberegler gesteuert. Ebenso kann mit dem Kommando ‐‐v[hier Zahl zwischen 1 und 4] zwischen den bisherigen Modellversionen von Midjourney beziehungsweise dessen Stilen *gewechselt werden. Bei Stable Diffusion können klassische Klammern um einen Modifikator die Aufmerksamkeit des Modells auf diesen verstärken und eckige Klammern diesen abschwächen. Umklammerte Worte beeinflussen das Bild also stärker beziehungsweise schwächer.
Es gibt noch zahlreiche weiter Tricks und Kniffe, die KI-Künstler nutzen. Sie separieren Modifikatoren mit senkrechten Strichen oder Semikolons, setzen Ausrufezeichen, experimentieren mit dem Weglassen und Hinzufügen von zusätzlichen Leerzeichen, schreiben Worte gezielt falsch und vieles mehr. Wobei bei nicht allem wirklich gesichert ist, ob diese Tricks tatsächlich eine Wirkungen entfalten – und wenn, wieso eigentlich. Manches erscheint willkürlich oder sogar magisch. So manche KI-Künstler vergleichen das Komponieren eines Prompts daher mit Alchemie oder dem Kochen eines Gerichtes, bei dem nicht klar ist, welches Gewürz nun den Ausschlag gibt.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Prompt für die Zukunft
Es existieren zahllose Möglichkeiten mittels Prompts auf die Informationen eines Maschinenlernmodells zuzugreifen. Manche davon werden wohl erst noch durch enthusiastisches Experimentieren und hartnäckiges Ausprobieren entdeckt werden – oder durch merkwürdige Zufälle, die mit ihren Ergebnissen auch irritieren können. Auch Entwickler von KI-Systemen räumen ein, dass Maschinenlernmodelle immer noch eine black box darstellen; es also nicht gänzlich sicher und nachvollziehbar ist, wie KI-Systeme gelernte Informationen gewichten, welche Muster sie entdeckten, wie sie diese verarbeiten und dann kodieren.
„Der Textraum, den das neuronale Netz sieht, ist viel, viel größer als unsere natürliche Sprache“, sagte Björn Ommer gegenüber 1E9, einer der ursprünglichen Co-Entwickler von Stable Diffusion. „Veränderungen der Sprache, die nicht natürlich-sprachlich sind, produzieren daher auch Bilder – sinnvolle und weniger sinnvolle. Dieser Teil des Textraumes ist allerdings nicht mehr wirklich trainiert. Was darin passiert, wird immer wilder, je weiter ich mich von der natürlichen Sprache wegbewege.“ Daher ist ebenfalls nicht ganz klar, mit welchen Befehlen sich diese zu Tage fördern lassen. Das ist auch der Grund, warum KI-Entwickler mit dem Phänomen der Halluzinationen hadern. Hierbei produziert eine Künstliche Intelligenz Ergebnisse, die eigentlich nicht im Einklang mit den Trainingsdaten stehen.
Der KI-Chatbot ChatGPT erfindet etwa Quellenangaben für historische Daten, die falsch sind, aber überzeugend wirken. Außerdem entdeckten KI-Künstler im vergangenen Jahr, dass sich über den Prompt „Crungus“ mit dem Text-zu-Bild-Generator Craiyon die Darstellungen eines schauerlichen Monsters erzeugen lässt. Jedoch wurde das Modell nicht mit Bildern einer solchen Kreatur und diesem Namen trainiert. Dies könnte laut KI-Entwicklern eine Halluzination sein. Denkbar ist ebenso, dass eine Assoziation mit dem als Monster auftretenden Sänger Oderus Urungus stattfindet, die durch die Aufteilung des Wortes „Crungus“ in die Token in „cr“, „ung“ und „us“ provoziert wird. Die Gruseldame Loab, die eine KI-Künstlerin zufällig entdeckte, als sie in Midjourney eigentlich ein Bild mit „dem Gegenteil von Marlon Brando“ zu generieren versuchte, ist wohl auf die Versuche der KI zurückzuführen, auf eine unsinnige Eingabe ein Ergebnis zu liefern.
Wie auch immer: Das Schreiben von Prompts wird von einigen KI-Entwicklern, Firmen und Medienverantwortlichen bereits als eine wichtige Fähig- und Fertigkeit für ein KI-dominiertes Zeitalter gesehen. Ebenso wie einst das gezielte Suchen im Web oder der Umgang mit Social-Media-Diensten das Internet- und Social-Media-Zeitalter prägten. Einige sehen sogar eine Art sportliche Disziplin entstehen. Ob das wirklich so ist, das wird sich noch zeigen müssen. Sicher ist jedoch, dass sich mit der Komposition von guten Prompts für große Sprachmodelle, Text-zu-Bild-Generatoren und zukünftig wohl auch ganz anderen KI-Werkzeuge überraschende und beeindruckende Werke erzeugen lassen. Und, dass es einfach viel Spaß machen kann, diese KI-Werkzeuge mit immer neuen Prompts zu konfrontieren, um zu sehen, was dabei herumkommt.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!