OpenAI hat GPT-4 vorgestellt: Das Sprachmodell versteht Bilder und programmiert Games in Sekunden

Nach dem Hype um ChatGPT waren die Erwartungen hoch. Nun hat OpenAI mit GPT-4 den Nachfolger des Sprachmodells vorgestellt, auf dem der Chatbot basiert. Das neue Modell soll längere Texte verstehen, weniger Unsinn von sich geben und auch Bildinhalte analysieren können. Wie Microsoft jetzt enthüllte, haben Nutzer von Bing bereits seit Wochen mit GPT-4 gechattet – ohne es zu wissen.

Von Michael Förtsch

Im vergangenen Jahr löste das Forschungs- und Entwicklungsunternehmen OpenAI mit seinem Chatbot ChatGPT einen neuen Hype rund um Künstliche Intelligenz aus. Denn das auf dem Sprachmodell GPT-3 basierende Programm ist in der Lage, auf Kommando erstaunlich komplexe Texte zu erzeugen. Es kann Abhandlungen zu vorgegebenen Themen verfassen, den Schreib- und Sprachstil von Autoren und Prominenten imitieren, Programmcodes generieren und sogar ausführliche Gespräche führen. Eloquent und manchmal sogar richtig menschlich wirken die Gespräche mit der KI. So wurde ChatGPT innerhalb weniger Monate zur am schnellsten wachsenden Webanwendung seit der Einführung des Internets. Viele Nutzer verwendeten den Chatbot bald als Alternative zur klassischen Web-Suche, weshalb Microsoft ChatGPT in seine Suchmaschine Bing integrierte.

Nun hat OpenAI mit GPT-4 den Nachfolger zum Basismodell von ChatGPT vorgestellt. Laut OpenAI-Chef Sam Altman ist es „das bisher leistungsfähigstes Modell“ des Unternehmens. Verfügte GPT-3 über lediglich 175 Milliarden Parameter – also Datenpunkte –, stehen GPT-4 ganze 100 Billionen zur Verfügung. Damit habe es ein deutlich breiteres Allgemein- und Expertenwissen, könne besser argumentieren und Probleme lösen. Insgesamt soll GPT-4 dynamischer, kreativer und vielfältiger einsetzbar sein. Es könne Texte mit bis zu 25.000 Worten verarbeiten – bei GPT-3 lag die Grenze noch bei 3.000. Dadurch ist es GPT-4 zum Beispiel möglich, den Inhalt von literarischen Novellen oder wissenschaftlichen Studien zusammenzufassen, mehrere Dokumente zu kombinieren oder über viele Stunden umspannende Konversationen zu führen.

Laut OpenAI ist GPT-4 „in vielen Situationen des realen Lebens weniger gut als ein Mensch, aber in vielen beruflichen und akademischen Kontexten genauso gut wie ein Mensch“. Vor allem „bei einigen professionellen und akademischen Aufgaben [zeige GPT-4 durchaus] Leistungen auf menschlichem Niveau“ und habe verschiedene standardisierte Prüfungen mit Leichtigkeit absolviert, darunter die Juraprüfung „Uniform Bar Exam“ und den College-Mathematiktest „SAT Math“. Genutzt werden könnten die Fähigkeiten des Sprachmodells unter anderem für das Komponieren von Liedern oder das Schreiben von Romanen und Drehbüchern. Außerdem könne es dem User helfen, einen eigenen Schreibstil zu entwickeln.

Weniger Fehlinformationen

Die durchaus heftige Kritik an der Fehleranfälligkeit der KI von ChatGPT-Nutzern und Experten aus verschiedenen Fachrichtungen hat sich OpenAI anscheinend zu Herzen genommen: Gegenüber der Vorgängerversion GPT-3.5 sei bei GPT-4 die Wahrscheinlichkeit richtiger Antworten um 40 Prozent gestiegen. Zudem sei es um 82 Prozent weniger wahrscheinlich, dass die KI auf Anfragen „zu nicht erlaubten Inhalten“ reagiert. Damit sind unter anderem Fragen gemeint, die z.B. Argumente für extreme politische Agitation liefern oder Hilfe bei kriminellen Handlungen leisten sollen.

Aber ChatGPT kann nicht nur auf textbasierte Eingaben reagieren, sondern auch auf visuelle. Das Modell ist multimodal und kann Bilder analysieren und in seinen Arbeitsprozess einbeziehen. Es ist in der Lage, den Inhalt von Fotos oder Grafiken zu beschreiben, sie in Konversationen zu verwenden oder mit anderen Informationen zu kombinieren. So lässt sich beispielsweise ein Foto eines Cafés sinnvoll in eine Kurzgeschichte einbinden. Auch alltagspraktische Dinge sind möglich: Die Entwickler der App Be My Eyes wollen eine Anbindung an die KI nutzen, um Menschen mit Sehbehinderung auf Basis von einfachen Fotos die Packungsbeschreibungen von Nahrungsmitteln zusammenzufassen oder einen Busfahrplan verständlich zu machen.

Doch damit nicht genug: Wie ein OpenAI-Entwickler in einem Livestream demonstrierte, kann GPT-4 basierend auf einer einfachen Skizze eine komplette Website generieren. Denn das Modell wurde nicht nur mit natürlicher Sprache, sondern auch mit Milliarden Zeilen von Programmcode trainiert. Dadurch ist es in der Lage, die Strukturen und Funktionen einer Internetseite mit gängigen Programmiersprachen wie HTML, Javascript und CSS zu realisieren. Allerdings warnte der OpenAI-Chef Sam Altman auf Twitter vor allzu viel Euphorie. GPT-4 sei „immer noch fehlerhaft, immer noch begrenzt“ und scheine viel beeindruckender, als es eigentlich ist.

Dass GPT-4 noch immer mit Probleme kämpft, hat die New York Times in ersten Konversationen mit dem Sprachmodell dokumentiert. Wie schon sein Vorgänger würde GPT-4 bisweilen geradezu halluzinieren. Es erfinde Daten und Fakten, die nicht der Realität entsprechen, und stelle Zusammenhänge her, die nicht existieren. Wird GPT-4 beispielsweise nach Quellen für Studien und Artikeln gefragt, liefert es zuverlässig Internetadressen, die korrekt aussehen, aber ins Nichts führen. „Bei der Verwendung der Ergebnisse von Sprachmodellen, insbesondere in Situationen, in denen viel auf dem Spiel steht, ist große Sorgfalt geboten“, mahnt daher auch OpenAI.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

GPT-4 ist bereits jetzt für Abonnenten von OpenAIs ChatGPT Plus verfügbar, allerdings mit Einschränkungen. Derzeit gibt es noch eine Obergrenze für Anfragen. „Je nachdem, wie sich der Datenverkehr entwickelt, werden wir möglicherweise eine neue Abonnementstufe für die Nutzung von GPT-4 in größerem Umfang einführen“, heißt es im Blog-Beitrag zum Start der KI.

Die ersten Experimente von Nutzern zeigen beeindruckende Möglichkeiten, wie GPT-4 eingesetzt werden kann: So entwickelte der Programmierer Pietro Schirano binnen einer Minute einen lauffähigen Klon des Videospiels Pong. Sein Kollege Ammaar Reshi setzte einen Nachbau von Snake um. Firmen sollen das Modell bald über eine API an eigene Systeme anbinden können. Das Start-up DoNotPay hat bereits angekündigt, GPT-4 für juristische Klagen auf Knopfdruck einzusetzen, um etwa gegen Spam-Anrufe vorzugehen.

Aber auch in Bing ist GPT-4 – von Microsoft „Prometheus“ getauft – schon integriert. Und das, wie der Konzern jetzt verraten hat, schon seit einer ganzen Weile. „Wir freuen uns, bestätigen zu können, dass das neue Bing auf einer angepassten Version von GPT-4 läuft“, heißt es in einem Blog-Post von Yusuf Mehdi, dem Leiter von Microsofts Consumer-Marketing-Abteilung. Wer in den letzten sechs Wochen mit Bings Chatbot ein Gespräch geführt hat, kam also bereits mit der neuen Fassung von GPT in Berührung.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

1 „Gefällt mir“

Wir müssen den Leuten erklären, dass das ChatGPT Interface nicht aufs Internet zugreifen kann. Die NZZ wundert sich jüngst auch, weshalb Links zu Fotos gar keine passenden Bildbeschreibungen liefern. :joy:

2 „Gefällt mir“