Google hat Gemini vorgestellt: Dieses KI-Modell soll GPT-4 schlagen

Michael · 7. Dezember 2023 um 04:25

Google hat sein KI-Modell vorgestellt, mit dem es den Vorsprung von OpenAI aufholen will. Gemini soll nicht nur Text und Bilder, sondern auch Videos und Sprache verstehen. In Tests soll es besser abschneiden als GPT-4. Eine abgespeckte Variante soll bald auf Android-Smartphones kommen und ohne Internet nutzbar sein.

Von Michael Förtsch

Im Februar hat Google dem Forschungs- und Entwicklungsunternehmen OpenAI – und damit auch Microsoft – den Kampf angesagt. Denn der Start von ChatGPT und dessen Erfolg sollen Google unvorbereitet getroffen haben. Der Chatbot liefert konkrete Antworten auf Fragen – etwas, das Google selbst als sein Ziel definiert, aber bis dahin nie eingelöst hat. Von einem Code Red bei der Suchmaschinenfirma war die Rede. Nur wenig später startete daher Bard. Doch der Google-Chatbot konnte viele Nutzer nicht wirklich beeindrucken. Zwar lieferte er gute Antworten, doch es fehlte ihm an der spielerischen und kreativen Seite von ChatGPT, das mittlerweile um zahlreiche neue Funktionen erweitert wurde. Als langweilig, spröde und farblos wurde Bard bezeichnet. Google-Chef Sundar Pichai hatte daher schon kurz nach dem Start beruhigt: Bard nutze noch nicht die besten KI-Modelle, die Google habe – aus Sicherheits- und Qualitätsgründen. Aber das werde sich schnell ändern.

Nun hat Google Gemini vorgestellt, ein neues multimodales Modell, das vom KI-Tochterunternehmen DeepMind entwickelt wurde. Es ist das bislang größte und stärkste KI-Modell von Google – und kann nicht nur mit GPT-4 von OpenAI mithalten, sondern es sogar überholen. „Wir haben eine sehr gründliche Analyse der Systeme nebeneinander und das Benchmarking durchgeführt“, sagt Demis Hassabis, DeepMind-Chef und Entwickler des Simulations-Spieleklassikers Republic: The Revolution. Insgesamt hätte Google 32 ausführliche Tests mit den beiden Modellen durchgeführt – darunter Text-, Logikverständnis und Code-Generierung. „Ich glaube, wir sind in 30 von den 32 voraus“, so Hassabis. „In einigen davon eher knapp. In anderen deutlich stärker.“

Im MMLU – für Massive Multitask Language Understanding – einem Test, der unter anderem historisches und medizinisches Wissen, Rechtskenntnisse, mathematische und allgemeine Problemlösungsfähigkeiten erprobt, soll Gemini 90 Prozent erreicht haben. GPT-4 erreichte in MMLU 86,8 Prozent.

In einer Videodemonstration zeigt Google, dass Gemini auch Fotos mit Formeln einer Physikhausaufgabe analysieren, verstehen und korrekte sowie falsche Berechnungen feststellen kann. Dadurch soll es Kindern in Fächern wie Physik und Mathematik helfen und sie beim Verständnis von Fehlern und Lösungswegen unterstützen. Ebenfalls soll Gemini dazu fähig sein, den kompletten Code für ein komplexes Programm in weniger als einer Minute zu generieren. Dieser sei zwar nicht perfekt, aber würde eine Arbeitsgrundlage für Entwickler liefern, die viel Zeit spart, heißt es in einem weiteren Video.

Der größte Vorteil von Gemini soll seine native Fähigkeit sein, nicht nur mit Texten und Bildern umzugehen, sondern auch mit Video- und Audioinhalten: Es soll Inhalte von Videos beschreiben und Audioinhalte verstehen können. Gleichzeitig soll es effizienter und schneller sein als vorherige Sprachmodelle, die von Google genutzt werden. In einem Hands-on-Video ist Gemini fähig, eine Skizze eines Google-Mitarbeiters aus einem Live-Stream kontinuierlich zu evaluieren und innerhalb weniger Sekunden basierend auf einer Weltkarte ein Ratespiel zu erdenken. Ebenso macht es Vorschläge, welche Figuren aus pinker und blauer Wolle gehäkelt werden könnten und generiert entsprechende Bildvorlagen.

Ein Nano-Modell für Smartphones

Wie Google einschränkt, werden die Fähigkeiten von Gemini nicht universal sein. Denn Gemini ist nicht ein einziges Modell, sondern existiert in drei Varianten: Ultra, Pro und Nano. Nano, die kleinste der Modellvarianten, soll nur mit Text umgehen können. Denn es soll nicht nur auf den Serverfarmen von Google laufen, sondern auch auf kleineren und weniger leistungsfähigen Geräten. Dadurch soll Gemini nahezu in das gesamte Google-Ökosystem integriert werden können.

Nach den Plänen von Google soll die Nano-Variante von Gemini zukünftig auf Android-Smartphones als allzeit bereiter Helfer vorhanden sein – auch wenn kein Internet verfügbar ist. Gemini Pro wiederum soll zum Zeitpunkt der Ankündigung das neue Standardmodell von Bard werden und dabei das zuletzt genutzte PaLM-Modell ersetzen – zumindest für englischsprachige Nutzer in 170 Ländern. Die Ultra-Variante wird vorerst für normale Nutzer nicht zugänglich sein. Sie soll für Forscher und professionelle Unternehmensanwendungen gedacht sein, aber nur schrittweise zugänglich gemacht werden, um ein „sicheres Experimentierfeld“ zu schaffen. Denn noch seien nicht alle Fähigkeiten und Fallstricke dieser Modellvariante bekannt.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Wie Demis Hassabis laut The Verge ausführt, würde die jetzige Fassung von Gemini lediglich einen Start markieren. Über die kommenden Jahre soll das Modell wachsen – nicht nur hinsichtlich seines Wissens, sondern auch bezüglich der Arten von Eingaben, die es verarbeiten kann. Es soll nicht nur lesen, hören und sehen können, sondern auch Berührungen und andere Aktionen erlernen und interpretieren können. Dies könnte Gemini zum Gehirn von Robotern und Drohnen machen. Jedoch warnt Hassabis, dass eine solche Entwicklung überlegt und vorsichtig geschehen müsse – „vorsichtig, aber optimistisch“.

Ob Gemini Google tatsächlich helfen kann, den Vorsprung von OpenAI aufzuholen, muss sich noch zeigen. Denn nur die Fähigkeiten von Gemini werden nicht genügen. Auch die Art und Weise, wie sie von Google in das eigene Ökosystem und BARD implementiert werden, muss stimmen. In einem kurzen Test zeigt sich etwa, dass Bard auch mit Gemini weiterhin ein eher spröder Konversationspartner ist, zwar Fragen akkurat, aber oft umständlich und länglich beantwortet, Zitate aus Romanen herbeihalluziniert und kontroversen Anfragen ausweicht.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!