Auf seiner Konferenz Google I/O hat der Suchmaschinenkonzern Google seine neuesten KI-Tools vorgestellt. Diese sollen beispielsweise die bisherige Google-Suche verbessern und intelligente KI-Assistenten ermöglichen. Google hat aber auch eine eigene Video-KI vorgestellt, die Sora von OpenAI Konkurrenz machen soll.
Von Michael Förtsch
Erst am Montag hatte OpenAI sein sogenanntes Spring Update abgehalten. In einem Livestream stellte die KI-Firma ihr neues Sprachmodell vor. Nicht GPT-5, sondern ein erweitertes GPT-4 namens GPT-4o, das schneller ist, Bilder analysieren und über eine App echte Gespräche führen und Sprache simultan übersetzen kann. Eine eigene KI-getriebene Suchmaschine hat OpenAI, entgegen anders lautenden Gerüchten, nicht präsentiert. Ganz anders als Google bei der Google I/O-Präsentation. Dort stellte der Suchmaschinenkonzern zahlreiche, auch überraschende Projekte rund um Künstliche Intelligenz vor, die helfen sollen, zu OpenAI aber auch zu anderen Konkurrenten aufzuschließen.
Die wohl wichtigste Enthüllung war die Google-Suche, die mit sogenannten AI Overviews ausgestattet werden soll. Dabei handelt es sich um KI-generierte Antworten oder Zusammenfassungen sowohl auf konkrete Fragen als auch auf typische Suchphrasen, die direkt unter dem Suchfeld platziert werden. Diese sollen die Suchergebnisse nicht ersetzen, aber bei vielen Anfragen eine Orientierung bieten. Ebenso soll die Kamera-Suchfunktion Google Lens künftig auch Videos unterstützen und eine Suchanfrage zu Reisen oder einem Sporttraining auf einen Assistenten verweisen, der beispielsweise bei der Planung helfen kann. Jedoch sollen diese KI-Funktionen dynamisch und intelligent platziert werden. Wer nach einer konkreten Internetadresse sucht, soll auch nur diese erhalten und keine unnötige KI-Antwort.
Hinter diesen neuen KI-Suchfunktionen soll ein speziell für die Suche optimiertes Modell der Gemini-Reihe stehen, das möglichst Fakten und korrekte Antworten liefert. Aber das ist nicht das einzige neue Gemini-Modell. Mit Gemini 1.5 Flash hat Google sein Gegenstück zu GPT-4o vorgestellt. Es soll genauso leistungsfähig sein wie Gemini Pro und andere Gemini-Modelle, aber deutlich schneller. Es soll vor allem Entwicklern und Industriekunden die Möglichkeit geben, bessere Chatbots für Kunden anzubieten und auch Bild- und Videoinhalte schneller zu verarbeiten. Mit Gems soll es zudem demnächst auch möglich sein, ähnlich wie bei den GPTs von OpenAI, eigene Chatbots mit verschiedenen Persönlichkeiten und Aufgabenbereichen zu erstellen.
Gemini für alle?
Sowieso soll Gemini, wenn es nach Google geht, bald weite Teile des Google-Ökosystems durchdringen. In Google Photos soll es beispielsweise möglich sein, einen Chat zu öffnen und mit einer auf Gemini basierenden Künstlichen Intelligenz über die eigenen Fotos zu diskutieren. Ask Photos, so der Name der Funktion, soll beispielsweise die Möglichkeit bieten, Fotos zu finden, die bestimmte Motive und Wörter enthalten. Aber auch Fragen wie „Wie lautet das Nummernschild meines Autos nochmal?“ soll sie unter Berücksichtigung verschiedener Faktoren beantworten können – etwa wie oft das Auto vorkommt und ob es im Hintergrund des eigenen Selfies zu sehen ist.
Gemini wird auch Einzug in die professionelle Arbeitsumgebung Google Workspace halten – und damit in Anwendungen wie Google Docs, Google Sheets, Google Drive und Gmail. Bereits im kommenden Monat sollen die KI-Assistenten für zahlende Nutzer verfügbar werden und es ermöglichen, Informationen und Inhalte über die verschiedenen Google-Anwendungen hinweg abzufragen. So soll es etwa möglich sein, über einen KI-Chat eine E-Mail zu verfassen, die Auszüge aus einem Dokument in Google Docs integriert und Dateien aus Google Drive anhängt.
Auch der beliebte Browser Google Chrome soll einen KI-Assistenten erhalten. Dieser soll auf Googles kleinstem Gemini-Modell Nano basieren, das bereits in Smartphones wie dem Pixel 8 Pro integriert ist. Ab Version 126 soll Gemini standardmäßig in Chrome enthalten sein und beim Verfassen von E-Mails, Produktrezensionen und Social-Media-Posts helfen – ähnlich wie Copilot in Edge. Im Smartphone-Betriebssystem Android soll es zudem bald einfacher möglich sein, Gemini als Standard-Assistenten einzustellen und diesen insgesamt nützlicher zu machen. So soll Gemini Inhalte von Websites und Dokumenten zusammenfassen, Fragen zu laufenden Videos beantworten können und vieles mehr. Wobei einige Funktionen nur Nutzern vorbehalten sein werden, die für Googles Abo Google One AI Premium bezahlen. Dazu gehört Gemini Live, eine Funktion, die flüssige Konversationen ermöglicht, ähnlich dem von OpenAI angekündigten Update der ChatGPT-App.
Eine Standardfunktion könnte hingegen ein Betrugsalarm werden, der Gemini Nano nutzt, um Anrufe, SMS und andere Nachrichten auf verdächtige Inhalte zu scannen, wie beispielsweise Fragen nach PIN-Nummern und Überweisungsanfragen. Diese Funktion soll rein auf dem eigenen Gerät ohne Online-Anbindung ablaufen.
Ein Sora von Google?
Mit Project Astra stellte Demis Hassabis, Chef von Google DeepMind, auch eine sehr frühe Version von Googles Vision eines interaktiven KI-Assistenten vor. Auch dieser wurde direkt mit der App von OpenAI verglichen. Denn auch Project Astra soll flüssige Konversationen ermöglichen, über eine Kamera auf visuelle Informationen zugreifen, die vom Nutzer konkretisiert werden können. Es soll Objekte und sogar Orte erkennen können. Project Astra soll aber auch über ein umfangreiches Gedächtnis verfügen und dem Nutzer beispielsweise helfen, seine Schlüssel zu finden oder seinen Alltag besser zu organisieren.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Etwas überraschend hat Google auf der Google I/O auch eine Video-KI vorgestellt, die OpenAIs Sora Konkurrenz machen soll. Die KI namens Veo soll Videos mit einer Auflösung von 1080p und einer Länge von bis zu einer Minute generieren. Dabei können über eine einfache Eingabeaufforderung viele verschiedene Stile, aber auch Bilder und Videos als Vorlagen verwendet werden. Google verspricht ein tiefes Verständnis der KI für Zeitraffer, Luftaufnahmen und mehr. Die ersten vorgestellten Videos sind durchaus beeindruckend, wirken ähnlich fotorealistisch wie die von Sora, zeigen aber auch manchmal Fehler, wie etwa eine verzerrte Anatomie bei einem Pferd, das von einem Cowboy geritten wird. Wie Sora soll auch Veo zunächst von Künstlern und Filmemachern genutzt werden. Dazu soll der Google-Dienst VideoFX genutzt werden.
Auch ein neues Text-zu-Bild-Modell hat Google präsentiert. Imagen 3 soll deutlich besser als das derzeit in ImageFX und Gemini integrierte Imagen 2 komplexe Prompts verstehen und Text zeichnen können. Aber insbesondere soll es deutlich realistischere, detailreichere und höher aufgelöste Bilder produzieren. In Teilen sollen diese mit anderen aktuellen Text-zu-Bild-KIs wie Midjourney und Stable Diffusion 3 mithalten können. Aber auch dieser Dienst soll in den kommenden Wochen zunächst Künstlern, Forschern und anderen ausgewählten Personen zur Verfügung gestellt werden, bevor er zur breiten Nutzung freigegeben wird.
Zusammen mit Veo und Imagen 3 stellte Google auch SynthID vor. Das eigentlich schon 2023 angekündigte und als Beta-Version gestartete Tool ermöglicht es, KI-generierte Inhalte wie Videos, Bilder und Audio unsichtbar mit einem Wasserzeichen zu versehen. Bei Videos und Bildern werden einzelne Pixel in die fertigen visuellen Inhalte integriert, die mit entsprechenden Tools erkannt und ausgelesen werden können. Bei Audioinhalten handelt es sich um unmerkliche akustische Ausschläge. Auch längere Texte sollen mit SynthID minimal verändert werden können, um eine Identifikation als KI-Generierung zu ermöglichen.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!