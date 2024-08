Was ist Gemini – und wenn ja, wie viele?

Einen Schritt zurück: Unter dem Dach namens Gemini vereint Google etwas verwirrend viele unterschiedliche Dinge. Einmal gibt es da die generativen KI-Modelle Gemini Nano, Gemini Flash, Gemini Pro und Gemini Ultra. Jene Modelle schreiten jeweils nach aufsteigenden Versionen fort; das aktuell mächtigste Modell ist "Gemini 1.5 Pro", das in diversen KI-Benchmarks die Konkurrenz von OpenAI & Co. hinter sich lässt.

Gemini heißt aber seit Anfang 2024 auch Googles Chatbot, formerly known as Bard. Und jener Chatbot bekommt nun eine Sprachversion namens "Gemini Live" im Stile des sagenumwobenen Voice Mode von ChatGPT 4o, der einen Tag vor der Google I/O im Mai 2024 angekündigt wurde – und immer noch nicht einmal als breite Beta verfügbar ist, dafür eher durch gruselige Ausfälle Schlagzeilen (siehe "Unauthorized Voice Generation") macht als durch einen Überraschungsauftritt.

Achso, Gemini bezeichnet auch verschiedene Abomodelle. "Gemini" alleine ist der kostenlose Zugang zur Google-KI namens Gemini auf Basis des "Gemini Pro"-Modells. Auf das erwähnte "Gemini 1.5 Pro" habt Ihr aber nur Zugriff mit dem Abomodell "Gemini Advanced" für 21,99 Euro im Monat – oder Ihr abonniert eben Google One AI Premium. Mit Gemini Business will ich an dieser Stelle gar nicht erst anfangen. Jetzt aber zur vermeintlichen Mondlandung.

Die vier bunten Punkte des Google Assistant sind wohl bald Geschichte – jetzt kommt das "Gemini-Zeitalter". / © Google

Gemini Live: Der "Star" des Abends

Abseits der vierunddrölfzig verschiedenen Geminis gibt es noch ein gleichnamiges Feature, das den Weg in die kommenden Jahre weist: Gemini Live. Dabei handelt es sich um ein sogenanntes Conversational Model, das natürliche Gespräche zulässt – und nicht einfach nur rundenbasiert Sprachnachrichten mit dem KI-Modell austauscht, die jeweils als Text transkribiert beziehungsweise per Sprachausgabe ausgegeben werden. Der Unterschied in der Dynamik ist vergleichbar mit jenem zwischen XCOM und Quake.

In der Live-Demo auf dem "Made by Google"-Event fragte Jenny Blackburn nach einer spaßigen und lehrreichen Beschäftigung für ihre Nichte und Neffen aus dem Bereich Chemie inklusive einem Touch Magie. Die Vorschläge waren ein Magischer Vulkan, eine selbstgebastelte Lavalampe oder unsichtbare Zauber-Tinte. Jenny wählte die Zauber-Tinte, die sich im Laufe der folgenden Konversation zu Schwarzlicht-Tinte entwickelte, den Projektnamen "Secret Message Lab" bekam und die Zusicherung, beim Experimentieren nicht übermäßig viel Dreck zu machen.

Weniger als das reine Ergebnis, das sich problemlos auch hätte googeln lassen, ist der Weg das wirklich Beeindruckende gewesen. Mit Gemini Live wird das Internet zum Gesprächspartner – und perspektivisch auch Euer eigenes Leben, das sich dank einiger neuer Features ab sofort ebenfalls per Gemini-KI durchforsten lässt.

Die Funktion "Call Notes" beispielsweise transkribiert nach einem Hinweis für Euren Gesprächspartner Eure Telefonate und erlaubt es Euch, diese nachträglich zu durchsuchen. "Pixel Screenshots" verwandelt Eure verwahrloste Sammlung von Screenshots vermeintlich wichtiger Dinge in eine durchsuchbare Datenbank persönlicher Notizen. Und mit den Workspace Extensions könnt Ihr mit Eurem Google Calender sowie Euren Daten aus Mails, Tasks oder Keep sprechen.

Das "Problem": Gemini Live erfordert meinem Verständnis nach das mächtige Sprachmodell Gemini 1.5 Pro, das in der Cloud läuft. Nutzt Ihr KI-Modelle, um Details aus Eurem Universum persönlicher Google-Workspace-Daten, Transkriptionen & Co. zu extrahieren, dann geschieht das ausschließlich lokal – und zwar mit Gemini Nano. Zum Cloud-basierten Gemini 1.5 Pro klafft aber der große Datenschutz-Graben. Wir haben Google hierzu um ein Statement gebeten und werden den Artikel aktualisieren, sobald wir Feedback bekommen haben.

Anhand des abfotografierten Konzert-Plakats und des Google-Kalenders sagt der KI-Assistent Gemini, ob der Nutzer Zeit für einen Konzert-Besuch hat. / © Google

Gemini und der Datenschutz-Graben

Während Gemini, lateinisch für "Zwilling", eigentlich für die Partnerschaft steht zwischen Googles beiden KI-Laboren Deepmind und Brain, könnte man den Namen auch als als unfreiwillige Beschreibung der Lokal-zu-Cloud-Trennung sehen.

Klartext: Wenn Ihr ab quasi sofort auf Englisch mit Gemini Live in der Gemini-App für Android quatscht (ja, natürlich heißt die App auch so), dann hat das hier laufende KI-Modell keinerlei Zugriff auf Eure persönlichen Daten aus Mail, Kalender & Co. Und voraussichtlich wird sich das auch noch nicht ändern, wenn Gemini Live in den kommenden Wochen und Monaten dann auch in weiteren Sprachen und sogar für iOS verfügbar ist – letzteres in Europa womöglich sogar vor Apple Intelligence.

Wenn Ihr Gemini anhand eines abfotografierten Konzertplakats fragen wollt, ob Euer Terminkalender den Besuch zulässt, dann müsst Ihr wie ein Steinzeitmensch auf Buchstaben tippen statt Euren KI-Assistenten herumzukommandieren – oder den Prompt per Spracheingabe diktieren. Denn das lokal laufende Gemini-Nano-Modell hat zwar Zugriff auf Eure persönlichen Daten, dafür aber nicht ausreichend Power für Echtzeit-Konversationen.

Der Google-Chip Tensor G4 in der neuen Pixel-9-Serie hat ausreichend Power, damit das KI-Modell Gemini Nano auf dem Gerät läuft. / © Google

Ist Gemini Live also die Mondlandung im "AI Race"?

Im Space Race der 60er und 70er Jahre gab es bei der NASA ein Raumfahrtprogramm namens "Gemini", das den Weg für die erste Mondlandung im Jahr 1969 mit dem nachfolgenden Apollo-Programm ebnete. Zufall? Kaum, denn die zehn für Gemini Live zum Start verfügbaren Stimmen haben mit Vega, Dipper, Ursa & Co. englischsprachige Namen für Sternenkonstellationen bekommen.

Während Google also nach den Sternen greift und in seiner After-Party auch einen Ex-NASA-Ingenieur auf der Bühne hat, fehlt aber noch ein Stück zur Mondlandung – nämlich jenes vorsichtig zu schmiedende Bindeglied zwischen den privatesten Daten der Nutzer in den lokal laufenden Gemini-Modellen und den mächtigen Cloud-Modellen, die natürlich anmutende Konversationen ermöglichen.