Okay, das kam jetzt ein bisschen aus dem Nichts: Eben hat Googles KI-Schmiede DeepMind offiziell ihre neue KI-Bildbearbeitung vorgestellt, über die wir jüngst erst berichteten. Nach den Indizien der letzten Tage war es schon wahrscheinlich, dass Google dahintersteckt. Was wir nicht ahnen konnten: Dass Google das Tool so schnell offiziell macht – und es für alle Gemini-Nutzer:innen ankündigt.
Deswegen ist „Nano Banana“ so gut
Die Bilder-Software kannten wir bislang unter dem Namen „Nano Banana“. Jetzt wird sie bei LMArena (der Plattform, in der KI-Modelle gegeneinander antreten und bewertet werden) als „gemini-2.5-flash-image-preview“ geführt. Dort seht Ihr übrigens auch die Top Ten, die zeigt, dass Google damit klar auf Platz 1 liegt – vor den Flux-Modellen (übrigens aus Deutschland) und GPT-Image-1 von OpenAI.
Wieso dieses Tool so gut ist, haben wir ja jüngst schon besprochen, aber Google erklärt es noch einmal deutlicher:
Wir wissen, dass bei der Bearbeitung von Bildern von sich selbst oder von Personen, die man gut kennt, selbst subtile Fehler wichtig sind – eine Darstellung, die „fast, aber nicht ganz“ stimmt, fühlt sich nicht richtig an. Deshalb sorgt unser neuestes Update dafür, dass Fotos von Freund*innen, Familie und sogar Haustieren immer so aussehen, wie sie wirklich sind – egal, ob ihr einen Bienenkorb-Haarschnitt aus den 60er-Jahren oder ein Tutu für euren Chihuahua ausprobiert.
Also ja: Das neue Modell kann Euch wirklich so darstellen, wie Ihr ausseht, aber es kann noch mehr. Google nennt ein paar Beispiele, die Ihr austesten könnt:
Kostüm oder Ort ändern: Ladet einfach ein Bild hoch, egal ob von Euch, Familienmitgliedern oder sogar Eurem Haustier. Dann schreibt in den Prompt, wie Ihr zum Beispiel Eure Klamotten ändern wollt, oder den Ort, an dem Ihr Euch befindet. Die KI gehorcht aufs Wort und erschafft eine Version, die komplett mit der Bildervorlage übereinstimmt.

Fotos zusammenfügen: Ladet einfach mehrere Fotos hoch. Es können zwei Fotos von Personen sein, die Ihr gern zusammen auf einem Bild hättet. Ladet noch ein drittes Foto mit hoch, auf dem ein einsamer Strand zu sehen ist und im Handumdrehen stehen die beiden Personen an exakt diesem Strand. Google hat in seinem Artikel u.a. das Beispiel von einer Frau und ihrem Hund gewählt. Beide als Foto hochgeladen und in den Prompt geschrieben, dass sie auf dem Bild mit ihrem Hund vor einem Basketballfeld abhängt. So sieht das dann aus:

Damit hat Google augenscheinlich das größte Problem aller anderen Bilder-KIs gelöst: Bilder bleiben konsistent. Egal, ob Ihr den Hintergrund, die Bildkomposition, den Look oder die Haltung von Personen verändert – die Optik bleibt original erhalten. Das könnte jetzt für einen fetten Run auf Google Gemini sorgen, denn sagen wir, wie es ist: Ganz viele der durchschnittlichen ChatGPT-Nutzer:innen machen mit der KI-Plattform fast nichts, außer Bilder zu erstellen. Somit könnte „Nano Banana“ zu einem echten Gamechanger werden.
Mehrere Bearbeitungsschritte: Ihr könnt Euch Eure vorzunehmenden Veränderungen jetzt in einzelne Schritte einteilen. So könnt Ihr ein Foto eines leeren Raums im ersten Schritt nutzen, um beispielsweise die Wand in einer bestimmten Farbe streichen zu lassen. Dann lasst Ihr in einem weiteren Schritt Möbel hineinstellen. Zum Schluss haut Ihr dann Deko-Gegenstände ins Bild. Bei jedem dieser Schritte bleibt der Rest des Bildes unverändert, sodass Ihr am Schluss eben ein Werk erstellt habt, bei dem die Tapete und die Möbelauswahl immer noch exakt so aussieht wie vorher.
Wer kann diese Bilder-KI nutzen?
Wenn Ihr mit dem Tool herumexperimentiert, kommen Euch sicher noch unendlich mehr Ideen, was man damit anstellen kann. Ihr könnt das Design Eurer Bude und Eurer Klamotten ändern, verändert die Wohnzimmer-Einrichtung mit einem Prompt, oder lasst eine Person eine bestimmte Handtasche tragen. Die Frau soll ein Kleid tragen, das so gemustert ist wie der Schmetterling vom anderen Foto? Gar kein Problem!
Die Frage ist jetzt nur, ab wann steht uns das zur Verfügung und wem alles überhaupt? Google schreibt: „Die aktualisierte Bildbearbeitungsfunktion ist ab heute in Gemini verfügbar.“ Wir haben es in den Gemini-Apps und auch in der Web-Version bislang noch nicht gesehen. Im Google AI Studio wird es angezeigt, wirft aktuell aber nur Fehler raus.
Vermutlich müssen wir Google also noch einen Augenblick Geduld geben. So lange könnt Ihr schon mal überlegen, welche Foto-Experimente Ihr starten wollt. Adobe kann sich derweil überlegen, was sie dann künftig machen wollen, wenn Leute viel weniger professionelle Foto-Software benötigen.
Ach, und übrigens: Google hat auch erklärt, dass alle in Gemini erstellten oder bearbeiteten Bilder ein sichtbares Wasserzeichen enthalten. Ebenso gibt es ein unsichtbares digitales SynthID-Wasserzeichen, um deutlich zu machen, dass die Werke KI-generiert sind. Behaltet das im Hinterkopf beim Bilder-Generieren! Lasst uns doch gerne in den Kommentaren wissen, ob die Funktion bei Euch schon angekommen ist – und was Ihr von ihr haltet.
Es wird immer schlimmer. Warum kann sich niemand so zeigen wie er ist? Wenn ich mich in einem Bild an einen Ort setzen würde, an dem ich nie gewesen bin, wäre das eine Lüge.
Wir würden es dir auch nicht abnehmen, weil wir ja wissen, wie sehr du alles hasst 😄
Ich mag nun mal keine künstlichen Fotos. Ich fotografiere und denke noch selbst. 😉
Hm ja, das mit dem Fotografieren scheint mir auch so ein Boomerding zu sein. Früher war das vor allem bei Männern unglaublich wichtig, immer wieder zu betonen, dass man selbst fotografiert, selbst entwickelt, digital selbstverständlich ablehnt und natürlich viele und wichtige Dias im Schrank hat. Und natürlich nichts Gestelltes, nur das Echte ist das Wahre. Ich glaube mal, heute ist das anders. Man legt nicht mehr Wert darauf, dass das Foto "echt" ist und auch nicht darauf, wie qualitativ wertvoll es ist. Es geht eher um die eingefangene Stimmung und das Lebensgefühl und nicht darum, ob das alles echt ist oder nicht. Die Zeit bleibt nicht stehen und Geschmäcker und Vorlieben ändern sich. Damit sollte man klarkommen oder besser Internet und soziale Medien meiden.
Und dass das was mit "noch selbst denken" zu tun hat, redest du dir nur ein 😏
<<< digital selbstverständlich ablehnt >>>
Eine DSLR ist digital. 😉
<<< Es geht eher um die eingefangene Stimmung >>>
Eben. Und die ist nur "echt" wenn am Foto nichts verändert wird. KI ist aber eine "Künstliche Stimmung", also "unecht" oder "gestohlen".
Ach, aber wenn du z.b. Kontrast, Belichtung, Farbe im Nachhinein korrigierst, dann ist das auch "unecht"? 🤦
@René
Das kannst du ja halten wie du magst mit deinen eigenen Fotos, aber anderen gleich Lügen zu unterstellen oder zu behaupten, dass dadurch alles noch "schlimmer" wird, nur weil du es nicht nachvollziehen kannst, ist halt maßlos überzogen.
Ich sehe das mit gemischten Gefühlen. Für Werbetreibende und andere Bild-Kreative bieten solche KI-Werkzeuge sicher fantastische Möglichkeiten, und in diesen Arbeitsgebieten kommt es ja auch nicht immer darauf an, authentische Fotos zu produzieren. Selber könnte ich mir einen Einsatz vorstellen, der Fehler korrigiert. Wenn die KI Verwacklungen korrigieren kann oder Reflexionen beseitigen, wie hier gezeigt, und damit eine Aufnahme retten kann, nimmt sie dem Bild ja nichts an Authentizität. Das Foto hätte ich genau so machen können, wenn mir bestimmte Fehler nicht unterlaufen wären, und wenn die Software die quasi nachträglich korrigiert, umso besser. Obwohl auch manchmal Fehler reizvoll sein können und den Erinnerungswert eines Fotos sogar steigern können, aber dann kann man ja das Original einfach aufbewahren. Das sichtbare Wasserzeichen würde mich dann aber wiederum stören, denn das macht die nachträgliche Korrektur für jedermann sichtbar, und sogar eine Nicht-Authentizität unterstellbar.
Womit ich absolut nichts anfange sind synthetische Bilder, die Situationen zeigen, die es so nie gegeben hat. Nur das ist eben nur meine Interpretation von Zweck eines Fotos. Zeichnungen und Gemälde zeigen mitunter ja auch solche nicht existent gewesenen Situationen und wenn jemand Freude daran hat, sich so "künstlerisch" zu betätigen, so sei sie ihm gegönnt.
Ich verfolge die Entwicklung der KI im Bereich Foto und Film mit großem Interesse, weil ich denke, dass hier mit der größte Impact auf dem Arbeitsmarkt erfolgen wird. Es sind ja nicht nur Models, Schauspieler, Filmteams und Fotografen, Kostüm und Requisite, Cutter and so on, sondern auch ingenieure und Planer. Gerade im Bereich Wohnungsbau gibt’s heute ja schon hunderte von Grundrissen, kein Architekt erfindet da etwas neues. KI kann aber in Sekunden nicht nur auf die Wünsche der Bauherren eingehen, sondern auch gleich optimieren. Planung kann weitaus präziser und schneller erfolgen als heutzutage.
Am meisten interessiert mich aber, ob es hier eine kontinuierliche Weiterentwicklung geben wird (so wie bisher) oder ob diese an irgendeinem Punkt womöglich stagnieren wird und es dann erst wieder einige Jahre Forschung und Entwicklung braucht, bis ein nächster Sprung möglich ist.
Naja, die LLMs sind eigentlich schon am Ende ihrer Evolution. Es hat sich gezeigt, daß ein mehr an Trainingsdaten eher schlechtere Ergebnisse erzielt, u.a. nehmen die Halluzinationen zu.
Eine AGI, die ja der feuchte Traum aller KI Buden ist, läßt sich nunmal nicht aus LLMs ableiten, die muß von Grund auf neu entwickelt werden.