Casa Casi 119: Der KI-Hypetrain in voller Fahrt – mit Sora an Bord

24.02.2024, 12:40

Carsten Drees

Das Thema KI ist ein Dauerbrenner, das wissen wir auch in unserer schnuckeligen Tech-WG, der Casa Casi. Kein Wunder also, dass wir – Fabi und ich – uns ganz dringend über Sora unterhalten mussten, jener neuen Text-to-Video-KI, die das ChatGPT-Unternehmen OpenAI jüngst präsentierte.

Machen wir uns nichts vor: Es passiert derzeit so unglaublich viel im Bereich der künstlichen Intelligenz, dass wir nicht einmal alle neuen Entwicklungen mitverfolgen, geschweige denn drüber sprechen können. Während wir auf YouTube mit "Dieses KI-Tool verändert ALLES"-Buzz-Clips förmlich zugeschissen werden, sorgt selbst eine Ankündigung wie die in dieser Woche – Stable Diffusion 3 wurde angekündigt – bei Vielen gerade einmal für ein müdes Arschrunzeln (pardon my French).

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk pic.twitter.com/R67JMIRHJw
— Stability AI (@StabilityAI) February 22, 2024

Aber wenn Open AI – seines Zeichens verantwortlich für Dall-E und natürlich ChatGPT – eine neue Plattform präsentiert, die uns aus Text-Prompts Videos zaubert, dann horcht die ganze Tech-Welt auf.

OpenAI präsentiert Sora – und sorgt für offene Münder

In unserer Tech-WG quatschen wir ja echt oft über künstliche Intelligenz und bilden uns daher ein, am Puls der Zeit zu sein. Aber Sora in seiner Qualität hatten wir tatsächlich so nicht auf dem Zettel. Lasst uns zunächst klären, was dieses "Sora" überhaupt ist:

Sora ist eine weitere künstliche Intelligenz von OpenAI, genauer gesagt ein generatives KI-Modell, welches aus einem Prompt ein einminütiges FullHD-Video erstellen kann. Hier haben wir es mit einem Modell zu tun, welches noch in der Entwicklung steckt und daher noch nicht für jedermann zugänglich ist. Es geht dabei aber nicht nur darum, aus Texteingaben Videos zu kreieren, sondern vor allem darum, physikalische Gesetze so realistisch darzustellen, also Bewegungsabläufe, Reflexionen, Schatten usw. – genau daran scheiterten bislang viele ähnliche Plattformen.

OpenAI hat offenbar auch eher vor, eine Simulation zu schaffen und nicht primär ein von jedermann nutzbares Produkt, wie es bei ChatGPT der Fall ist. Möglich, dass das darauf hindeutet, dass man sich eher an den Businessmarkt wendet, statt auf den Konsumentenmarkt zu schielen. Irgendwann muss das derzeit defizitäre Unternehmen schließlich auch mal Kohle verdienen, richtig? Aber lasst uns nicht lang drum herumreden, sondern besser darauf schauen, was Sora abliefert. Im folgenden Video seht Ihr nicht nur die mit Sora erstellten Sequenzen, sondern bekommt auch die Prompts mitgeliefert.

Und? Sehr beeindruckend, oder? Ja, ich weiß: Es gibt massig Fehler, wenn man sich die einzelnen Videos gründlich anschaut. Aber dennoch findet das auf einem ganz anderen Niveau statt als noch vor einem Jahr etwa. Und da ist sie dann direkt auch wieder, diese Ambivalenz: Die Technologie fasziniert mich und lässt mich über unzählige Anwendungsszenarien nachdenken, die künftig realisierbar sein werden. Aber andererseits ist da dieses Gruseln, was eben auch in negativer Hinsicht damit angestoßen werden könnte.

Das KI-Dilemma

Auch im Podcast spielt das beim Dialog mit Fabi heute wieder eine Rolle, denn wir können uns bei diesem Thema einfach nicht uneingeschränkt über begeisternde Technik freuen. Vielmehr grübeln wir darüber nach, an welchen Stellschrauben da regulatorisch eingegriffen werden muss. Open AI erklärt natürlich, dass man im Unternehmen alles erdenklich Mögliche dafür tue, Sora so sicher wie möglich zu gestalten:

OpenAI lässt uns zum Beispiel wissen, dass man sich mit Red Teamern zusammensetzt. Experten sollen also Sicherheitsrisiken ausloten, was Falschinformationen, hasserfüllte Inhalte und Vorurteile angeht. Die Videos sollen auch als KI-generiert gekennzeichnet werden und bestimmte Promptanfragen werden per se nicht ausgeführt. Das System reagiert dabei auf Anfragen, die „gegen unsere Nutzungsrichtlinien verstoßen, z. B. solche, die extreme Gewalt, sexuelle Inhalte, hasserfüllte Bilder, das Abbild von Prominenten oder die Rechte anderer als Ausgabe anfordern. Wir haben außerdem robuste Bildklassifikatoren entwickelt, mit denen die Frames jedes generierten Videos überprüft werden, um sicherzustellen, dass es unseren Nutzungsrichtlinien entspricht, bevor es dem Benutzer angezeigt wird.“

Außerdem werden Künstler;innen einbezogen, was die technische Seite angeht, aber auch die Politik und regulatorische Instanzen. So möchte man auf jeder vorstellbaren Ebene herausfinden, welche möglichen Hürden genommen werden müssen, um Missbrauch der Plattform entgegenzuwirken.

Ich erkenne da (mindestens ein) Dilemma, was die Entwicklung solcher KI-Modelle angeht: Diese Modelle erzeugen immer realistischere Texte, Fotos und Videos, die heute schon kaum als KI-erzeugt erkannt werden. Das geschieht in einer Zeit, in der wir als Gesellschaft auch ohne KI-Videos schon von Fakes, Lügen und Falschaussagen erschlagen werden. Wenn sich heute schon kaum jemand darum schert, ob ein Bild oder ein Video oder eine Headline tatsächlich real ist – wird das dann irgendeinen Impact haben, wenn sich im Clip ein Wasserzeichen befindet?

Ich bin auch nicht sicher, wie viel ich von der Kommunikation seitens Open AI für bare Münze nehme. Sprechen die wirklich ernsthaft mit der Politik und sind gewillt, mit allen Einwänden und Bedenken offen umzugehen? Ich möchte es glauben, aber Open AI lässt uns ja nicht einmal wirklich wissen, wie genau Sora trainiert wurde bzw. mit welchen Daten.

Es bleibt einfach dabei: Wir staunen wie kleine Kinder an Weihnachten über die technologischen Fortschritte und erdenken Utopien, in denen uns all das unsere Leben leichter und schöner macht. Aber dieses ungute Gefühl, als würde ein mahnender kleiner Mann in unserem Kopf gegen unsere Schädeldecke pochen, geht einfach nicht mehr weg. Denn eins muss uns jederzeit bewusst sein: KI-Videos und -Fotos werden niemals wieder so schlecht sein wie heute! Die Technologie ist nicht zu stoppen und so stehen uns einfach noch viel realistischere Inhalte ins Haus – eher heute als morgen!

Geht es Euch vielleicht auch so, was das ambivalente Gefühl angeht? Und welche Lösungsansätze fallen Euch ein? Schreibt es uns gerne in die Kommentare – aber selbstverständlich erst, nachdem Ihr Euch die heutige Folge der Casa Casi angehört habt und dabei hoffentlich bestens unterhalten wurdet.

Die besten Smartphones bis 500 Euro

	Redaktionsempfehlung	Beste Alternative	Bestes Kamera-Smartphone	Bester Software-Support	Bestes Preis-Leistungs-Verhältnis	Beste Performance
Produkt	Xiaomi Redmi Note 13 Pro+ 5G	Nothing Phone (1)	Google Pixel 7	Samsung Galaxy A54	Motorola Edge 40 Neo	Xiaomi Poco F5 Pro
Abbildung
Bewertung	Bewertung: Xiaomi Redmi Note 13 Pro+ 5G	Bewertung: Nothing Phone (1)	Bewertung: Google Pixel 7	Bewertung: Samsung Galaxy A54	Bewertung: Motorola Edge 40 Neo	Bewertung: Xiaomi Poco F5 Pro
Zum Angebot*	Zum Angebot 221,95 € (Amazon - gebraucht) * Auf eBay finden (eBay) *	Zum Angebot 446,11 € (Amazon - neu) * Auf eBay finden (eBay) *	Zum Angebot 252,43 € (128GB - gebraucht) * Auf eBay finden (eBay) *	Zum Angebot 298,31 € (128 GB - gebraucht) * Auf eBay finden (eBay) *	Auf Amazon finden (Amazon) * Auf eBay finden (eBay) *	Zum Angebot 140,54 € (Amazon - gebraucht) * Auf eBay finden (eBay) *