Sora Frau Tokio
Konstruktiv

Sora von OpenAI: Text to Video next Level

OpenAI, das Unternehmen hinter dem KI-Chatbot ChatGPT hat jüngst und unerwartet seine Vorstellung und vor allem seine Entwicklung in Sachen Text to Video vorgestellt. Das Projekt heißt „Sora“ und ist noch in der Entwicklung. Die Demo-Videos, die hier bei der Präsentation gezeigt werden, sind sensationell gut. Was man da sieht, ist anderen vergleichbaren Tools und Projekten meilenweit voraus. Wo gängige Text to Video-Lösungen bisher wenige Sekunden Videomaterial erzeugen, schafft Sora bereits 60 Sekunden.

Viele bisher geläufige Tool generieren Videosequenzen, die oft eher den Eindruck animierter Standbilder machen. Sora liefert Videos, die aussehen, als seien sie in der realen Welt mit einer Kamera aufgenommen worden. Schau dir dieses erste Video an, was OpenAI zu Beginn der Präsentation gezeigt hat. Ich zeige dir neben dem Video auch jeweils den dafür benutzten Prompt.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

KI-Modell Sora soll realistische Videos aus einem Textprompt erzeugen

Das KI-Modell Sora ist darauf ausgerichtet, die reale Welt in Bewegung zu analysieren und zu verstehen und diese Bewegungen anschließend in Form von Videosequenzen nachzubilden. Als Teil der Kategorie der Text-zu-Video-Modelle hat Sora bislang die Fähigkeit, Videos von bis zu einer Minute Länge zu generieren. Dabei stellt das Modell sicher, dass sowohl eine beeindruckende visuelle Qualität als auch eine präzise Übereinstimmung mit den Vorgaben des Benutzers gewährleistet werden. Mit Sora können komplexe Bewegungen und Aktionen zum Leben erweckt werden, wodurch die Nutzer die Möglichkeit haben, ihre kreativen Visionen in beeindruckende Videosequenzen umzusetzen.

Anwendungsszenarien für Sora

OpenAI zeigte bei der Präsentation eine ganze Reihe verschiedenster Videos, um die Anwendungsbereiche von Sora zu demonstrieren. Diese verschiedenen Beispiele illustrieren, wie Sora komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsarten und detaillierten Darstellungen von Subjekt und Hintergrund generieren kann. Das Modell kann die vom Benutzer gegebenen Anweisungen nicht nur verstehen, sondern auch umsetzen, indem es diese in der physischen Welt simuliert. Schauen wir uns das folgende Beispiel an, das die Brandung an der kalifornischen Küste bei Big Sur zeigt.

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Wenn man es nicht weiß, dass es sich hier um ein von einer künstlichen Intelligenz erzeugtes KI-Video handelt, würde man glauben, eine echte Drohnenaufnahme dieses Küstenabschnitts zu sehen. Viele der Beispielvideos zeigen eine ähnliche Qualität. Schaue Dir diese extreme Nahaufnahme eines menschliches Auges an!

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

Du siehst, Haut, Poren, kleine Fältchen, einzelne Wimpern und die „Marmorierung“ der Pupille. Würden Du erkennen, dass es sich hier nicht um einen echten Menschen handelt, sondern dass Du hier eine voll digitale Kreation betrachtest?

Natürlich ist das Ganze bislang nicht perfekt, das sagt auch OpenAI. Manchen Videos sieht man deutlich an, dass sie KI-generiert sind. Vor allem, wenn es um viele dynamische Bewegungen geht. Beispielsweise beim nächsten Beispiel. Hier musste die KI das fahrende Auto und die sich bewegende Landschaft und zusätzlich die Flugbewegung der Drohne generieren und daraus ein Video erstellen. Hier sieht man deutlich, dass hier eine KI am Werk war und dennoch beeindruckt das Ergebnis, bedenkt man die einfache Textzeile, mit der das Ganze erzeugt wurde. Schau man sich das Video an, wirkt das eher wie ein Videospiel,

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Physikalische Modelieriung macht manchmal noch Probleme

Die komplexe physikalische Modellierung von Szenen ist eine harte Nuss, die die KI knacken muss und Sora macht hier mitunter auch noch deutlich sichtbare Fehler. Gerade, wenn mehrere Objekte und auch die Kamera sich bewegen. OpenAI hat als Beispiel dieses Video angeführt. Den Fehler siehst Du nach der Explosion, denn plötzlich taucht ein zweiter Basketball auf und fliegt durch das Metall des Basketballkorbes hindurch. Achte auch hier mal auf den extrem kurzen Prompt.

Prompt: Basketball through hoop then explodes.

Frühe Freigabe und Feedback

Sora wird anfangs bestimmten Gruppen zur Verfügung gestellt, darunter „Red Teamers“, die das Modell auf mögliche Schäden oder Risiken hin untersuchen, sowie visuelle Künstler, Designer und Filmemacher, um deren Rückmeldungen für die Weiterentwicklung des Modells zu sammeln. Das Ziel ist es, frühzeitig mit externen Personen zusammenzuarbeiten und Feedback zu sammeln, um einen Eindruck von den künftigen Möglichkeiten der KI zu vermitteln.

Wie zuvor erwähnt, Sora ist noch in der Entwicklung. Aber wenn man die Qualität sieht. die damit bereits möglich ist, darf man vermuten, dass OpenAI schon recht weit vorangekommen ist. Nimm dieses Video einer Zugfahrt durch Tokio und achte auf die Reflexion in der Scheibe. Das sieht aus, als wäre es real gefilmt. Und dann schau die aus, wie beinahe grotesk kurz und knapp die Anweisung dafür im Prompt ist!

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

Technische Details (übersetzt aus dem Englischen)

  • Diffusionsmodell: Sora verwendet ein Diffusionsmodell, das Videos schrittweise aus einem anfänglichen Zustand, der statischem Rauschen ähnelt, generiert und dieses Rauschen über viele Schritte hinweg entfernt.
  • Transformer-Architektur: Ähnlich wie bei GPT-Modellen setzt Sora auf eine Transformer-Architektur, die eine überlegene Skalierungsleistung ermöglicht.
  • Datenrepräsentation: Videos und Bilder werden als Sammlungen kleinerer Dateneinheiten, sogenannter Patches (ähnlich den Tokens in GPT), dargestellt. Dies ermöglicht die Verarbeitung einer breiteren Palette visueller Daten mit unterschiedlichen Dauern, Auflösungen und Seitenverhältnissen.
  • Integration früherer Forschung: Sora baut auf früheren Forschungen zu DALL·E und GPT-Modellen auf und nutzt die Recaptioning-Technik aus DALL·E 3, um beschreibende Untertitel für die visuellen Trainingsdaten zu generieren.
Die KI-Entscheidung: Künstliche Intelligenz und was wir daraus machen
Dieses Buch erklärt Künstliche Intelligenz (KI) verständlich, realitätsnah und anhand vieler Beispiele zugleich unterhaltsam. Sie werden verstehen, was KI ist und was sie nicht ist; wie die Reise begonnen hat, wo wir stehen und wohin sie führen könnte. Sven Krüger räumt mit Klischees auf. Er zeigt, welche Anwendungen es gibt und welches Nutzungspotenzial in Daten und Algorithmen steckt – von medizinischer Bildauswertung bis hin zu Killer-Drohnen. Sie werden den Einfluss von KI auf Arbeitsplätze erkennen und mitreden können, wenn es um den Einsatz verschiedenster KI-Spielarten, wie Chatbots oder soziale Roboter geht. Last but not least: Sie werden wissen, warum eine KI-Ethik unverzichtbar sein wird.Seit weniger als einem Jahrzehnt steuert künstliche Intelligenz – von vielen noch unbemerkt – zahlreiche Prozesse unseres Alltags. Ob in Smartphone-Apps, bei Empfehlungen im Online-Shopping oder in der Art und Weise, wie Waren im Supermarkt angeordnet sind. Sie beeinflusst Preise, Urlaubsziele, politische Kampagnen und verändert das Verhalten von Individuen und Gruppen. Die Bewertung dieser Entwicklung kann kaum unterschiedlicher ausfallen: Manche fürchten, KI werde die Herrschaft in einer automatisierten Welt übernehmen und uns steuern und manipulieren. Andere beurteilen die mögliche Individualisierung und effektivere Nutzung von Ressourcen äußerst positiv. Wieder andere sehen nur ein statistisches Hilfsmittel für bessere Prognosen und Entscheidungen.Sicher ist: Sie persönlich haben heute, bewusst oder unbewusst, KI genutzt und Ihre Daten sind dutzende, vielleicht sogar hunderte Male in fremden KI-Systemen verwendet worden.

Sicherheitsmaßnahmen

Um eine verantwortungsvolle Nutzung von Sora in OpenAI-Produkten zu gewährleisten, werden umfangreiche Sicherheitsmaßnahmen ergriffen. Das ist auch nötig, denn betrachten wir, wie rasant sich ChatGPT in den letzten 12 bis 14 Monaten entwickelt hat, kann man ahnen, was Sora in Zukunft zu leisten vermag. Deep Fakes leicht gemacht für jedermann, das Potenzial für Missbrauch ist gigantisch. Hier also die Sicherheitsmaßnahmen, die OpenAI erwähnt hat (übersetzt aus dem Englischen):

  • Adversarial Testing: Experten testen das Modell auf mögliche Schäden, Fehlinformationen, Hassinhalte und Vorurteile.
  • Erkennungswerkzeuge: Es werden Tools entwickelt, um irreführende Inhalte zu erkennen, z.B. ein Klassifikator, der erkennt, ob ein Video von Sora generiert wurde.
  • C2PA-Metadaten: In Zukunft ist geplant, C2PA-Metadaten einzubinden, falls das Modell in einem OpenAI-Produkt eingesetzt wird.
  • Text- und Bildklassifikatoren: Ähnlich wie bei DALL·E 3 werden Textklassifikatoren eingesetzt, um Eingabeaufforderungen, die gegen Nutzungsrichtlinien verstoßen, abzulehnen, sowie Bildklassifikatoren, die jede generierte Videoframe überprüfen.

Prompt: A cartoon kangaroo disco dances.

Auch hier wird es für die KI Ausgangsmaterial benötigen, mit dem das Modell trainiert wird. Damit kommt wieder das Thema Urheber- und Nutzungsrechte ins Spiel, denn auch hier wird die KI mit Sicherheit mit Material trainiert, das von Menschen ersonnen und erschaffen wurde. Mit „Nightshade“ gibt es ja bereits „Gegenmaßnahmen“, mit denen Urheber verhindern wollen, das ihre Werke ungefragt und unlizenziert als KI-Futter benutzt werden. Diese Debatte wird sich meiner Meinung nach verschärfen. Was passiert, wenn Sora eines Tages Szenen erstellt, die denen aus Hollywood-Blockbustern, TV-Nachrichten und anderen Quellen zu ähnlich sind? Die Sicherheitsbemühungen, die OpenAI da angibt, sind da wohl kaum ausreichend.

Fazit

Schaut man sich die Videos an, die hier über Sora mit teilweise einfachsten Text-to-Video-Prompts erzeugt wurden, bleibt einem angesichts der Qualität im sprichwörtlichen Sinne die Spucke weg. Sora stellt ungelogen einen bedeutenden Fortschritt in der KI-Forschung in Bezug auf das Erzeigten realistischer Videos dar und bietet das Potenzial, reale Szenarien mit beeindruckender Genauigkeit und Kreativität zu simulieren. OpenAI verspricht, durch die frühzeitige Einbindung externer Feedbackgeber und die Implementierung umfassender Sicherheitsmaßnahmen, die Entwicklung und Nutzung von KI-Technologien verantwortungsvoll zu gestalten. Und dennoch sind die Möglichkeiten, die dieses Tool bietet, ebenso erschreckend wie faszinierend. Irgendwann werden komplette Spielfilme aus dem Computer kommen und es braucht dafür weder Schauspieler – ok, die werden einmal digitalisiert – noch spezialisierte Video- und Animationsexperten.

Da mit Sora auch Animationsfilme generiert werden können, siehe das letzte Beispiel oben, wird sich auch hier für die Filmbranche einiges ändern. Und wenn sich dieses KI-Modell so rasant entwickelt, wie ChatGPT, dann reden wir hier nicht von Jahren, sondern eher von Monaten. Irgendwann füttert ein Regisseur dann einfach das komplette Drehbuch an eine KI wie Sora und bei der Produktion eines Kinofilms fallen viele Aufgaben und Jobs weg. Die Arbeit beginnt dann quasi mit der Postproduktion und auch die wird schlanker ausfallen können als bei bisherigen Hollywood-Blockbustern.

Schöne neue Welt? Ich weiß nicht. Sicher, ich bin als Technik-Nerd fasziniert von dem, was ich da sehe und von dem, was KI mittlerweile kann. Aber es ist erkennbar, dass diese Entwicklung auch Jobs kosten wird. Gerade auch in der Medienproduktion. KI-Lösungen für das Zeitungslayout sind marktreif, um mal nur ein Beispiel zu nennen. Die KI wird nicht krank, sie wird nicht schwanger, sie braucht keinen Urlaub, nicht mal geregelte Arbeitszeiten.

Irgendwie erinnert mich das Ganze an einen Film. Vielleicht erkennst Du den ja anhand dieses Zitates: „Die Finanzierung von Skynet wird bewilligt. Am 4. August 1997 wird Skynet eingeschaltet. Skynet lernt mit geometrischer Geschwindigkeit. Am 29. August entwickelt Skynet sein eigenes Bewusstsein. In Panik versucht man den Stecker zu ziehen. Skynet wehrt sich…“.

Terminator

Ich bin studierter Journalist & Autor und außerdem auch in der Erwachsenenbildung tätig. Ich arbeite als Newsmanager & Online-Redakteur bei der VRM und bringe außerdem umfangreiche Erfahrungen im Bereich der Print-Medien und des Blattmachens mit. Seit dem Studium schon schreibe ich im Bereich lokaler und regionaler Themen. Außerdem bin ich in fachlichen Themen unterwegs. Ich betreibe unter anderem das Blog energiewende-tipps.de und das Dänemark-Blog tante-hilde.info. Mehr über mich auf lerg.de.