LUMIERE: DIE NEUESTE TEXT-ZU-VIDEO KI VON GOOGLE

Das Google AI Research Paper stellt ein neues Text-zu-Video-Diffusionsmodell namens “Lumiere” vor. Der Zweck dieses Modells ist es, realistische, vielfältige und kohärente Bewegungen in Videos zu erzeugen, was in der Vergangenheit eine schwierige Aufgabe im Bereich der künstlichen Intelligenz und der Computer Vision darstellte.

Lumiere verwendet eine neuartige Raum-Zeit-U-Netz-Architektur, die sich von den traditionellen Videomodellen unterscheidet. Herkömmliche Modelle erzeugen räumlich entfernte Keyframes, gefolgt von einer zeitlichen Superauflösung, bei der es oft schwierig ist, die globale zeitliche Konsistenz zu erhalten. Die Architektur von Lumiere erzeugt die gesamte zeitliche Dauer eines Videos in einem einzigen Durchgang und verbessert so die Kohärenz und Flüssigkeit der Bewegung.

Für einen Überblick zu den neuesten KI News und um smarter zu denken mit KI, folgen Sie uns einfach auf LinkedIn!

This post is also available in: English