OpenAI Sora – filmowców czekają ciężkie chwile?
Podstawowym problemem dotychczasowych silników typu tekst-na-wideo była niemożność zachowania wystarczającej spójności między kolejnymi klatkami tworzonego obrazu – każda klatka po bazowej miała niepożądane różnice, nakładające się na siebie i skutkujące coraz większym odchyleniem zarówno od pierwowzoru, jak i od zamierzonego efektu.
Na początku tego roku Google zaprezentował swój silnik, służący do zamiany tekstu na wideo, o nazwie Lumiere, wraz z licznymi i przekonującymi przykładami jego działania. Google zadowolony był z osiągnięcia wysokiej spójności czasowej, dzięki której klipy zachowywały wysoki realizm przez cały czas ich trwania – materiał tworzony był od razu „w całości”, a nie generując kolejne klatki na podstawie poprzednich. Lumiere zaoferował przy tym zarówno tradycyjny model tworzenia na bazie słownego promptu, jak i dodawanie animacji do już istniejącego obrazu.
Stworzony przez OpenAI model Sora działa na podobnej zasadzie, tj. także jest modelem dyfuzyjnym, pracującym na całym materiale.
Sora jest w stanie generować całe filmy naraz lub rozszerzać wygenerowane filmy, aby je wydłużyć. Dając modelowi możliwość przewidywania wielu klatek jednocześnie, rozwiązaliśmy trudny problem polegający na upewnieniu się, że obiekt pozostaje taki sam, nawet gdy chwilowo znika z pola widzenia OpenAI
Sora jest w stanie wygenerować skomplikowaną scenę, z wieloma poruszającymi się obiektami lub postaciami, za każdym razem odtwarzając precyzyjnie sposób ruchu z zachowaniem detali tła. Ma to wynikać nie tylko z dobrego „rozumienia” tekstowych wsadów, ale także z bogatej bazy wiedzy na temat tego, jak te wytworzone obiekty mogą istnieć i zachowywać się w rzeczywistym świecie.
Model ma głębokie zrozumienie języka, co pozwala mu dokładnie interpretować tekstowy wsad i ma jego podstawie generować przekonujące postacie, które wyrażają żywe emocje. Sora może również tworzyć wiele ujęć w ramach jednego wygenerowanego filmu, które dokładnie zachowują postacie i styl wizualny. OpenAI
Trzeba przyznać, że zaprezentowane tekstowe klipy robią wrażenie, nawet jeśli zawierają błędy:
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
Kompletny zestaw materiałów dostępny jest rzecz jasna na stronie projektu i zachęcam do ich obejrzenia, szczególnie że zawiera nie tylko przykłady w pełni udane, lecz także ilustracje błędów popełnianych przez model na obecnym etapie rozwoju.
Sora nie jest jeszcze doskonała i wiele pracy przed jej twórcami
OpenAI stworzył bowiem potężne narzędzie, ale to dopiero pierwszy etap. Sora nie jest bez wad i wymaga wielu udoskonaleń, by pozbyć się najbardziej poważnych problemów. Problemy występują z symulacją fizyki skomplikowanych scen i z zachowaniem przyczynowości – przykłady podane przez twórców silnika mówią choćby o tym, że Sora jest w stanie wykonać animację człowieka jedzącego ciastko, lecz w wyniku takich błędów ciastko po ugryzieniu może być nienaruszone, tj. nie mieć śladów zębów.
Model ma też tendencje do mylenia detali przestrzennych, ignorując strony lewą i prawą i nie trzymając zadanej trajektorii kamery. Pozostały też – chyba już tradycyjne – problemy z prawidłowym odwzorowaniem i animacją dłoni.