W jaki sposób naukowcom udało się osiągnąć tak doskonały efekt? Najpierw musieli znaleźć odpowiednio duży zbiór filmów ukazujących mimikę twarzy jednej osoby. Ponieważ w sieci bezpłatnie można znaleźć mnóstwo wystąpień byłego prezydenta, badacze postanowili wykorzystać je do swoich prac. Po obejrzeniu 14 godzin nagrań, algorytm metodą uczenia maszynowego, nauczył się w jaki sposób Barack Obama wypowiada różnego rodzaju słowa. Bazując na dowolnym nagraniu głosu (nie tylko byłego prezydenta), algorytm potrafi dokładnie odwzorować ruch warg. Aby całość prezentowała się bardziej naturalnie oprogramowanie poprawia położenie głowy, wygląd szczęki i ust. Cały proces jest zautomatyzowany z wyjątkiem kroku, w którym należy wybrać dwie klatki wyraźnie prezentujące górny i dolny rząd zębów. Poniżej można zobaczyć postęp prac naukowców.
Program nie jest jeszcze perfekcyjny. Nie radzi sobie idealnie z symulacją zgłosek takich jak “th”, przy wypowiadaniu których język powinien unosić się do podniebienia. Czasami wywołuje też efekt drugiego podbródka. Mimo to całość prezentuje się lepiej niż wszystko co widzieliśmy do tej pory w zakresie synchronizacji dźwięku z ruchem ust.
Zdaniem naukowców taki algorytm będzie mógł znaleźć zastosowanie m.in. w wideokonferencjach. Dzięki niemu nawet przy połączeniu o słabej jakości udałoby się przekazać wysokiej jakości obraz – co prawda symulowany, ale z autentycznym głosem rozmówcy. Pierwsze co przychodzi mi jednak na myśl po obejrzeniu takiego nagrania to duży potencjał w manipulowaniu mediami. Skoro każdy będzie w stanie sprawić, by znana osoba przemówiła jego głosem, trudno nie zauważyć furtki, która otwiera się dla działań propagandowych. Zwłaszcza jeśli połączymy algorytm naukowców z Waszyngtonu z eksperymentalnym programem Adobe VoCo, potrafiącym wygenerować realistyczny głos danej osoby. | CHIP