Microsoft Research: Nowy system modelowania twarzy 3D

Xin Tong, Microsoft Research

Naukowcy z Microsoft Research Asia, pracujący pod przewodnictwem Xin Tonga i współpracujący z profesorem Jinxiang Chai z Texas A&M University, opracowali nowe rozwiązanie, które pozwala tworzyć niezwykle wierne, trójwymiarowe obrazy ludzkiej twarzy.

Technologia pozwala odwzorować nie tylko główne właściwości i mimikę, ale także subtelne zmarszczki i ruchy ludzkiej skóry. Praca zespołu może przynieść wymierne skutki w takich dziedzinach jak skomputeryzowana kinematografia, a nawet tworzenie realistycznych awatarów użytkowników, do użytku w telekonferencjach i innych zastosowaniach.

Przygotowane przez zespół opracowanie poświęcone badaniom nad skanowaniem twarzy, pt. Wykorzystanie technik motion capture i skanowania 3D do wiernego rejestrowania mimiki, przedstawiono podczas konferencji SIGGRAPH 2011, odbywającej się na początku sierpnia w Vancouver, w Kolumbii Brytyjskiej. Spotkało się tam ponad 25 tys. specjalistów z takich dziedzin jak badania, nauka, sztuka, gry i inne.

Jak mówi Tong, to duże wyzwanie odwzorować w technice cyfrowej ludzką twarz, która jest niezwykle ekspresyjna. W końcu to jedna z form naszej komunikacji. Patrzymy na ludzi i zwykle potrafimy natychmiast zrozumieć, o czym myślą lub co czują.

“Potrafimy odwzorowywać mimikę jednak bardzo łatwo jest tu popełnić błąd” — mówi.

“Mimika twarzy musi być przechwytywana na bardzo wysokim poziomie szczegółowości, a także rejestrować bardzo drobne detale twarzy, zachowując wysoką rozdzielczość czasową”

. Oznacza to konieczność rejestrowania subtelnych ruchów, jakie wykonują drobne części ludzkiej twarzy.

Istniejące metody rejestrowania twarzy i mimiki to między innymi technika motion capture wykorzystująca znaczniki, a także skanery o wysokiej rozdzielczości. Technika ze znacznikami polega na umieszczeniu na twarzy małych, odblaskowych punktów. Zmiany ich pozycji względem siebie są rejestrowane w materiale wideo w miarę, jak postać zmienia wyraz twarzy. Ta metoda pozwala precyzyjnie wychwytywać zmiany ekspresji, ale z niską rozdzielczością.

Z drugiej strony, skanery o wysokiej rozdzielczości wychwytują wszystkie subtelności ludzkie twarzy, łącznie z niewielkimi zmarszczkami i porami w skórze, ale zwykle sprawdzają się tylko w statycznych ujęciach. Wyspecjalizowane konfiguracje sprzętowe zbudowane z użyciem szybkich kamer, także stosowane do rejestrowania twarzy, są drogie i rejestrują mniej szczegółów.

Zespół postawił sobie za cel połączenie precyzji techniki motion capture wykorzystującej znaczniki ze skanerami o wysokiej rozdzielczości. Naukowcy chcieli także dokonać tego w jak najbardziej efektywny sposób z perspektywy obliczeń komputerowych, a to wymagało zastosowania najmniejszej ilości danych niezbędnej do precyzyjnej rekonstrukcji twarzy.

Naukowcy zaprosili do współpracy trzech aktorów o bardzo ruchliwych twarzach. Najpierw zastosowano system motion capture ze znacznikami – na twarzy każdego z aktorów umieszczono około 100 odblaskowych punktów. Podczas nagrywania wideo aktorzy przybierali szereg z góry określonych min, pozwalających na zgromadzenie zgrubnych danych mówiących o tym, jak zmieniają się twarze w zależności od ich wyrazu. Dane te będą wykorzystane do trójwymiarowych skanów.

Górne ilustracje pokazują, jak znaczniki tworzą zestaw punktów powiązanych między wszystkimi skanami twarzy. Dolny rząd pokazuje, jak dwuetapowe dopasowanie skanów twarzy pozwala uzyskać gęste, spójne powiązania między punktami na wszystkich skanach.

Ponadto, dzięki analizie znaczników zespół określił minimalną liczbę skanów wymaganych do precyzyjnego odwzorowania twarzy.

W kolejnym kroku zespół badawczy posłużył sie skanerem laserowym, aby wykonać skany twarzy o wysokiej rozdzielczości. Skany te zostały następnie dopasowane do odpowiednich ramek w danych twarzy uzyskanych ze znaczników. Z pomocą nowego algorytmu, skany twarzy zostały do siebie dopasowane.

Nie było to łatwe zadanie. Autorzy stwierdzają w opracowaniu, że szczegóły geometryczne, które pojawiały się w jednym skanie, mogły nie występować w innym. Ponadto, nawet małe niedopasowanie powierzchni o delikatnej strukturze, takiej jak zmarszczki czy pory, sprawia, że odtworzenie twarzy wydaje się nienaturalne.

“Chcemy mieć pewność, że te elementy są dopasowane, inaczej widoczne będą dziwne zakłócenia” — mówi Tong.

“Może to być np. zmarszczka, która jest, potem znika, a potem znowu się pojawia – to nie jest naturalne.”

Aby uniknąć tego problemu, zespół wykorzystał dwuetapowy algorytm dopasowywania. Najpierw algorytm dopasowuje główne elementy mimiki pomiędzy skanami twarzy o wysokiej rozdzielczości. Następnie skany są doprecyzowywane. Odbywa się to poprzez ich podzielenie na dyskretne obszary i dopasowanie do tych samych obszarów w innych skanach, o wyglądzie podobnym do bieżącego skanu. Wykorzystuje się w tym celu technikę przepływu optycznego, która bierze pod uwagę względny ruch między kamerą a twarzą.

W kolejnym kroku zespół połączył informacje motion capture ze skanami twarzy, aby odtworzyć faktyczną mimikę. Uzyskany w ten sposób materiał uchwycił zarówno “duże” ruchy twarzy, jak i drobne szczegóły, np. teksturę i ruch skóry.

Tong nie ma wątpliwości, że praca jego zespołu odbije się szerokim echem w rzeczywistym świecie.

“Technika ta ma wiele zastosowań” – mówi. “Dlatego włożyliśmy w tę pracę tak wiele wysiłku.”

Łatwiejsza, ale skuteczna technika tworzenia wirtualnych twarzy może być bardzo atrakcyjna dla branży filmu i gier. Doprowadzi do stworzenia wirtualnych postaci, które będą znacznie bardziej zbliżone do żywych niż udaje się to dzisiaj.

Nowa technika skanowania może posłużyć do tworzenia komputerowych awatarów, będących realistyczną alternatywą dla fabrycznie zaprogramowanych awatarów, dostępnych w takich urządzeniach jak Xbox 360.

“Postać byłaby wirtualna, ale mimika prawdziwa” — mówi.

“Byłoby to niezwykle przydatne podczas telekonferencji, podczas spotkań biznesowych, gdzie ludzie są bardzo wyczuleni na wyraz twarzy rozmówcy i na jego podstawie wnioskują, o czym myśli druga strona.”