Wykorzystując metodę uczenia maszynowego oraz 5000 godzin nagrań programów publicystycznych telewizji BBC, naukowcom udało się opracować program, który świetnie radzi sobie z odczytywaniem słów z ruchu warg. “Watch, Listen, Attend, and Spell” potrafi czytać z ruchu ust z dokładnością 46,8%. Wydaje się, że to mało? Otóż profesjonalni zajmujący się odczytywaniem słów z ruchu warg, na tym samym fragmencie wideo osiągnęli wynik równy zaledwie 12,4% . Sztuczna inteligencja poradziła sobie więc znacznie lepiej niż ludzki umysł.
Naukowcy z Deep Mind sugerują, że ich program może mieć wiele zastosowań. Pierwsze, co się nasuwa to oczywiście pomoc ludziom z uszkodzonym zmysłem słuchu, ale badacze wspominają też o automatycznym tworzeniu podpisów do niemych filmów lub wykorzystania algorytmu w cyfrowych asystentach głosowych (np. Cortanie czy Siri). W przypadku tych ostatnich wydawanie komend głosowych mogłoby się odbywać bezdźwięcznie, co sprawdziłoby się w miejscach publicznych.
Z drugiej strony, takie oprogramowanie otwiera furtkę do kolejnej metody inwigilacji. Naukowcy uważają jednak, że kluczową sprawą w przypadku ich algorytmu jest nagranie wideo w wysokiej jakości i dobre oświetlenie rozmówcy. Przy zaszumionym, ciemnym obrazie np. z kamer monitoringu, efekty nie byłyby tak rewelacyjne.