Automatyczny tłumacz języka migowego na angielski. Studentka opracowała wyjątkowy system sztucznej inteligencji

“Zrób coś teraz, jak już studiujesz inżynierię” – zażartowała mama studentki Priyanjali Gupta na Vellore Institute of Technology i to sprawiło, że w lutym 2021 roku wzięła się do pracy nad własnym dziełem. Dzięki temu powstał automatyczny tłumacz języka migowego na angielski, który bazuje na systemie sztucznej inteligencji i który zapewnił twórczyni sławę. Jej post z owocem swoich prac na LinkedIn rozszedł się wręcz wirusowo i nic w tym dziwnego, bo wypełnia ważną lukę na rynku.
Automatyczny tłumacz języka migowego na angielski, system sztucznej inteligencji
Automatyczny tłumacz języka migowego na angielski, system sztucznej inteligencji

Wyśmiewała się ze mnie. Ale to sprawiło, że zacząłem zastanawiać się, co mogłabym zrobić z moją wiedzą i zestawem umiejętności. Pewnego pięknego dnia podczas rozmawiania z Alexą [to asystent głosowy Amazonu – dop. red.], wpadłam na pomysł technologii integracyjnej. To uruchomiło zestaw planów– powiedział Gupta, z Delhi w rozmowie z serwisem Interesting Engineering.

Czytaj też: Mobilna broń mikrofalowa do walki. Epirus pokazał Leonidas Pod, dopełniający naziemny system Leonidas

Z żartu w determinację – oto jak powstał automatyczny tłumacz języka migowego na angielski na bazie SI

Po roku pracy studentka stworzyła model sztucznej inteligencji na bazie uczenia transferowego, co objęło wstępnie wytrenowany model o nazwie ssd_mobilenet. Ten wykorzystuje API Tensorflow do wykrywania obiektów, a dokładniej mówiąc, odpowiednich gestów amerykańskiego języka migowego, które można przetłumaczyć na ten mówiony (również angielski). Wedle opisu, system działa w oparciu o kamerę internetową poprzez uruchomienie pliku Image Collection Python i rozpoznaje następujące gesty, tłumacząc je na angielski: cześć, kocham cię, dziękuję, proszę, tak i nie.

Studentka czerpała inspirację z pracy naukowca Nicholasa Renotte’a, który nakręcił film o wykrywaniu języka migowego w czasie rzeczywistym. W jej systemie model jest na ten moment szkolony na pojedynczych klatkach, ale aby wykrywać gesty na nagraniach, musi być wytrenowany na wielu klatkach, do czego studentka chce wykorzystać LSTM. Nie jest to jednak takie łatwe, bo jak sama twierdzi, stworzenie modelu głębokiego uczenia się od zera do wykrywania znaków nie jest najłatwiejsze.

Czytaj też: Chrzest Snakehead zakończony. To pierwszy prototyp LDUUV, czyli wojskowego wielkiego drona podwodnego

Jestem tylko studentką-amatorem, ale się uczę. I wierzę, że prędzej czy później nasza społeczność open source, która jest znacznie bardziej doświadczona ode mnie, znajdzie rozwiązanie [na ulepszenie systemu]– powiedział Gupta, z Delhi w rozmowie z serwisem Interesting Engineering.