Projekt o nazwie Massively Multilingual Speech (MMS), który zaprezentowała firma Meta, jest narzędziem, które może sprawić, że wszelkie bariery językowe pójdą w niepamięć. Na obecnym etapie rozwoju jest bowiem w stanie rozpoznawać ponad 4000 języków mówionych i generować mowę na podstawie tekstu w przeszło 1100 językach. To naprawdę robi wrażenie, zwłaszcza gdy weźmiemy pod uwagę fakt, że w przypadku zamiany tekstu na mowę to aż dziesięciokrotnie więcej niż potrafią dostępne teraz rozwiązania. Na świecie istnieje około 7000 języków, a istniejące modele rozpoznawania mowy obejmują kompleksowo tylko około 100 z nich. Jak twierdzi gigant, jest to znaczący krok w kierunku zachowania języków, którym grozi wyginięcie.
Najważniejsze jednak, że Meta nie chce trzymać tego dla siebie. Firma uczyniła z MMS open source, zapraszając tym samym badaczy do uczenia się, rozwijania i budowania na udostępnionym fundamencie.
Dzisiaj publicznie udostępniamy nasze modele i kod, aby inni członkowie społeczności badawczej mogli korzystać z naszej pracy. Dzięki tej pracy mamy nadzieję wnieść niewielki wkład w zachowanie niesamowitej różnorodności językowej świata.
Meta zniesie „klątwę wieży Babel”. Pomoże w tym sztuczna inteligencja
Czytając MMS, od razu w głowie pojawiło mi się nawiązanie do mitycznej wieży Babel i pomieszania języków, jakie było jej następstwem. Skojarzenie nie pojawiło się tylko dlatego, że chodzi o języki, ale również (a może przede wszystkim) z powodu nietypowego sposobu, jakim podczas nauki MMS posłużyła się firma. Rozpoznawanie mowy i modele zamiany tekstu na mowę zwykle wymagają szkolenia na tysiącach godzin dźwięku z towarzyszącymi etykietami transkrypcji. Etykiety mają kluczowe znaczenie dla uczenia maszynowego, bo umożliwiają algorytmom właściwą ketegoryzację oraz zrozumienie danych. Skąd wziąć więc tyle próbek, zwłaszcza w przypadku języków, którym grozi rychłe zniknięcie?
Czytaj też: ChatGPT w kieszeni. Oficjalna aplikacja mobilna OpenAI z funkcją, której nie znajdziesz w wersji webowej
Firma sięgnęła po… nagrania dźwiękowe przetłumaczonych tekstów religijnych, takich jak np. Biblia. Tego typu dzieła tłumaczone były na wiele różnych języków, a na dodatek były one szeroko badane pod kątem badań tłumaczeniowych opartych na tekście. Meta mogła rozwijać swoją sztuczną inteligencję, mając do dyspozycji publicznie dostępne nagrania audio osób czytających teksty religijne w różnych językach. W ten właśnie sposób udało się zwiększyć liczbę dostępnych języków do ponad 4000. Warto tu wspomnieć, że Meta użyła wav2vec 2.0, opracowanego przez firmę modelu „samonadzorowanego uczenia się reprezentacji mowy”, który może trenować na nieoznakowanych danych. Połączenie tego rozwiązania z niekonwencjonalnym źródłem danych dało imponujące rezultaty.
Tutaj jednak można się zastanowić, czy tak wytrenowany model sztucznej inteligencji nie będzie, aby zbyt religijny i przesiąknięty światopoglądem np. chrześcijańskim? Meta twierdzi, że nie.
Chociaż treść nagrań dźwiękowych jest religijna, nasza analiza pokazuje, że nie wpływa to na model do tworzenia bardziej religijnego języka. Uważamy, że dzieje się tak dlatego, że stosujemy koneksjonistyczne podejście do klasyfikacji czasowej (CTC), które jest znacznie bardziej ograniczone w porównaniu z dużymi modelami językowymi (LLM) lub modelami sekwencji do sekwencji do rozpoznawania mowy.
Firma zauważyła nawet, że choć na większości nagrań dostępny był tylko męski lektor, MMS nie ma żadnego problemu z głosami żeńskimi. Nie widać tutaj żadnych „uprzedzeń”. Należy tylko pamiętać, co też podkreśla sam gigant, że jej nowe modele nie są idealne. Podczas zamiany mowy na tekst mogą pojawiać się błędy, a w zależności od danych wyjściowych, również obraźliwy i/lub niedokładny język. Mimo zapewnień Mety, wiele osób ma nadal uprzedzenia, że trening na religijnych tekstach, zwłaszcza na Biblii, może nie być dobrym rozwiązaniem.
Czytaj też: Stworzył bombę atomową, a teraz apeluje o regulacje. Właściciel ChatGPT obawia się sztucznej inteligencji
Na szczęście dzięki udostępnieniu kodu, MMS ma teraz szansę na o wiele większy rozwój. Meta wierzy w swój projekt i chce, by pomógł on w zachowaniu różnorodności językowej na świecie, która wraz ze wzrostem technologii powoli zaczyna zanikać, bo ograniczamy się do najpowszechniej używanych języków. Nie można też pominąć faktu, że jest to kolejny krok do „uniwersalnego tłumacza” rodem z filmów czy książek science-fiction. Może w przyszłości (już nawet nie tak bardzo odległej) będzie nam wystarczyła słuchawka, która wyposażona w moc sztucznej inteligencji, będzie nam tłumaczyła słyszaną mowę w czasie rzeczywistym, niezależnie od tego, w jak odległym zakątku świata się znajdziemy.