Google Translatotron, czyli tłumaczenie mowy w czasie rzeczywistym

Forma wyjściowa nie jest jeszcze idealna (fot. Techcrunch.com)

Technologia opiera się na sieci neuronowej, która przetwarza dźwięk na spektrogram. Dzięki temu system jest w stanie nie tylko przetłumaczyć intencje mówcy, ale też odwzorować tonację i charakterystykę głosu. Nie jest to jeszcze efekt 1:1 i słychać wciąż, że słowa wypowiada maszyna. Kilkanaście próbek Translatotronu możecie przesłuchać na stronie projektu w GitHub.

Twórcy nie kryją, że technologia wciąż nie jest doskonała i pod względem jakości tłumaczenia ustępuje tradycyjnemy TTS (text-to-speach). Ale zachowanie właściwej intonacji głosu to spory krok w przód, który docenią osoby posługujące się takimi systemami na co dzień. Google niestety nie zdradziło, kiedy oprogramowanie będzie gotowe do publicznych testów. Warto jednak przypomnieć, że namiastka tej technologii pojawiła się już w 2017 roku w słuchawkach Pixel Buds. Nie obejmowała jednak zachowania charakterystyki głosu i była dostępna jedynie w sytuacji, kiedy obydwaj rozmówcy używali słuchawek. | CHIP