GPT-4o – „o” w nazwie znaczy „omni”
GPT-4o jest rozwiązaniem multimodalnym, czyli zdolnym do rozpoznawania wielu różnych typów danych, wiązania ich ze sobą i interpretowania ich we wzajemnym kontekście – robiąc de facto to, czego jako ludzie uczymy się od dziecka. „Omni” w nazwie oznacza właśnie to – zdolność do jednoczesnego radzenia sobie z danymi różnego typu, takimi jak obraz i dźwięk. Jest to zadanie bardzo skomplikowane, wymagające dużej mocy obliczeniowej – tymczasem GPT-4o jest zdolny do odpowiedzi na polecenie głosowe w czasie sięgającym zaledwie 232 ms (jak podaje OpenAI), a zatem z punktu widzenia człowieka, z opóźnieniem typowym dla rozmowy z inną osobą.
Dotyczy to oczywiście języka angielskiego, ale zgodnie z informacjami OpenAI, także interpretacja innych języków jest znacznie wydajniejsza niż w dotychczasowych rozwiązaniach, a do tego wymaga o połowę mniej odwołań do API.
W GPT-4o za przetwarzanie wielu typów danych wejściowych i wyjściowych odpowiada ta sama sieć neuronowa, która zapobiega utracie wielu informacji „po drodze” – w dotychczasowych rozwiązaniach poszczególnymi zadaniami zajmowały się różne modele, przekazując sobie rezultaty. W takim podejściu przetwarzanie danych nie tylko było wolniejsze, ale także na kolejnych etapach wiele informacji było bezpowrotnie traconych. Nowy model potrafi także dość udanie symulować i rozpoznawać emocje.
Multimodalność i wysoka wydajność GPT-4o (nie mówiąc o zaprezentowanych przykładach) wskazują na potencjalne zastosowanie modelu w asystentach głosowych, a informacje sprzed paru dni, że Apple i OpenAI zawarły umowę o współpracy, wskazują, gdzie być może zobaczymy praktyczną implementację tego modelu. Apple przespało rewolucję AI, zostając z niedorozwiniętą Siri, gdy inni szli do przodu i potrzebują czegoś naprawdę dużego, żeby ich asystent głosowy do czegoś znowu się nadawał.
Zaprezentowane powyżej przykłady dotyczą właśnie takich codziennych zastosowań, przy czym moje szczególne uznanie wzbudziło wykorzystanie GPT-4o w roli asystenta osoby niewidomej. Oczywiste pytanie, jakie się przy okazji nasuwa: w jaki sposób OpenAI zamierza poradzić sobie z problemem halucynacji AI, które poważnie wpływały na funkcjonalność dotychczasowych modeli, a przy zastosowaniach czasu rzeczywistego mogą mieć potencjalnie znacznie poważniejsze konsekwencje?
Użytkowników zapewne zainteresuje, że GPT-4o dostępny będzie dla wszystkich bezpłatnie – dotychczas nowsze modele silników OpenAI dostępne były dla użytkowników płacących. A ja czekam w końcu na Siri, zdolną do podobnych sztuczek, także w języku polskim.
Zobacz także: Copilot zyskuje kolosalne wzmocnienie – korzysta z najnowszego GPT (chip.pl)