OpenAI prezentuje nowy model GPT-4o – sztuczna inteligencja staje się zdolna do pracy w czasie rzeczywistym

GPT-4o – „o” w nazwie znaczy „omni”

GPT-4o jest rozwiązaniem multimodalnym, czyli zdolnym do rozpoznawania wielu różnych typów danych, wiązania ich ze sobą i interpretowania ich we wzajemnym kontekście – robiąc de facto to, czego jako ludzie uczymy się od dziecka. „Omni” w nazwie oznacza właśnie to – zdolność do jednoczesnego radzenia sobie z danymi różnego typu, takimi jak obraz i dźwięk. Jest to zadanie bardzo skomplikowane, wymagające dużej mocy obliczeniowej – tymczasem GPT-4o jest zdolny do odpowiedzi na polecenie głosowe w czasie sięgającym zaledwie 232 ms (jak podaje OpenAI), a zatem z punktu widzenia człowieka, z opóźnieniem typowym dla rozmowy z inną osobą.

Dotyczy to oczywiście języka angielskiego, ale zgodnie z informacjami OpenAI, także interpretacja innych języków jest znacznie wydajniejsza niż w dotychczasowych rozwiązaniach, a do tego wymaga o połowę mniej odwołań do API.

W GPT-4o za przetwarzanie wielu typów danych wejściowych i wyjściowych odpowiada ta sama sieć neuronowa, która zapobiega utracie wielu informacji „po drodze” – w dotychczasowych rozwiązaniach poszczególnymi zadaniami zajmowały się różne modele, przekazując sobie rezultaty. W takim podejściu przetwarzanie danych nie tylko było wolniejsze, ale także na kolejnych etapach wiele informacji było bezpowrotnie traconych. Nowy model potrafi także dość udanie symulować i rozpoznawać emocje.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Multimodalność i wysoka wydajność GPT-4o (nie mówiąc o zaprezentowanych przykładach) wskazują na potencjalne zastosowanie modelu w asystentach głosowych, a informacje sprzed paru dni, że Apple i OpenAI zawarły umowę o współpracy, wskazują, gdzie być może zobaczymy praktyczną implementację tego modelu. Apple przespało rewolucję AI, zostając z niedorozwiniętą Siri, gdy inni szli do przodu i potrzebują czegoś naprawdę dużego, żeby ich asystent głosowy do czegoś znowu się nadawał.

GPT-4o as tested by @BeMyEyes: pic.twitter.com/WeAoVmxUFH
— Greg Brockman (@gdb) May 14, 2024

Zaprezentowane powyżej przykłady dotyczą właśnie takich codziennych zastosowań, przy czym moje szczególne uznanie wzbudziło wykorzystanie GPT-4o w roli asystenta osoby niewidomej. Oczywiste pytanie, jakie się przy okazji nasuwa: w jaki sposób OpenAI zamierza poradzić sobie z problemem halucynacji AI, które poważnie wpływały na funkcjonalność dotychczasowych modeli, a przy zastosowaniach czasu rzeczywistego mogą mieć potencjalnie znacznie poważniejsze konsekwencje?

Użytkowników zapewne zainteresuje, że GPT-4o dostępny będzie dla wszystkich bezpłatnie – dotychczas nowsze modele silników OpenAI dostępne były dla użytkowników płacących. A ja czekam w końcu na Siri, zdolną do podobnych sztuczek, także w języku polskim.

Zobacz także: Copilot zyskuje kolosalne wzmocnienie – korzysta z najnowszego GPT (chip.pl)