Nowe modele językowe od OpenAI są w stanie "myśleć z obrazami"

Najbardziej uderzającą cechą nowych modeli OpenAI jest ich zdolność do tzw. myślenia z obrazami — nie tylko ich widzenia, ale także manipulowania nimi i wnioskowania na ich podstawie w procesie rozwiązywania problemów. Jak stwierdzają przedstawiciele OpenAI: Nie tylko widzą obraz, ale myślą z nim. To odblokowuje nową klasę rozwiązywania problemów, która łączy rozumowanie wizualne i tekstowe. Podczas oficjalnej demonstracji pokazano, jak o3 potrafi analizować złożone diagramy, np. z plakatów naukowych, i wyciągać wnioski, nawet identyfikując brakujące elementy. Możliwość manipulowania obrazami (przybliżanie, obracanie, kadrowanie) otwiera nowe perspektywy w wielu dziedzinach, od badań naukowych po edukację. Modele o3 i o4-mini są kompletnymi systemami AI, które potrafią samodzielnie używać i łączyć różne narzędzia w celu rozwiązywania złożonych problemów.

OpenAI wyjaśnia, że zostały wytrenowane w zakresie korzystania z narzędzi poprzez uczenie ze wzmocnieniem — ucząc je nie tylko, jak używać narzędzi, ale także, kiedy ich używać. Dzięki tej zdolności modele mogą realizować złożone, wieloetapowe zadania bez ciągłego nadzoru człowieka, np. analizować dane dotyczące zużycia energii w Kalifornii, pisać kod Python do ich analizy, generować wizualizacje i tworzyć raporty w jednym, płynnym procesie. Nowe modele szczególnie wyróżniają się w dziedzinie inżynierii oprogramowania dzięki bezprecedensowym możliwościom nawigacji po kodzie.

Wraz z nowymi modelami zaprezentowano Codex CLI, lekkiego agenta kodującego działającego bezpośrednio w terminalu użytkownika. Jest to narzędzie open-source umożliwiające programistom wykorzystanie możliwości rozumowania modeli do zadań związanych z kodowaniem, z obsługą zrzutów ekranu i szkiców. OpenAI informuje o przeprowadzeniu szeroko zakrojonych testów bezpieczeństwa nowych modeli, ze szczególnym naciskiem na ich zdolność do odrzucania szkodliwych żądań. Środki bezpieczeństwa obejmują całkowitą przebudowę danych treningowych dotyczących bezpieczeństwa oraz opracowanie systemowych mechanizmów łagodzących w celu oznaczania niebezpiecznych podpowiedzi. Modele te przeszły ponad 10 razy więcej obliczeń treningowych niż poprzednie wersje.

Czytaj też: ChatGPT idzie po Facebooka i Twittera? OpenAI pracuje nad własną siecią społecznościową

OpenAI twierdzi, że o3 ustanawia nowe standardy w kluczowych miernikach możliwości AI, takich jak Codeforces, SWE-bench i MMMU. W ocenach ekspertów zewnętrznych o3 popełnia o 20% mniej poważnych błędów niż jego poprzednik w trudnych, rzeczywistych zadaniach. Mniejszy model o4-mini jest zoptymalizowany pod kątem szybkości i kosztów, przy zachowaniu silnych zdolności rozumowania. W konkursie matematycznym AIME 2025 o4-mini uzyskał 99,5% punktów, mając dostęp do interpretera Pythona. Nowe modele są natychmiast dostępne dla użytkowników ChatGPT Plus, Pro i Team, a klienci Enterprise i Education uzyskają do nich dostęp w następnym tygodniu. Użytkownicy bezpłatni mogą wypróbować o4-mini, wybierając opcję “Think” przed wysłaniem zapytania.