OpenAI pokazał przełomowe modele językowe o3 i o3 mini

Grudniowe wydarzenie 12 days of OpenAI przyniosło wiele nowości. Jedną z bardziej pamiętanych pewnie będzie wprowadzenie najnowszego, niesamowicie drogiego poziomu subskrypcji ChatGPT Pro, ale ostatnie dni to przede wszystkim prezentacja nowych modeli „rozumowania” o3 i o3 mini.
OpenAI
OpenAI

Modele OpenAI o3 i o3 mini błyszczą w benchmarkach

Według danych, podanych przez OpenAI, model o3 uzyskał znakomite wyniki wydajnościowe. Wg podanych danych:

  • Uzyskał wynik 75,7% w teście ARC-AGI Semi-Private Evaluation.
  • W konfiguracji o wysokiej mocy obliczeniowej o3 uzyskał wynik 87,5% w tym samym teście
  • W benchmarku EpochAI Frontier Math, o3 rozwiązał 25,2% problemów, podczas gdy istniejące modele rozwiązały tylko 2%.
  • W teście SWE-Bench Verified, o3 uzyskał 71,7 punktów, o 22,8 punktów więcej niż starszy model o1.
  • Ranking Elo na poziomie 2727 w Codeforces
  • Na AIME 2024 o3 wykręcił wynik 96,7% (o1 uzyskał 83,3%)
  • W GPQA Diamond, o3 uzyskał wynik 87,7%. Dla porównania o1 uzyskał wynik 78%.
OpenAI
Fot. Unsplash

Czytaj też: Apple dopiero co wydał iOS 18.2, a już musi szykować poprawkę

Szczegółowe wyniki testów ARC można zobaczyć tutaj. Poza doskonałymi wynikami przełom wg ARC nastąpił przede wszystkim w innych aspektach – choć koszt wykonania testowych zadań, finansowy i energetyczny jest w tej chwili znacząco wyższy niż wykonanie ich przez człowieka, to:

Nowy model o3 OpenAI stanowi znaczący krok naprzód w zakresie zdolności sztucznej inteligencji do adaptacji. Nie mówimy tu o stopniowej poprawie, ale o prawdziwym przełomie, oznaczającym jakościową zmianę w możliwościach AI w porównaniu z wcześniejszymi ograniczeniami dużych modeli językowych. Model o3 to system zdolny do adaptacji do zadań, z którymi nigdy wcześniej nie miał do czynienia, zbliżając się pod tym względem do sprawności na poziomie działań człowieka w zakresie ARC-AGI.

Zaprezentowane przez OpenAI modele o3 pozwolą na wybranie trzech poziomów „rozumowania”. Najniższy będzie rzecz jasna najszybszy i najmniej dokładny, najwyższy dokładnie odwrotnie. Modele z rodziny o3 udostępnione zostały w ograniczonym zakresie do testów bezpieczeństwa, natomiast do szerszego użytku trafią w 2025 roku.