OpenAI pokazał przełomowe modele językowe o3 i o3 mini

Modele OpenAI o3 i o3 mini błyszczą w benchmarkach

Według danych, podanych przez OpenAI, model o3 uzyskał znakomite wyniki wydajnościowe. Wg podanych danych:

Uzyskał wynik 75,7% w teście ARC-AGI Semi-Private Evaluation.
W konfiguracji o wysokiej mocy obliczeniowej o3 uzyskał wynik 87,5% w tym samym teście
W benchmarku EpochAI Frontier Math, o3 rozwiązał 25,2% problemów, podczas gdy istniejące modele rozwiązały tylko 2%.
W teście SWE-Bench Verified, o3 uzyskał 71,7 punktów, o 22,8 punktów więcej niż starszy model o1.
Ranking Elo na poziomie 2727 w Codeforces
Na AIME 2024 o3 wykręcił wynik 96,7% (o1 uzyskał 83,3%)
W GPQA Diamond, o3 uzyskał wynik 87,7%. Dla porównania o1 uzyskał wynik 78%.

Czytaj też: Apple dopiero co wydał iOS 18.2, a już musi szykować poprawkę

Szczegółowe wyniki testów ARC można zobaczyć tutaj. Poza doskonałymi wynikami przełom wg ARC nastąpił przede wszystkim w innych aspektach – choć koszt wykonania testowych zadań, finansowy i energetyczny jest w tej chwili znacząco wyższy niż wykonanie ich przez człowieka, to:

Nowy model o3 OpenAI stanowi znaczący krok naprzód w zakresie zdolności sztucznej inteligencji do adaptacji. Nie mówimy tu o stopniowej poprawie, ale o prawdziwym przełomie, oznaczającym jakościową zmianę w możliwościach AI w porównaniu z wcześniejszymi ograniczeniami dużych modeli językowych. Model o3 to system zdolny do adaptacji do zadań, z którymi nigdy wcześniej nie miał do czynienia, zbliżając się pod tym względem do sprawności na poziomie działań człowieka w zakresie ARC-AGI.

Zaprezentowane przez OpenAI modele o3 pozwolą na wybranie trzech poziomów „rozumowania”. Najniższy będzie rzecz jasna najszybszy i najmniej dokładny, najwyższy dokładnie odwrotnie. Modele z rodziny o3 udostępnione zostały w ograniczonym zakresie do testów bezpieczeństwa, natomiast do szerszego użytku trafią w 2025 roku.