Modele OpenAI o3 i o3 mini błyszczą w benchmarkach
Według danych, podanych przez OpenAI, model o3 uzyskał znakomite wyniki wydajnościowe. Wg podanych danych:
- Uzyskał wynik 75,7% w teście ARC-AGI Semi-Private Evaluation.
- W konfiguracji o wysokiej mocy obliczeniowej o3 uzyskał wynik 87,5% w tym samym teście
- W benchmarku EpochAI Frontier Math, o3 rozwiązał 25,2% problemów, podczas gdy istniejące modele rozwiązały tylko 2%.
- W teście SWE-Bench Verified, o3 uzyskał 71,7 punktów, o 22,8 punktów więcej niż starszy model o1.
- Ranking Elo na poziomie 2727 w Codeforces
- Na AIME 2024 o3 wykręcił wynik 96,7% (o1 uzyskał 83,3%)
- W GPQA Diamond, o3 uzyskał wynik 87,7%. Dla porównania o1 uzyskał wynik 78%.
Czytaj też: Apple dopiero co wydał iOS 18.2, a już musi szykować poprawkę
Szczegółowe wyniki testów ARC można zobaczyć tutaj. Poza doskonałymi wynikami przełom wg ARC nastąpił przede wszystkim w innych aspektach – choć koszt wykonania testowych zadań, finansowy i energetyczny jest w tej chwili znacząco wyższy niż wykonanie ich przez człowieka, to:
Nowy model o3 OpenAI stanowi znaczący krok naprzód w zakresie zdolności sztucznej inteligencji do adaptacji. Nie mówimy tu o stopniowej poprawie, ale o prawdziwym przełomie, oznaczającym jakościową zmianę w możliwościach AI w porównaniu z wcześniejszymi ograniczeniami dużych modeli językowych. Model o3 to system zdolny do adaptacji do zadań, z którymi nigdy wcześniej nie miał do czynienia, zbliżając się pod tym względem do sprawności na poziomie działań człowieka w zakresie ARC-AGI.
Zaprezentowane przez OpenAI modele o3 pozwolą na wybranie trzech poziomów „rozumowania”. Najniższy będzie rzecz jasna najszybszy i najmniej dokładny, najwyższy dokładnie odwrotnie. Modele z rodziny o3 udostępnione zostały w ograniczonym zakresie do testów bezpieczeństwa, natomiast do szerszego użytku trafią w 2025 roku.