Kiedy mówimy, że komputery są bardzo dobre w matematyce, to są one bardzo dobre w rzeczach, które są dość specyficzne. Komputery dobrze radzą sobie z arytmetyką – wprowadzanie liczb i obliczanie jest dziecinnie proste. Ale poza strukturami formalnymi, komputery zaczynają mieć problemy.wyjaśnia Guy Gur-Ari, ekspert ds. uczenia maszynowego w Google
Czytaj też: Słynny robot humanoidalny pierwszy raz w historii wystąpił w brytyjskim parlamencie. Co miał do powiedzenia?
Rozumowanie ilościowe wymaga cech, które niekoniecznie muszą być wymagane w przypadku wielu innych problemów. Jeśli jakikolwiek krok podczas realizacji danego zadania pójdzie źle, odpowiedź okaże się niewłaściwa. Czasami modele językowe popełniają błędy przy mnożeniu dużych liczb, by kiedy indziej mylić się na przykład w czasie interpretacji – na przykład uznając liczbę 10 za 1 i 0, a nie 10.
Kiedy modele uczenia maszynowego są trenowane na większych próbkach danych, mają tendencję do zwiększania wydajności i popełniania mniejszej ilości błędów. Odnosi się to jednak głównie do rozumowania ilościowego, a naukowcy zrozumieli, że błędy popełniane przez modele językowe mogą wymagać bardziej ukierunkowanego podejścia.
Modele językowe w pierwszych testach osiągnęły kolejno około 7 i 20 procent
Wydane w zeszłym roku zestawy danych, MATH i GSM8K, zawierają tysiące problemów matematycznych z zakresu geometrii czy algebry. Jak wyjaśnia Steven Basart, który pracował nad MATH, było jasne, iż modele językowe źle radzą sobie z problemami słownymi, lecz kwestią sporną pozostawało to, czy lepiej sformatowane i większe zestawy danych pomogą uniknąć tego typu trudności. Okazało się, że rozumowanie ilościowe dla modelu językowego MATH jest ogromnym wyzwaniem: uzyskał on wynik poniżej 7 procent. Nieco lepiej, choć wciąż bardzo przeciętnie, wypadł GSM8K, który nie przekroczył 20 procent.
Czytaj też: Stworzono najdokładniejszy attozegar na świecie. Pozwala podglądać elektrony
W czerwcu powiązana z Google Minerva ogłosiła osiągnięcie 78-procentowej dokładności przy minimalnym skalowaniu w górę. Było to zaskakująco szybką poprawą. W tym przypadku w grę wchodziło jednak użycie modelu PaLM (Pathways Language Model) oraz zastosowanie dwóch nowych strategii. Gdy przeniesiono je na na dwa wspomniane już modele, również doszło do znaczącego wzrostu: GSM8K zaliczył 50-procentowy rezultat, podczas gdy MATH 80-procentowy.