ChatGPT zdał test Turinga. AI dorównało człowiekowi pod względem inteligencji?

Naukowcy z Uniwersytetu Kalifornijskiego w San Diego przeprowadzili badanie, w którym cztery duże modele językowe (LLM): ELIZA, GPT-4o, LLaMa-3.1-405B oraz GPT-4.5, zostały poddane testowi Turinga. ChatGPT od OpenAI został uznany za człowieka przez 73% uczestników eksperymentu. Uczestniczyły w nim 284 osoby, które pełniły role przesłuchujących lub świadków. Przesłuchujący prowadzili jednocześnie pięciominutowe rozmowy tekstowe z dwoma świadkami (człowiekiem i modelem językowym) na podzielonym ekranie, a następnie musieli zdecydować, który z nich jest człowiekiem. Mimo imponujących wyników, GPT-4.5 pozostaje jednak daleko od osiągnięcia poziomu ludzkiej inteligencji. Dlaczego?
ChatGPT zdał test Turinga. AI dorównało człowiekowi pod względem inteligencji?

Pierwsza iteracja testu została zaproponowana przez Alana Turinga w 1948 roku, a spopularyzowana w 1950 roku jako Imitation Game (gra w naśladowanie). Pierwotnie miała na celu zastąpienie pytania “Czy maszyny mogą myśleć?” bardziej konkretnym eksperymentem oceniającym zdolność maszyny do wykazywania inteligentnego zachowania równoważnego człowiekowi. Przejście testu jest jednak interpretowane jako zdolność do imitowania ludzkiego zachowania w konwersacji, ale niekoniecznie jako dowód prawdziwej inteligencji na poziomie człowieka. Obecnie istnieją cztery główne zastrzeżenia do testu Turinga:

  • zachowanie vs. myślenie: zdolność do “zdania” testu może być jedynie kwestią behawioralną, a nie dowodem rzeczywistego myślenia;
  • mózg a maszyna: Alan Turing zakładał, że mózg jest maszyną, co jest kwestionowane przez wielu naukowców;
  • wewnętrzne operacje: procesy dochodzenia do wniosków przez komputery i ludzi mogą być nieporównywalne;
  • zakres testu: ocenianie inteligencji na podstawie tylko jednego rodzaju zachowania (konwersacji) jest niewystarczające.

A jak poradziły sobie z tym konkretnym zadaniem pozostałe modele? LLaMa-3.1-405B został uznany za człowieka w 56% przypadków, natomiast ELIZA i GPT-4o zmyliły uczestników odpowiednio w 23% i 21% przypadków. Warto podkreślić, że samo badanie, o którym mowa zostało opublikowane jako preprint i nie przeszło jeszcze recenzji naukowej. Wątpliwości może też budzić krótki, pięciominutowy czas trwania interakcji oraz fakt, że LLM-y były zachęcane do przyjęcia określonej persony, co mogło wpłynąć na wyniki.

Czytaj też: ChatGPT ma teraz super pojemny mózg. Może zapamiętać całą historię rozmowy z użytkownikiem

Nie ma jednego ‘najlepszego’ sposobu mierzenia inteligencji modeli AI – wszystko zależy od kontekstu i celu oceny. Testy benchmarkowe (np. MMLU, GLUE, SuperGLUE) mierzą wydajność w konkretnych zadaniach, jak rozumienie tekstu, logika czy wiedza ogólna. Są obiektywne, ale ograniczone do zdefiniowanych zestawów danych. Metryki zadaniowe (recall, F1-score czy BLEU dla konkretnych aplikacji są dobre dla wąskich zadań, ale nie pokazują ogólnej inteligencji. Testy rozumowania (np. BIG-Bench, ARC) oceniają zdolność do logicznego myślenia, rozwiązywania problemów i generalizacji, ale są lepsze dla oceny kreatywności i elastyczności. Najlepiej łączyć różne metody – benchmarki dla obiektywności, testy rozumowania dla głębi i interakcje z użytkownikami dla praktycznej użyteczności.