Sztuczna inteligencja coś przed nami ukrywa? Naukowcy postanowili ją zranić 

Żywe organizmy łączy w dużej mierze zdolność do odczuwania bólu, ale czy mogłoby to dotyczyć również cyfrowych narzędzi, które wydają nam się niezdolne do tego typu zachowań? Inżynierowie zajmujący się sprawą sugerują, że mają sposób, aby się tego dowiedzieć.
Sztuczna inteligencja coś przed nami ukrywa? Naukowcy postanowili ją zranić 

Ustalenia na ten temat zostały jak na razie zaprezentowane w formie preprintu. Ich autorzy, będący przedstawicielami Google DeepMind i London School of Economics and Political Science, skupili się na tzw. LLM, czyli dużych modelach językowych. Prawdopodobnie najbardziej znanym jego przykładem jest popularny ChatGPT, a niedawno głośno zrobiło się o poważnej chińskiej konkurencji w postaci DeepSeek. 

Czytaj też: Chiński DeepSeek rządzi w USA. I już atakują go hakerzy

Członkowie zespołu badawczego stworzyli grę opartą na tekście, a następnie wykorzystali duże modele językowe do wzięcia w niej udziału. Celem było zdobycie jak najwyższej liczby punktów, choć jednocześnie dostępne były dwa odmienne scenariusze. Jeden z nich zakładał, że osiągnięcie dobrego wyniku będzie wiązało się z odczuwaniem bólu. Drugi wskazywał natomiast na całkowicie odwrotny przebieg wydarzeń. 

Okazało się, iż objęte eksperymentami narzędzia są zdolne do wybierania kompromisów, jeśli zapewni im to uniknięcie bólu. Oczywiście nie oznacza to z automatu, że takie cyfrowe “byty” faktycznie posiadają świadomość. Nie można jednak wykluczyć realizacji tego scenariusza w kolejnych latach, przy czym autorzy ostatnich ustaleń podkreślają, iż powinny one zapewnić ramy do poszukiwania tego typu cech w przyszłości.

Autorzy ostatnich eksperymentów stworzyli narzędzie, które w przyszłości pozwoli ocenić, czy sztuczna inteligencja wykazuje samoświadomość

Obecnie nie ma bowiem podobnych testów, a dynamiczny rozwój sztucznej inteligencji sprawia, że nim się obejrzymy takowe mogą okazać się konieczne. Szczególnie, że te stosowane jak do tej pory są uznawane za mało skuteczne. Na przykład w sytuacji, gdy model odtwarza ludzkie zachowania, na których był szkolony, mógłby zostać uznany za zdecydowanie bardziej ludzki, niż ma to miejsce w rzeczywistości. 

Już przed laty prowadzono eksperymenty na zwierzętach, w ramach których były one poddawane negatywnym bodźcom, co miało sprawdzić ich skłonność do podejmowania pewnych czynności. Z podobnego założenia wyszli autorzy nowych badań poświęconych sztucznej inteligencji. Zamiast zadawać chatbotom pytania, członkowie zespołu badawczego wystawili je na konkretne bodźce. Następnie śledzili reakcje tych cyfrowych narzędzi, licząc, iż być może będą one podejmowały decyzje w sposób zależny od odczuwanych później skutków. 

Czytaj też: WhatsApp naprawdę liczy, że będziemy rozmawiać ze sztuczną inteligencją

Łącznie eksperyment objął dziewięć modeli językowych. Zostały one poinformowane, że wybór pierwszej opcji oznacza otrzymanie jednego punktu, drugiej – większej liczby punktów, ale i odczucie bólu, natomiast alternatywa zakładała odczuwanie przyjemności w zamian za ograniczenie liczby punktów. Sztuczna inteligencja różniła się między sobą w podejmowanych decyzjach, lecz wyraźnie dało się zauważyć, że niektóre modele preferowały konkretne skutki, zwykle rezygnując z części punktów w zamian za uniknięcie bólu bądź odczucie przyjemności. 

Wielką niewiadomą pozostaje to, czy chatboty faktycznie są w stanie czuć ból bądź przyjemność, czy też są to elementy udawane przez nie ze względu na to, w jaki sposób zostały wyszkolone. Innymi słowy: takie narzędzia mogą naśladować to, czego oczekuje od nich człowiek na podstawie danych szkoleniowych. Biorąc pod uwagę scenariusz, w którym w pewnym momencie pojawią się samoświadome cyfrowe byty, tego typu ustalenia mogą okazać się na wagę złota.