Jürgen Schmidhuber od zawsze wiedział, czym chce się zajmować. Kiedy w latach 80. jego rówieśników emocjonowały rozgrywki Bundesligi, on nie rozpoznawał nawet najpopularniejszych piłkarzy – za to bez reszty pochłaniała go fantastyka naukowa, a szczególnie idea sztucznej inteligencji. To zamiłowanie zaprowadziło go na renomowany Monachijski Uniwersytet Techniczny, gdzie studiował informatykę i matematykę, po czym już w wieku 30 lat uzyskał habilitację. Od 1995 jest współdyrektorem Szwajcarskiego Instytutu Badań nad Sztuczną Inteligencją IDSIA w Lugano, gdzie wraz ze studentami uczy maszyny myślenia.
Temu 53-latkowi trudno odmówić dystansu do siebie. Na wykładach chętnie opowiada, że już w wieku 15 lat chciał budować roboty, które byłyby mądrzejsze niż on sam: “Moi koledzy mówili, że nie może to być zbyt trudne”. Zadanie okazało się jednak niełatwe. Po pierwsze dlatego, że Schmidhuber jest genialnym naukowcem o niewiarygodnej kreatywności. Po drugie mimo wysiłków badaczy maszyny – zamiast uczyć się niczym prymusi – wciąż siedzą w oślej ławce. Trudno jednak nie dostrzegać imponującego postępu, jaki dokonał się w ostatnich dekadach. Jego świadectwem są na przykład rekurencyjne sieci neuronowe (RNN), radzące sobie z coraz większą liczbą problemów, które dotychczas pozostawały domeną ludzkiej inteligencji, takich jak rozpoznawanie mowy czy pisma odręcznego albo analizowanie zdjęć i materiału wideo. To technologia, która znajduje zastosowanie w medycynie, systemach smartfonowych czy inteligentnych autach oraz na wielu innych polach.
Sieci neuronowe uczą się jak dzieci
Zdaniem Schmidhubera to dopiero początek. “Do przekazania maszynie znajomości języka wystarczy uczenie nadzorowane. W ramach ćwiczeń karmimy naszą rekurencyjną sieć neuronową przykładami, dajmy na to tłumaczeniami obrad Europarlamentu, pokazując oczekiwane rezultaty. Na tej podstawie system poznaje reguły działania. Jeszcze dziesięć lat temu leżało to w sferze science fiction. Potrzeba jednak czegoś więcej, jeżeli chcemy stworzyć uniwersalny system zdolny do rozwiązywania dowolnych problemów, który jak dziecko – albo nasze roboty – bez udziału nauczyciela metodą prób i błędów poznaje sekwencje działań prowadzące do sukcesu”.
Instytut IDSIA wniósł duży wkład w rozwój tej najogólniejszej metody uczenia maszynowego. Niemowlę, kiedy wpadnie na nogę stołu, natychmiast pojmuje, że w przyszłości powinno unikać bolesnych zderzeń. “Bardzo podstawowy cel dziecka polega na tym, żeby do końca życia utrzymywać wskaźniki bólu i głodu na zielonych polach”. Jak tłumaczy Schmidhuber, w przypadku robotów można zastąpić ból ujemnymi wartościami liczbowymi, a nagrodę – dodatnimi. Człowiek uczy się przez dziesiątki lat, stając się złożoną istotą obdarzoną różnymi umiejętnościami. A jak uczą się maszyny? “Nasze systemy są podobnie skonstruowane” – mówi naukowiec. “Nie staramy się odwzorować mózgu ze szczegółami, ale zastanawiamy się, czego potrzebuje optymalny system do rozwiązywania problemów. Jednakże połączenia wewnątrz sieci neuronowej ewoluują podobnie jak synapsy tworzące mózg – w taki sposób, że ich współpraca przynosi dobre rezultaty”.
Działające głębokie sieci neuronowe istnieją od dawna, lecz dopiero obecnie przeżywają rozkwit. Zdaniem Schmidhubera “to zasługa przede wszystkim wzrostu mocy obliczeniowej. Co dziesięć lat
zwiększa się ona stukrotnie przy tej samej cenie”.
Działające głębokie sieci neuronowe istnieją od dawna, lecz dopiero obecnie przeżywają rozkwit. Zdaniem Schmidhubera “to zasługa przede wszystkim wzrostu mocy obliczeniowej. Co dziesięć lat
zwiększa się ona stukrotnie przy tej samej cenie”.
Bawarskie pomysły w Dolinie Krzemowej
Aby sieć mogła przypomnieć sobie dane dostarczone jej w przeszłości, potrzebuje czegoś w rodzaju pamięci krótkoterminowej, powstałej z połączeń ze sprzężeniem zwrotnym. Początkowo działanie takiej pamięci było niezadowalające: sieć neuronowa nie przechowywała informacji dostatecznie długo. W 1991 roku zagadnienie to przeanalizował pierwszy student Schmidhubera w Monachium Sepp Hochreiter. W 1995 r. Bawarczycy wspólnie opublikowali pracę traktującą o jego rozwiązaniu, czyli tzw. Long Short-Term Memory (LSTM). Inaczej niż tradycyjne sieci rekurencyjne, ta “długa pamięć krótkoterminowa” pamięta nie tylko kilka, ale tysiące, miliony czy nawet więcej wykonanych kroków. W pierwszej dekadzie XXI w. badacze sztucznej inteligencji z IDSIA kontynuowali prace nad tym rozwiązaniem. Dziś Alphabet, Baidu i inne koncerny z branży IT opierają swoje systemy rozpoznawania mowy, tagowania obrazów czy tłumaczenia maszynowego właśnie na sieciach LSTM.
Do Doliny Krzemowej trafiają nie tylko pomysły rodem z IDSIA, ale także absolwenci instytutu. Z kuźni kadr Schmidhubera wywodzi się między innymi jeden ze współzałożycieli oraz część pracowników firmy DeepMind. W ostatnim czasie zyskała ona taki rozgłos, że członkowie jej zespołu mają w świecie sztucznej inteligencji status zbliżony do gwiazd rocka. Od przejęcia przez Alphabet przed dwoma laty pełna nazwa start-upu to Google DeepMind.
Do Doliny Krzemowej trafiają nie tylko pomysły rodem z IDSIA, ale także absolwenci instytutu. Z kuźni kadr Schmidhubera wywodzi się między innymi jeden ze współzałożycieli oraz część pracowników firmy DeepMind. W ostatnim czasie zyskała ona taki rozgłos, że członkowie jej zespołu mają w świecie sztucznej inteligencji status zbliżony do gwiazd rocka. Od przejęcia przez Alphabet przed dwoma laty pełna nazwa start-upu to Google DeepMind.
Jeden z twórców firmy, Demis Hassabis, jest fenomenalnym szachistą – jako trzynastolatek wspiął się na drugą pozycję w światowym rankingu Elo w swojej kategorii wiekowej. Dziś ma 39 lat i, będąc szefem start-upu, za najbardziej wymagającą grę planszową uważa nie szachy, lecz go. Ta tradycyjna azjatycka gra nie jest skomplikowana. Są cztery podstawowe zasady i kilka wariantów różniących się detalami – w gruncie rzeczy to wszystko, co musi wiedzieć gracz. Specjaliści zaliczają go do gier skończonych o sumie zerowej i pełnej informacji. Oznacza to, że przypadek nie ma żadnego wpływu na skuteczność strategii obranej przez gracza, lepszy wygrywa w skończonym czasie, a zysk jednego jest stratą drugiego. Mimo prostoty reguł go należy do najbardziej złożonych gier na świecie. Nic dziwnego, jeśli weźmie się pod uwagę, że plansza obejmująca 19×19 punktów przecięć oferuje znacznie więcej możliwości niż na przykład szachownica licząca 8×8 pól. Każdy ruch oznacza wybór jednej z około 200 opcji, a położenie kamienia w konkretnym punkcie może zadecydować o wyniku gry setki ruchów później.
Go: kolejny triumf sztucznej inteligencji
Podobnie jak w szachach konsekwencji wszystkich kombinacji ruchów w go nie jest w stanie przewidzieć żaden człowiek – ani żadna maszyna. Liczba ułożeń kamieni zgodnych z zasadami gry wynosi nieco więcej niż 2 razy 10 do potęgi 170. To niemało – liczbę wszystkich atomów tworzących wszechświat szacuje się na 10 do potęgi 80. Można byłoby więc zastąpić każdy atom wszechświata nowym wszechświatem, a i tak łączna liczba atomów wciąż byłaby znacznie mniejsza od liczby dozwolonych ułożeń w go. Jakby tego było mało, liczba dozwolonych kombinacji ruchów jest rzędu 10 do potęgi 360. Wytrawny strateg w grze go nie może polegać tylko na rachunku prawdopodobieństwa i zdolnościach matematycznych. Musi wykazać się intuicją, doświadczeniem, szeroką perspektywą oraz kreatywnością i zachować zimną krew, kiedy zorientuje się, że popełnił błąd.
Przez długi czas go pozostawało bastionem ludzkiej inteligencji, gdyż do wygranej nie wystarcza trywialne przeanalizowanie wszystkich albo większości możliwych zagrywek. Aby zwyciężyć, sztuczna inteligencja musi pójść inną drogą. Odkryli ją specjaliści z DeepMind. Trzykrotny mistrz Europy w go Fan Hui uległ ich programowi Alpha Go pięć razy w pięciu partiach. Rozegrano jeszcze drugą, nieoficjalną serię z krótszym czasem na ruch – tym razem komputer wygrał z człowiekiem 3:2. Dla niektórych to zwycięstwo miało większe znaczenie niż wygrana Deep Blue z Garrim Kasparowem dwadzieścia lat temu, która była zasługą czystej mocy obliczeniowej i ogromnej biblioteki scenariuszy rozgrywek. Trafniejsze jest porównanie sukcesu AlphaGo z osiągnięciem sieci neuronowej TDgammon, która już w 1994 r. pokonała ludzkiego mistrza świata w tryktraku, opanowawszy zasady gry bez pomocy nauczyciela.
AlphaGo gra przeciwko sobie
Programiści DeepMind połączyli w aplikacji AlphaGo dwie sieci neuronowe z przeszukiwaniem drzewa gry metodą Monte Carlo. Polega ono na tym, że na bazie aktualnego stanu planszy system analizuje możliwe skutki losowo wybranych ruchów i wybiera ten najbardziej obiecujący.
Ta metoda przeszukiwania drzewa gry nie jest nowa – oparte na niej konwencjonalne programy do go osiągają poziom ambitnych amatorów. Aby komputer mógł dorównać zawodowcom, trzeba było wprowadzić dodatkowo technikę optymalizacji, służącej zredukowaniu liczby przeszukiwanych gałęzi. Właśnie po to potrzebne były sieci neuronowe. Pierwsza, tzw. policy network, zawęża zakres wyszukiwania do potencjalnie najkorzystniejszych ruchów, zaś druga, tzw. value network, w każdej fazie symulacji ocenia aktualny stan gry, żeby ograniczyć głębokość wyszukiwania. Sieci neuronowe uczą się, przetwarzając dane. Na początek twórcy AlphaGo udostępnili sieci policy network bazę zapisów profesjonalnych rozgrywek, obejmującą 30 milionów ruchów. To wystarczyło, żeby program był w stanie przewidywać kolejny ruch przeciwnika z wysoką, 57-procentową trafnością.
“Nie chodziło jednak o to, żeby imitować najlepszych, ale żeby ich pokonać” – tłumaczą projektanci AlphaGo. W tym celu program musiał opracować własne, nowe strategie. Podobnie jak niegdyś TDgammon stoczył tysiące partii, grając przeciwko samemu sobie i otrzymując “nagrodę” za sekwencje działań prowadzące do wygranej. Dzięki uczeniu ze wzmocnieniem sieć policy network osiągnęła taki poziom doskonałości, że bez przeszukiwania drzewa gry była w stanie pokonać inne programy bazujące na bardzo rozległych drzewach. Później sieć policy network zaczęła uczyć tą samą metodą sieć value network, która dzięki temu zyskała zdolność prognozowania wyniku gry przy dowolnym ułożeniu kamieni.
Demis Hassabis uważa, że dzięki AlphaGo sztuczna inteligencja znalazła się o krok bliżej ludzkiego sposobu myślenia. Ta odległość zmniejszyła się jeszcze bardziej między 9 a 15 marca, kiedy program rozgromił Lee Se-dola, najlepszego gracza ostatnich lat. Mistrz był przekonany, że uda mu się pokonać aplikację Google’a, jednak ostatecznie uległ jej w czterech z pięciu partii.
Mniej zasobów, więcej zrozumienia
Do niedawna najmocniejsza konfiguracja programu Alpha Go da- wała mu 3168 punktów w rankingu Elo. Jak widać, sieć neuronowa nie spoczęła na laurach i pokonała mistrza Lee Se-dola
Prostota gry go inspiruje również Jürgena Schmidhubera, który już w 2010 roku wraz ze studentami opublikował pracę na jej temat. Wypełnia ją koncepcja nieskończonych uproszczeń – ciągłego koncentrowania złożonych informacji w krótkiej, eleganckiej formie. Profesor wyjaśnia ją na przykładzie uczenia bez nadzoru. W odróżnieniu od uczenia z nadzorem czy uczenia ze wzmocnieniem polega ono na tym, że sieć neuronowa poszukuje wzorów w zadanym zbiorze danych bez żadnych wskazówek. “Weźmy na przykład film przedstawiający sto spadających jabłek. Łatwo można wydobyć z niego kilka gigabajtów surowych danych. Występuje w nich pewna regularność: jeśli rozumiem działanie grawitacji, jestem w stanie przewidzieć, jak jabłko uderzy w ziemię”.
Dzieci pojmują to w mig. Jürgen Schmidhuber tłumaczy, że sieć neuronowa uczy się w podobny sposób: “Ogląda sekwencję filmową i próbuje przewidzieć, co stanie się dalej. Wie, jak wyglądało dziesięć kolejnych klatek – jaka będzie jedenasta? Wnioskując na podstawie informacji z przeszłości, sieć jest w stanie prognozować przyszłe parametry poszczególnych pikseli. Dzięki temu może kompresować klipy z niebywałą wydajnością, bo musi zapisywać jedynie odchylenia od własnych prognoz”.
Kiedy sieć neuronowa otrzymuje zadanie mocniejszego zaznaczenia rozpoznanych cech obrazu, nabiera on psychodelicznych barw. Google nazywa tę technikę incepcjonizmem.
Uczenie bez nadzoru służy przede wszystkim do nadawania danym bardziej kompaktowej formy. Udaje się to tylko wówczas, kiedy w ich zbiorze występują regularności, na przykład symetrie, powtórzenia czy – jak w przypadku klipu z jabłkami – widoczne działanie niezmiennej grawitacji. Kompresję danych tą metodą można połączyć z uczeniem z nadzorem albo ze wzmocnieniem – w obu przypadkach model predykcyjny świata, uzyskany bez nadzoru, może posłużyć do optymalizacji rozwiązywania problemów. Schmidhuber postrzega całą historię świata przede wszystkim jako historię kompresowania danych. “Odkrywanie wzorów wśród informacji zawsze oznacza, że można kompresować je skuteczniej niż wcześniej”. Obserwując ruch planet, Kepler wysnuł wniosek, że poruszają się one po eliptycznych orbitach, i sformułował prawo opisujące te obserwacje w zwięzły i elegancki sposób. W 1686 roku Newton wywnioskował, że zarówno spadaniem jabłka, jak i ruchem planet kieruje ta sama siła ciążenia – to kolejny poziom kompresji danych. Ponad 200 lat później Einstein zwiększył siłę kompresji danych jeszcze bardziej za sprawą ogólnej teorii względności, która w kompaktowej formie ujmuje również odchylenia od wcześniejszych prognoz Newtona.
“Każda niespójność między obserwacją a prognozą zajmuje pamięć” – tłumaczy Schmidhuber. “Najpiękniejsza, najbardziej elegancka byłaby taka reprezentacja świata, będąca efektem uczenia nienadzorowanego, która odpowiadałaby wciąż nieznanej formule wszystkiego – najkrótszemu algorytmowi pozwalającemu obliczyć, a więc także zrozumieć cały wszechświat”. Kiedy rekurencyjna sieć neuronowa rozpoznaje wzór, wzrasta jej zrozumienie istoty rzeczy. Głębia tego zrozumienia jest mierzalna: “Mogę porównać zasoby niezbędne do zakodowania danych przed i po odkryciu prawidłowości. Jeśli zamiast 5 milionów synaps sieć potrzebuje już tylko 4,95 mln, to nastąpił zauważalny postęp”. W teorii kreatywności i zabawy Schmidhubera ów postęp przynosi mierzalne, możliwe do zmaksymalizowania zadowolenie i daje człowiekowi lub maszynie wewnętrzną motywację do kontynuowania poszukiwań. Dzięki ciągłemu wzrostowi wydajności sprzętu wkrótce uczące się sieci będą liczyły miliardy synaps. Wyniki są coraz bardziej imponujące, choć same algorytmy opisujące proces uczenia się pozostają relatywnie proste. “Również u ludzi algorytm uczenia się jest dość krótki, bo w DNA nie mieści się znowu tak wiele informacji – około czterech miliardów bitów – a tylko ich niewielka część kształtuje mechanizmy myślenia. Kora nowa (ośrodek inteligencji) zajmuje zaledwie kilka milionów bitów”. Jeśli szacunki Schmidhubera są poprawne, kod, który czyni z człowieka fenomenalną maszynę do rozwiązywania problemów, jest znacznie krótszy, niż sądzimy.
Formuła superinteligencji
Stefan Ulan – Zmarły w 1984 r. amerykański naukowiec polskiego pochodzenia, twórca metody symulacyjnej Monte Carlo, w 1958 r. po raz pierwszy użył terminu “osobliwość technologiczna”
Kiedyś formuła inteligencji zostanie uproszczona do tego stopnia, że zrozumie ją przeciętny Kowalski – zaniknie wówczas respekt, jaki czujemy wobec geniuszu. “Kiedy ktoś – może my, może ktoś inny – wydestyluje podstawowe zasady inteligencji, zaczniemy zastanawiać się, dlaczego tak długo nam to zajęło”. Wówczas eksperymentowanie z mniej lub bardziej przemyślanymi funkcjami celu robotów przestanie być domeną ekspertów “i cały świat całkowicie się zmieni”.
Taki postęp może doprowadzić do powstania samodzielnie uczących się maszyn, które będą w stanie ulepszać swoje otoczenie i własną architekturę, pozostawiając ludzki intelekt daleko w tyle. W 1958 roku matematyk Stanisław Ulam po raz pierwszy użył pojęcia technologicznej osobliwości: prędkość postępu technicznego rośnie w tempie wykładniczym i w skończonym czasie dąży do nieskończoności, zaś do krytycznego punktu możemy dojść w nieodległej przyszłości. Wspomniany termin stał się szerzej znany w latach 80. za sprawą książek fantastyczno-naukowych Vernona Vinge’a. Jednak już w pierwszej połowie XX w. teolog Pierre Teilhard de Chardin mówił o “punkcie omega”. Naukowiec-jezuita dostrzegał w osiągnięciu maksymalnej złożoności boskie zwieńczenie kosmicznej historii.
Dobrze współgra z tym bon mot Raya Kurzweila, który zapytany, czy istnieje Bóg, chętnie odpowiada lakonicznym “Jeszcze nie”. Jürgen Schmidhuber nie jest zbyt kategoryczny w swoich spekulacjach na temat przyszłości ludzkości: “Wydaje się jasne, że dotarliśmy do decydującego punktu. Już kilka tysięcy lat ludzkiej cywilizacji było niczym rozbłysk w historii świata – a dopiero teraz nastąpi prawdziwy początek”. Ze spokojem badacza sztucznej inteligencji, którego myśli od lat krążą wokół przyszłości, Schmidhuber – ojciec dwóch córek – prognozuje dramatyczne wydarzenia i, podobnie jak
Kurzweil oraz wielu innych, przewiduje ich kulminację w połowie XXI w. “Za kilka dziesięcioleci będziemy mieli tanie komputery, których moc obliczeniowa przewyższy wszystkie ludzkie mózgi razem wzięte. Będzie to miało wpływ na każdy aspekt naszej cywilizacji. Zmierzamy do końca historii zdominowanej przez człowieka”. W “niezbyt długim” czasie Schmidhuber i jego zespół zamierzają stworzyć sztuczną inteligencję dorównującą… małpie kapucynce.
Ewolucja kształtowała to zwierzę przez ponad trzy miliardy lat, po czym już w ciągu kilkudziesięciu milionów lat – sto razy szybciej – wydała na świat człowieka. Sposób myślenia Schmidhubera jest prosty: “Dla tego, kto odtworzy zdolności kognitywne małpy, kolejny krok zapewne okaże się znacznie łatwiejszy”.