W obu przypadkach ofiarą informacyjnego głodu pada nasze prawo do prywatności. Również wojsko i korporacje finansowe oraz motoryzacyjne od dawna analizują ogromne ilości danych. W wielkich zbiorach danych kryje się wiedza, której ludzki mózg nie jest w stanie dostrzec. Dopiero wysublimowane narzędzia analityczne zdolne identyfikować niewidoczne dla człowieka prawidłowości są w stanie wydobyć takie ukryte informacje na światło dzienne. Przykładowo w ramach realizowanego w USA projektu badawczego stworzono program wspomagający diagnostykę wcześniaków, analizujący w czasie rzeczywistym 16 różnych parametrów życiowych każdego niemowlęcia, takich jak czynność serca czy poziom tlenu we krwi. W efekcie w każdej sekundzie życia dziecka komputer dopisuje do bazy danych 1260 rekordów. Analiza zebranych w ten sposób informacji pozwala rozpoznawać infekcje na 24 godziny przed wystąpieniem jakichkolwiek objawów – lekarz może zareagować szybciej, zwiększając szanse malucha na wyzdrowienie. Big Data nie tylko pomaga ulepszać istniejące rozwiązania, ale także stawia pod znakiem zapytania nasz obraz świata. Z analizy danych wcześniaków wyłoniła się prawidłowość zaprzeczająca uznanej wiedzy medycznej: przed poważną infekcją funkcje życiowe noworodka stabilizują się. Coś, co dotychczas powodowało u lekarzy i rodziców westchnienie ulgi, w przyszłości powinno się traktować jako sygnał ostrzegawczy: uwaga, dzieje się coś niedobrego.
Czeka nas wiele nowych odkryć
Dlaczego w parametrach życiowych dzieci występuje “cisza przed burzą”? Tego nie wiemy. Viktor Mayer-Schönberger, wykładowca z Oksfordzkiego Instytutu Internetowego, przestrzega przed pochopnym wyciąganiem wniosków: “Dzięki Big Data lepiej rozumiemy świat i możemy odkrywać zupełnie nieznane powiązania. Dane mówią nam jednak tylko o korelacji, nie o przyczynowości. Dzięki nim widzimy, co się dzieje – ale nie dlaczego tak się dzieje”. Austriak doradza instytucjom, rządom i przedsiębiorstwom w kwestiach związanych z Big Data i porusza ten temat w dwóch interesujących książkach. Jego zdaniem człowiek często dostrzega jedynie pozorne związki przyczynowo-skutkowe, dające mu iluzję zrozumienia świata. Badania wyrywkowe czy ankiety są jego zdaniem jedynie drogą na skróty, często omijającą prawdę: “W przyszłości będziemy regularnie wykorzystywać korelacje odkryte za sprawą Big Data, żeby skonfrontować z rzeczywistością utarte sądy dotyczące związków przyczynowo-skutkowych”.
Oczywiście poszukiwanie przyczyn frapujących wyników analiz Big Data pozostanie kuszącym wyzwaniem intelektualnym, niekiedy dostarczającym wiele zabawy. Dlaczego pomarańczowe auta miałyby być trwalsze od innych? Start-up Kaggle odkrył tę korelację, badając dane zebrane na przestrzeni 10 lat przez dużego amerykańskiego sprzedawcę używanych samochodów. Czy jaskrawy, rzucający się w oczy kolor sprawia, że pojazdy mają mniej wypadków, dzięki czemu w momencie odsprzedaży są mniej zniszczone? A może ich właściciele to indywidualiści, którzy traktują auto jak swoją wizytówkę i bardziej przykładają się do jego konserwacji?
Korelację można udowodnić matematycznie – w przypadku przyczynowości rzadko się to zdarza. Big Data pomaga podejmować bardziej trafne decyzje, jednak ustalone wyniki trzeba stale weryfikować, gdyż z nowych danych mogą wyłonić się zupełnie inne trendy. Z tego względu koncerny motoryzacyjne raczej nie zaczną nagle produkować tylko pomarańczowych samochodów, a lekarze z pewnością nie zrezygnują ze stabilizowania parametrów życiowych niemowlaków.
Jak sama nazwa wskazuje, Big Data wymaga gromadzenia olbrzymich ilości danych – najlepiej danych w ujednoliconej formie, takich jak parametry pracy maszyny czy metadane komunikacyjne, na przykład numery telefonów. Dziś potrafi my już jednak całkiem skutecznie przetwarzać również informacje o mniej sztywnej strukturze, a nawet dane niestrukturalne. Internetowi giganci, jak Facebook czy Twitter, są w stanie automatycznie wyłapywać trendy czy cechy identyfikujące nawet z nieskładnych wpisów, a następnie wykorzystywać zdobyte informacje do podnoszenia skuteczności reklam i zwiększania własnych profitów. Akceptuje się przy tym pewne niedokładności, gdyż wobec ogromnej ilości danych nie mają one wpływu na ogólne wnioski – a poza tym algorytmy stają się coraz doskonalsze.
Medycyna: Rewolucja w receptach
Na pierwszy rzut oka Big Data polega na wrzuceniu wszystkiego do jednego worka. Kiedy jednak przyjrzymy się temu bliżej, często okazuje się, że jest dokładnie na odwrót. Przykładowo zastosowanie analizy danych w medycynie pozwoli dostosować terapię do potrzeb konkretnego pacjenta. Spersonalizowane leczenie należy do najbardziej obiecujących obszarów informacyjnej rewolucji. Dziś, gdy dopadnie nas przeziębienie, być może otrzymamy receptę na aspirynę. Fatalny błąd polega na tym, że lekarz przepisuje lek na podstawie wytycznych praktyki klinicznej, na przykład jedną tabletkę trzy razy dziennie przez siedem dni. Niezależnie od tego, czy pacjent jest kobietą czy mężczyzną, szczupły czy tęgi, stary czy młody, odporny czy chorowity. Niezależnie od tego, czy poprawa nastąpi po dwóch dniach czy po siedmiu. Dawka przewidziana dla statystycznego pacjenta niemal nigdy nie jest optymalna.
Mayer-Schönberger zapowiada odejście od medycznej urawniłowki: “Metabolizm każdego człowieka jest inny, każdy inaczej reaguje na chorobę. Dotychczas nie mogliśmy uwzględniać tego w leczeniu, gdyż brakowało nam nawet surowych danych, nie mówiąc już o gotowych analizach. To właśnie się zmienia, a efekty dotyczą nie tylko skomplikowanych terapii, ale również banalnych problemów takich jak dozowanie leków”. Aparatura na oddziale neonatologicznym dostarcza ogromnych ilości informacji. Minęły już jednak czasy, kiedy rejestrowanie parametrów organizmu było możliwe jedynie w czasie pobytu w szpitalu. Appy treningowe w smartfonach, sportowe opaski na ramię czy inne “wearables” – czujniki zaszyte w ubraniach lub biżuterii – stale monitorują nasz stan zdrowia. Z tym nowym zjawiskiem wiąże się ruch “Quantified Self”, którego entuzjaści wykorzystują gadżety do mierzenia parametrów ciała, szukając w tym drogi do lepszego poznania samych siebie.
Mając do dyspozycji odpowiednie dane, lekarz jest w stanie porównywać je z podobnymi przypadkami lub jego własną historią choroby. Mayer-Schönberger wie coś o tym z własnego doświadczenia: “Mam podwyższony poziom cholesterolu. Typowa terapia polega na obniżaniu go za pomocą leków. Różne badania wykazały jednak, że ściany moich naczyń krwionośnych są prawidłowe. Moja internistka jest zdania, że mój organizm działa dobrze, a obniżenie poziomu cholesterolu mogłoby wytrącić go z równowagi”. Big Data sprawi, że podobne spersonalizowane scenariusze leczenia staną się codziennością: “Musimy na nowo określić, czym jest choroba. Dawniej uważano, że chory jest ten, kogo parametry życiowe różnią się od przeciętnych. W przyszłości będziemy mówić, że ktoś jest chory, kiedy stan jego organizmu odbiega od własnej normy”.
Dane przemówią do uczniów i nauczycieli
Indywidualizacja to najważniejsza korzyść z zastosowania Big Data również w obszarze edukacji. Podobnie jak każdy pacjent jest inny, różnią się od siebie też uczniowie. A jednak od dziesięcioleci wszyscy uczestniczą w tych samych zajęciach i rozwiązują te same zadania, w tym samym czasie i miejscu. Nowoczesne organizacje edukacyjne, jak stworzony w USA portal Khan Academy, stawiają na zindywidualizowane kształcenie online. Kiedy uczeń ma trudności z rozwiązaniem zadania, do akcji wkracza Big Data: system wyszukuje w bazie danych materiały, które będą mu najbardziej pomocne. Może to być na przykład odpowiednie wyjaśnienie zamieszczone na forum platformy, dobrze oceniane przez innych użytkowników. Dane wspomagają nie tylko uczniów, ale także nauczycieli. Big Data pomaga dopasować przebieg lekcji do potrzeb każdego ucznia. Z drugiej strony również sama platforma edukacyjna “uczy się” i ewoluuje, wykorzystując informacje zwrotne od użytkowników, żeby stać się jeszcze bardziej skuteczną. Podczas gdy pacjent otrzymuje spersonalizowaną receptę, do ucznia trafi a osobista lista zadań. Jeśli na przykład tłumaczenie z łaciny sprawia mu kłopot, system modyfikuje rozkład zajęć i ćwiczy z nim do skutku, a kiedy to nie pomaga – przekazuje podpowiedzi czy nawet zmienia kolejność materiału do przerobienia. Cyfrowy nauczyciel – albo taki z krwi i kości – pokazuje, jak z zadaniem poradzili sobie inni uczniowie, dostarczając inspiracji.
Big Data nie zawsze ma rację
Szczególnie fascynujący aspekt Big Data można postrzegać również jako zagrożenie – dane umożliwiają spojrzenie w szklaną kulę. Kiedy linia lotnicza powinna wymienić silnik samolotu? Historia danych zdradza, czy wartości kluczowych parametrów sygnalizują zbliżającą się awarię. Kupujesz bezzapachowe kosmetyki i 20 innych artykułów z koszyka obliczonego przez wymyślny algorytm? Jesteś w ciąży, a dokładnie w czwartym miesiącu. Z twojego konta na Facebooku można wyczytać, że słuchasz Beyoncé i czytasz Biblię? Uczniowie o takich upodobaniach kończą szkołę średnią z najsłabszymi wynikami – podanie o pracę odrzucone. Preferujesz Beethovena, Radiohead, a z lektur “Lolitę” Nabokova? Zapewne należysz do najlepszych – witaj w naszej firmie! Siedzisz w więzieniu i liczysz na przedterminowe zwolnienie? Przykro nam, twój współczynnik Crime Score (jakkolwiek byłby obliczany) wynosi powyżej 50 proc. – prawdopodobnie wrócisz na drogę przestępstwa.
Z tego rodzaju prognozowaniem mamy do czynienia już od dłuższego czasu. Każdy wie o absurdalnie wysokich stawkach ubezpieczeniowych dla początkujących kierowców. W Europie Zachodniej hitem ostatnich lat są taryfy telematyczne – dopłata maleje, pod warunkiem że zgodzimy się na bieżąco przekazywać ubezpieczalni parametry jazdy. I oczywiście rośnie jeszcze bardziej, jeśli nie jesteśmy zainteresowani taką możliwością. Podobny model może pojawić się w służbie zdrowia: ubezpieczyciel obejmie nas ochroną tylko wówczas, kiedy zobowiążemy się stale nosić opaskę monitorującą puls czy poziom ciśnienia krwi. Modele predykcyjne pomogą też policji – dzięki nim można z wyprzedzeniem przewidzieć miejsce i czas popełnienia przestępstwa, a czasem nawet ocenić, kto je popełni. Jeszcze niedawno była to tylko futurystyczna wizja rodem z filmu “Raport mniejszości” Spielberga – dziś podobne systemy wykorzystują stróże prawa z Londynu, Zurychu czy Chicago.
Problem z analizą predykcyjną polega na tym, że daje ona zerom i jedynkom prymat, zatem ludzkie doświadczenie oraz intuicja schodzą na dalszy plan. To oblicze Big Data ogranicza wolność myśli i czyni nas więźniami własnej przeszłości, zachęcając do prewencyjnej autocenzury. Ten, kto dziś szuka w Sieci informacji o legalizacji marihuany, jutro może mieć problem z otrzymaniem prawa jazdy. Zadecydują o tym tajemnicze korelacje, od których nie przysługuje odwołanie. Związane z tym uczucie bezsilności znają ci, którym mimo dobrych intencji nie udało się uzyskać amerykańskiej wizy. Szczególnie poważne skutki ma zastosowanie Big Data w przypadku oceny zdolności kredytowej. Chcąc wziąć kredyt, poddajemy się procedurze prześwietlenia przez niejawny algorytm, uwzględniający przede wszystkim historyczne wartości prawdopodobieństwa. Czy nasz “bliźniak” – osoba o podobnej charakterystyce – był niesolidnym dłużnikiem? Jeśli tak, my też nim będziemy. Koniec dyskusji. Określenia “bliźniak” nie należy zresztą traktować zbyt dosłownie – w niektórych krajach wystarczy ponoć mieszkać w nieodpowiedniej dzielnicy, by otrzymać od banku odmowną decyzję.
Inni “prorocy zdolności kredytowej” uwzględniają w ocenie używany przez klienta system operacyjny oraz model notebooka czy smartfonu. Nawet niewłaściwi znajomi w portalach społecznościowych mogą kosztować nas prawo do kredytu – chcesz pieniędzy, zakończ wszystkie podejrzane znajomości! Ostatni krzyk mody to analizowanie statusu związku na Facebooku: kto wybierze opcję “w związku małżeńskim”, odpada w przedbiegach. Nie dlatego, że małżonkowie częściej migają się od spłaty zobowiązań – algorytm zwyczajnie nie lubi tych, którzy zbyt wylewnie dzielą się swoimi prywatnymi sprawami. Paradoksalnie jednak ci, którzy nie podają na profilu żadnych danych, są dla niego jeszcze mniej wiarygodni. Takie szufladkowanie ludzi spotyka się z coraz głośniejszą krytyką. Viktor Mayer-Schönberger, jako pisarz i naukowiec, zajmuje się również etycznymi i filozoficznymi aspektami Big Data. Jest on zwolennikiem prawa do cyfrowej amnezji – opatrywania danych datą ważności. “Zasada jest prosta: zapisując czy przesyłając cyfrowe dane, obok nazwy i innych atrybutów nadajemy im dowolnie wybrany znacznik czasu wyznaczający koniec okresu ich przechowywania. Wprowadzoną datę można później dowolnie przesuwać, ale po jej upływie informacja zostaje bezpowrotnie skasowana”.
Z takim podejściem do problemu wiąże się istotna korzyść: poprawiłaby się jakość dostępnych danych, gdyż byłyby one bardziej aktualne. Możliwość zastosowania go w praktyce stoi jednak pod znakiem zapytania, gdyż firmy budujące swoją pozycję w oparciu o Big Data postrzegają je raczej jako zagrożenie, a sami użytkownicy zostaliby zmuszeni do znacznie bardziej przemyślanego obchodzenia się z danymi. Bardziej realistyczna wydaje się druga koncepcja Mayer-Schönbergera: naukowiec proponuje, żeby nie obciążać pierwotnego właściciela odpowiedzialnością za dane i sposób ich wykorzystywania, ale przenieść ją na ich obecnego użytkownika. Dla koncernów oznaczałoby to, że mogą przetwarzać dane klientów i na tym zarabiać, ale odpowiadają przy tym za ewentualne nadużycia. Wprawdzie wiązałoby się to z pogrzebaniem prawa do informacyjnego samostanowienia – ale czy i tak nie jest ono martwe? Wydaje się, że powszechny dostęp do informacji oraz narzędzi do ich agregowania i analizowania wymaga zupełnie nowych rozwiązań prawnych – i lepiej, żeby powstały one jak najszybciej. W przeciwnym razie nieuregulowane korzystanie z Big Data może zmienić nasz świat w niepożądany sposób, a wynikające z tego szkody dla demokratycznego społeczeństwa będą trudne do naprawienia.
Już dziś analitycy danych mają swój udział w kształtowaniu globalnej polityki. W amerykańskich wyborach prezydenckich w 2012 roku Partia Demokratyczna dążyła do reelekcji Baracka Obamy, nie rozważając innych kandydatów, co dało jego sztabowi dość czasu na opracowanie sprytnej strategii. Szef jego kampanii,Jim Messina, wykorzystał metody z dziedziny analityki biznesowej, zatrudniając niemal 50 specjalistów od przetwarzania danych. Ich celem było zapewnienie Obamie zwycięstwa w większości spośród ośmiu niepewnych “swing states” – były one języczkiem u wagi, który miał dać prezydenturę jednemu z kandydatów. Analitycy Obamy wzięli pod lupę szczegółowe dane dotyczące poszczególnych okręgów wyborczych, wyłuskując z nich korelacje pomiędzy preferencjami politycznymi a danymi socjologiczno-demograficznymi ich mieszkańców. W ten sposób udało się opisać niezdecydowanych wyborców i stworzyć ich profile statystyczne. Przygotowano również wyrafinowany algorytm uwzględniający około 100 cech – ten umożliwił wytypowanie konkretnych osób, które należało przekonać do głosowania na Obamę. Później wystarczyło już tylko zadbać o dobrą komunikację z niezdecydowanymi: począwszy od marketingowych emaili poprzez wiadomości na Facebooku i Twitterze aż po odwiedzanie ich w domach. Ostatecznie Obama przeciągnął na swoją stronę siedem spośród ośmiu niepewnych stanów i pozostał w Białym Domu na kolejną kadencję.
Czy zdołamy uciec przed Big Data?
Skoro Big Data już dziś pozwala naruszyć tajemnicę wyborczą i wyznacza prezydentów, zapewne nie wyczerpuje to potencjału analityków. Szef Human Dynamics Laboratory na uniwersytecie MIT w Bostonie Alex Pentland zamierza najpierw wykorzystać analizę danych do badania społeczeństw, a później również do ich kształtowania. Kiedy maszyna z określonym prawdopodobieństwem przewidzi, że konkretne osoby czy grupy społeczne wymkną się spod kontroli, dostarczy się im bodźców zachęcających do zmiany zachowania. Tresowanie ludzi za pomocą znanej z psychologii metody warunkowania – bodziec, reakcja i nagroda – byłoby dystopijnym koszmarem nawet wówczas, gdyby pominąć jej drugą stronę: wzmocnienie negatywne, czyli mechanizm karania za niepożądane zachowania. Ciągła optymalizacja musiałaby przecież w pewnym momencie odrzeć ludzkość z jakichkolwiek różnic.
Strach przed społeczną uniformizacją ma uzasadnienie, jednak wciąż mamy szansę skierować Big Data na właściwsze tory. Korelacje i modele nie są przecież tym, co kształtuje kreatywność i wyobraźnię. Mark Zuckerberg, którego jako założyciela Facebooka trzeba zaliczyć do pionierów i największych wygranych informacyjnej rewolucji, miał szczęście, że kiedy w 2002 roku zaczynał studia na Harvardzie, nie znano jeszcze analizy predykcyjnej. Gdyby było inaczej, dobry algorytm zapewne wyłapywałby studentów, którzy nie uzyskają dyplomu. Wówczas Zuckerberg nie zostałby przyjęty na elitarną uczelnię i nie miałby do dyspozycji jej infrastruktury, która pozwoliła mu w zaciszu akademika dokonać epokowego przełomu społecznościowego. Założyciel Facebooka odniósł sukces, bo łamał reguły – ale czy algorytm by to zrozumiał?
Sam Harvard też skorzystał na tym, że nie odrzucił na podstawie algorytmu podania kandydata, który miał później przerwać studia. Historia sukcesu Zuckerberga odmieniła publiczny wizerunek konserwatywnej kuźni białych kołnierzyków, która dziś uchodzi za Eldorado dla internetowych geniuszy i w zakresie badań technologicznych może równać się z MIT czy Uniwersytetem Stanforda. Nie każdy ma szanse zostać drugim Zuckerbergiem, Picassem czy Ellą Fitzgerald. Korzystając z wolności obywatelskich, upominając się o własne prawa i nie bojąc się występować z szeregu, możemy jednak odmienić obraz rzeczywistości wyłaniający się z Big Data. A może powinniśmy przełamać lęk i pozwolić danym mówić. Czy ktoś na świecie potrafi stworzyć model i algorytm, który przewidzi, jak będzie wyglądała przyszłość ludzkości, i podpowie, co zrobić, kiedy coś pójdzie nie tak?