Co cię zdradzi w sieci?

10 miliardów kęsów

Michał Rolecki: Na czym polega działanie JSA?

Dr Marek Kozłowski: W skrócie: dzielimy tekst na krótsze fragmenty, pięcio-, dziesięcio- albo dwudziestozdaniowe, tak zwane kęsy, a potem szukamy podobieństw między nimi a fragmentami o analogicznej długości, które mamy już w bazie danych. Jest z czym porównywać, bo takich mikrodokumentów zebraliśmy już ponad 10 miliardów. Te miliardy kęsów pochodzą z dziesięciu wielkich baz danych, m.in. z Ogólnopolskiego Repozytorium Prac Dyplomowych (ponad 3 mln), bazy NEKST (900 mln dokumentów z polskiego internetu), sześciu wersji językowych Wikipedii (w tym polskiej), baz aktów prawnych czy aktualnie zbieranych artykułów OpenAccess.

plagiat — Nasz rozmówca dr Marek Kozłowski z Laboratorium Inżynierii Lingwistycznej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego. (fot. Artur Traczyk)

Szósty zmysł systemu

Systemu nie da się oszukać, np. zmieniając szyk słów czy zastępując jedne słowa innymi. JSA, rozbijając tekst na poszczególne słowa, tworzy z nich bowiem nieuporządkowane kolekcje elementów. I dopiero takie zbiory są porównywane z tekstami źródłowymi.

Ale na tym nie koniec. „Szóstym zmysłem”, który czyni system jeszcze bardziej precyzyjnym, jest badanie stylometryczne czy, mówiąc inaczej – stylometryczne profilowanie behawioralne. Najprościej rzecz ujmując, to badanie stylu, jakim został napisany tekst – i wyciąganie z tego wniosków na temat autora. Nie mamy więcej danych na temat stylu autora niż ta jego praca, którą właśnie analizujemy. Możemy jednak wyszukać fragmenty, które odbiegają od uśrednionego stylu całej pracy. Oczywiście zakładając, że praca ma dominujący styl – mówi dr Kozłowski. Fragmenty odbiegające od normy są podświetlane.

Odcisk palca w każdym tekście

MR: Na czym w takim razie polega stylometryczne profilowanie behawioralne?

Dr Marek Kozłowski: Przez całe swoje życie każdy z nas wykształca charakterystyczny tylko dla siebie styl pisania. Dlatego jako czytelnikom intuicja często podpowiada nam, że jakieś teksty napisała ta sama osoba – albo że tekst ma innego autora niż człowiek, który się pod nim podpisał. Widzimy przecież, jakich kto używa zwrotów, w jaki sposób zwykle formułuje szyk zdania, jak używa interpunkcji itd.

My robimy to intuicyjnie, gdy czytamy tekst. Natomiast maszyna musi mieć pewne dane wejściowe, na których podstawie porównuje te elementy w czasie. Musi mieć przestrzeń cech, w której tworzy sobie pewne wektory (czyli uporządkowane zbiory cech). Opisują one profil danej osoby, a kolejne teksty są z tym profilem porównywane. I właśnie to nazywamy stylometrycznym profilowaniem behawioralnym. Tworzymy profil behawioralny, czyli dotyczący zachowania osoby. A konkretnie tego, w jaki sposób używa ona języka pisanego.

MR: O jakie właściwie cechy chodzi?

Na przykład o to, że jedni wolą zdania krótsze (wtedy w tekście pojawi się więcej kropek i wielkich liter), inni zaś dłuższe, złożone (stosują zatem więcej przecinków, a kropek i wielkich liter mniej). Albo o preferowanie określonych części mowy: jedni lubią rzeczowniki, podczas gdy w tekstach innych będzie więcej czasowników. Zaimki też mają znaczenie. U jednych autorów częściej pojawiać się będzie „ja”, u innych „ty”, a u jeszcze innych „my” bądź „wy”.

Zwierciadło twoich myśli

Analizie poddać można także przyimki (każdy ma ulubione), bądź czy częstotliwość występowania przymiotników bądź imiesłowów przy rzeczownikach. To wszystko są cechy, które opisują naszą strukturę formułowania myśli. Algorytm tworzy zbiory tych cech – dodaje Kozłowski.

Gdy zbierze się wystarczająco dużo tekstów napisanych przez daną osobę, maszyna może nauczyć się rozpoznawać jej indywidualny styl wyrażania.

Podstawowe elementy stylu każdego z nas formują się już między 14. a 16. rokiem życia, natomiast ostatecznie krystalizują się w okolicach matury czy pierwszego roku studiów. Później zmienia się niewiele – i tylko pod warunkiem, że człowiek nad swoim stylem świadomie pracuje (jak czynią np. pisarze czy dziennikarze). Według psychologów po dwudziestce przeciętny człowiek nabiera większej płynności pisania, zwiększa się zasób jego słów, lecz styl jego języka w zasadzie pozostaje ten sam. Zmiany, owszem, pojawiają się, ale statystycznie rzecz biorąc są nieistotne – zaznacza Kozłowski. – To co najwyżej dziesięcioprocentowe wahnięcia pewnych cech w jedną lub drugą stronę.

Systemu nie da się oszukać, np. zmieniając szyk słów czy zastępując jedne słowa innymi. JSA rozbijając tekst na poszczególne słowa, tworzy z nich bowiem nieuporządkowane kolekcje elementów.

Duński pisarz-duch

Ghostwriter to ktoś, kto pisze dzieło na czyjeś zamówienie, a po wykonaniu pracy godzi się, by to zamawiający podawał się za autora. Tymczasem oparty na sztucznej inteligencji program o tej właśnie nazwie, który stworzyli naukowcy z Wydziału Informatyki Uniwersytetu Kopenhaskiego, od wiosny pomaga w walce z pisaniem na zlecenie na rzecz uczniów duńskich szkół. W ostatnich latach zjawisko to osiągnęło rozmiary plagi. W internecie powstała nawet specjalna strona, Den Blå Avis, na której uczniowie ogłaszają przetargi na swoje zadania pisemne.

Algorytm informatyków z Kopenhagi korzysta z profilowania behawioralnego i analizuje każdą pracę pod kątem jej podobieństwa językowego względem wcześniejszych prac tego samego autora. Bazuje na 130 tysiącach prac napisanych 10 tys. uczniów. Twórcy Ghostwritera twierdzą, że ich program można wykorzystać także do wykrywania fałszerstw dokumentów – czyli tam, gdzie do tej pory potrzebna była ludzka intuicja albo żmudne badania biegłych.

Jedyny słaby punkt

Jednak profilowanie behawioralne ma też swój słaby punkt: ludzie w depresji zmieniają styl swego języka – i nie chodzi tu wcale o wyrażanie przygnębienia lub smutku. W depresji zmienia się cała perspektywa postrzegania świata.

Jak wynika z badań, człowiek w depresji rzadziej używa drugiej i trzeciej osoby („on”, „ona”, „oni”), za to znacznie częściej pierwszej („ja”). Jego świat staje się monochromatyczny, pozbawiony odcieni i niuansów, więc częściej używa słów takich jak „zawsze”, „nic”, „całkiem” czy „zupełnie”, to znaczy bezwzględnie kategoryzujących.

Tyle że algorytm i to może ujawnić, stwierdzając, że mamy depresję, a potem uwzględnić ten fakt w analizie naszego tekstu.

Ostatnie sito i alerty

Ostatnie sito JSA ujawnia ewidentne manipulacje, które miałyby maskować zapożyczenia. To tzw. wykrywanie białych znaków (zaznaczanie fragmentu tekstu przez autora na biało, by nie był widoczny) i mikrospacji (usuwanie spacji spomiędzy wyrazów i tworzenie zbitek, np. „tobyłokłamstwo”). Na koniec system ustala wartość alertów ostrzegawczego i alarmowego. Domyślnie (każda uczelnia, a nawet wydział może dopasować te parametry do własnych standardów) pierwszy z nich został ustawiony na 40, a drugi na 70 proc. podobieństwa badanej pracy do innych materiałów.

Z naszych badań wynika, że to wartości optymalne. Prace dyplomowe cytują źródła naukowe w różny sposób, stosują różne metodologie, dlatego ocena JSA nie jest ostatecznym wyrokiem. Nasz system ma być wsparciem dla promotora i to do niego należy ocena, czy badana praca jest plagiatem, czy może zapożyczenia są uzasadnione.

250 sekund, 100 serwerów, 40 terabajtów

Na mocy nowelizacji ustawy „Prawo o szkolnictwie wyższym” od początku 2019 roku każda pisemna praca dyplomowa przed dopuszczeniem do obrony musi zostać sprawdzona przez JSA. Z systemu skorzystało już prawie 350 polskich uczelni. Do ubiegłego roku przed wejściem JSA w życie uczelnie używały różnych systemów, jak Genuino, OSA czy Plagiat.pl. Jednak porównywały one nowo powstające prace tylko z ograniczonymi zbiorami prac danej uczelni lub federacji uczelni korzystających z tego samego systemu. Istniała więc możliwość bezkarnego splagiatowania pracy z innej uczelni.

Analiza pracy pod kątem zapożyczeń trwa średnio 250 sekund. Wykonuje ją klaster 100 serwerów, który zarządza ponad 40 terabajtami danych. System wykrył podejrzanie dużą ilość tekstu zapożyczonego z innych źródeł w niemal 10 tysiącach przypadków.

Około 8 procent prac studentów przekroczyło próg ostrzegawczy, który wskazuje, że 40 procent tekstu jest podobne do innych znajdujących się w bazie. Kolejne 2,5 procent prac przekroczyło próg alarmowy; w ich przypadku współczynnik podobieństwa wynosił 70 procent – mówi Kozłowski.

PRZYKŁAD NR 1. POLSCY PROFESORZY NA LIŚCIE PLAGIATORÓW – CZERWIEC 2019

W bazie rosyjskie organizacji Dissernet zajmującym się plagiatami w pracach naukowych pojawiły się nazwiska trzech polskich naukowców – dr hab. Bogdana Ślusarza, dr hab. inż. Leszka Karczewskiego oraz dr hab. Macieja Gitlinga. Według Gazety Wyborczej, która opisała tę sprawę rekordzistą w kwestii pożyczonych fragmentów okazał się dr Karczewski: na 378 stronach jego pracy „Fenomen człowieka organizacyjnego” tylko 109 stron było stronami autorskimi. Reszta to mniej lub bardziej intensywne “zapożyczenia” z prac innych naukowców.

Tabela zapożyczeń. Strony zaznaczone kolorem (każdy kwadrat z numerkiem to inna strona) to te, które program rosyjskiej organizacji walczącej z plagiatami zaznaczył jako zawierające procentowo największą ilość “pożyczonego” tekstu.

Lajki, czyli cała prawda o tobie

Co znamienne, ślady, które po sobie pozostawiamy w internecie, mogące posłużyć do wytropienia nas, mają nie tylko postać tekstów. Nie musisz nic pisać. Wystarczy, byś kliknął. I nie chodzi tylko o internetowe ciasteczka, czyli pliki cookies, na podstawie których algorytmy tworzą profile konsumentów.

Sześć lat temu naukowcy z uniwersytetów Stanforda i Cambridge wykazali, że algorytm może odgadnąć płeć czy poglądy polityczne dowolnej osoby tylko na podstawie polubień, jakie daje ona na Facebooku. W dwóch przypadkach na trzy trafnie przewidywał stan cywilny, w czterech na pięć wyznanie, a orientację seksualną w niemal dziewięciu na dziesięć (odpowiednio: 65, 82 i 88 proc. dokładności).

W 2015 roku zespół z Cambridge, w którego składzie znalazł się polski badacz, dr Michał Kosiński, dowiódł, że ślad, jaki pozostawiasz w sieci, pozwala określić twój typ osobowości. Już dziesięć lajków wystarczy, by algorytm zidentyfikował ją trafniej niż twoi koledzy czy koleżanki z pracy, a kilkadziesiąt – precyzyjniej od współlokatora. 150 lajków czyni z komputera lepszego znawcę ciebie od członka twej rodziny, a 300 – od partnera czy partnerki.

Playlista: czy jesteś inteligentny?

Na podstawie analizy twoich polubień inteligentne algorytmy mogą określić to, co psychologowie nazywają „wielką piątką” osobowości, czyli nasilenie lub osłabienie stanów neurotycznych, ekstrawersji, otwartości na doświadczenia, ugodowości i sumienności. Ludzie nie zdają sobie sprawy, jak dużo można się o nich dowiedzieć na tylko podstawie profilu na Facebooku, bądź tego, co można znaleźć na Spotify czy Youtubie. Myślisz sobie: najwyżej ktoś się dowie, czego słucham. Tymczasem z playlisty na Spotify po komputerowej analizie można “wycisnąć” sporo danych dodatkowych, np. określających osobowość, inteligencję, wyznanie, poglądy polityczne, orientację seksualną – komentował wyniki tych badań Michał Kosiński. Układając odpowiednią kombinację takich cech można cię znaleźć nawet w morzu wielu milionów innych osób.

PRZYKŁAD NR 2. AFERA ŻELKOWA, CZYLI “REKIN I BARAN” – WRZESIEŃ 2019

Alda Sigmundsdóttir, autorka książki „The Little Book of the Icelanders in the Old Days”, zarzuciła polskim autorom książki “Rekin i baran”, wydanej nakładem Wydawnictwa Poznańskiego, nadmierną inspirację jej dziełem. Internauci, a szczególnie bywalcy serwisu Lubimy czytać znaleźli wiele podobieństw, które mogą dowodzić, że Islandka ma rację. Przy okazji doszukali się zapożyczeń z przewodnika National Geographic oraz strony firmy Haribo.
Wydawnictwo Poznańskie całkiem rozsądnie zauważyło, że mimo największej staranności nie jest w stanie znać całej literatury światowej i próbowało dojść do porozumienia z Aldą Sigmundsdóttir. Być może stałą praktyką każdego współczesnego wydawnictwa stanie się korzystanie z JSA.

https://www.facebook.com/AldaSigmundsdottir/photos/a.150387311975692/959082921106123/?type=3&theater

Czarna skrzynka: umie, ale nie rozumie

MR: To, że maszynowe algorytmy mogą rozpoznać nasze ślady w internecie nie oznacza jednak wcale, że cokolwiek z tego rozumieją.

Dr Kozłowski: Maszyny są doskonałe w generalizacjach. Mogą z tekstu odczytać stylometryczny odcisk palca autora, mogą rozpoznać, co znajduje się na zdjęciu, i to poprawnie to opisać. Ale nie potrafią wyciągać logicznych wniosków ani wytłumaczyć, jak do wniosków dochodzą. Dajemy im zdjęcie – i pstryk, opiszą: „pies i kot jadą na deskorolce”. To wszystko działa bardzo fajnie, bo algorytm nauczył się rozpoznawać psy, koty i deskorolki na milionach przykładów. Ale zupełnie nie wiedzą, że pies i kot są żywe, a deskorolka służy ludziom do jeżdżenia. Sieci neuronowe są dla nas czarnymi skrzynkami. Wykonują na naszą rzecz pewne zadania, ale nie mamy pojęcia, jak to robią. Podam przykład algorytmu, który powstał w naszym laboratorium: na podstawie analizy treści komentarzy internautów przewidzi parlamentarnych. Jak to możliwe, skoro tak wielu starszych wyborców nie udziela się w internecie? Nie wiadomo. | CHIP

Materiał autorstwa Michała Roleckiego z serwisu sztucznainteligencja.org.pl został opublikowany w ramach współpracy z CHIP.pl, której celem jest popularyzacja wiedzy o sztucznej inteligencji w Polsce.

Portal sztucznainteligencja.org.pl to pierwszy portal poświęcony w całości tematyce SI. Został stworzony przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, działa niekomercyjnie.