O co dokładnie chodzi? We współpracy z fundacją Wikimedia, Meta AI – laboratorium badawczo-rozwojowe związane z Facebookiem – stworzyła potencjalnie przełomowy model uczenia maszynowego. Umożliwia on automatyczne skanowanie setek tysięcy cytatów jednocześnie, aby sprawdzić, czy potwierdzają one to, co zostało zawarte w artykule.
Czytaj też: Komisja Europejska chce „otworzyć” Apple i Facebooka. Czy przepisy idą zbyt daleko?
Narzędzie zostało jak na razie przeszkolone z wykorzystaniem 4 milionów cytatów z Wikipedii. Po takim treningu jest ono w stanie skutecznie przeanalizować informacje odpowiadające cytatowi, by później powiązać je z odpowiednimi dowodami. I to w zaskakująco zaawansowany sposób, jak wyjaśnia Fabio Petroni, jeden z członków zespołu.
To co zrobiliśmy w przypadku tych modeli, to zbudowanie indeksu wszystkich stron internetowych poprzez podzielenie ich na fragmenty i zapewnienie dokładnej reprezentacji dla każdego fragmentu. […] Nie chodzi o reprezentowanie słowo po słowie fragmentu, ale jego znaczenia. Oznacza to, że dwa kawałki tekstu o podobnych znaczeniach będą reprezentowane w bardzo bliskiej pozycji w wynikowej n-wymiarowej przestrzeni, w której przechowywane są wszystkie te fragmenty. opisuje Petroni
Wikipedia ma wykorzystywać narzędzia zapewniające weryfikację publikowanych informacji
Opisywane narzędzie może nie tylko wykrywać fałszywe cytaty, ale również sugerować bardziej pasujące odniesienia. W efekcie można byłoby je wykorzystać do poszukiwania takich “potwierdzeń”, które byłyby najbardziej odpowiednie. Mimo to trudno mówić o końcu projektu, ponieważ wymaga on jeszcze nieco usprawnień. Jak na razie brakuje mu bowiem jeszcze wystarczającej funkcjonalności.
Plany na przyszłość są ambitne, gdyż w grę wchodzi nie tylko tworzenie odnośników w formie tekstów, ale i multimediów. Wyobraźmy więc sobie, iż sztuczna inteligencja – zamiast słownego odniesienia – potwierdza dany fragment tekstu filmem zamieszczonym na przykład w YouTube.
Czytaj też: Gmail już wkrótce przejdzie metamorfozę
Osobną kwestię stanowi natomiast wiarygodność poszczególnych domen. Te musiałyby zostać skatalogowane tak, by narzędzie miało dostęp do sprawdzonych źródeł. Wikipedia prawdopodobnie posiada już taką listę, które są uważane za godne zaufania. Oraz takich, które zdecydowanie nie powinny być używane. Oczywiście znacznie lepszym rozwiązaniem byłoby zastosowanie działających na bieżąco algorytmów, zamiast “zamykania” się w twardych ramach. Jak będzie w praktyce? Przekonamy się w najbliższym czasie.