W tym momencie udało się już zebrać materiały z około 160 milionów polskojęzycznych dokumentów. Docelowo naukowcy planują zeskanowanie wszystkich polskich tekstów internetowych, a następnie przeprowadzanie bieżących aktualizacji.
Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego internetu — twierdzi prof. Jacek Koronacki, dyrektor IPI PAN, który kieruje całym projektem. Według niego globalne wyszukiwarki obejmują jedynie ok. 20 procent polskich dokumentów internetowych.
Co ciekawe, problemem nie jest objętość zgromadzonych materiałów, ponieważ po skompresowaniu zajmują one zaledwie ok. 3 terabajty. Większą trudność sprawia bieżące opisywanie i porządkowanie gromadzonych danych.
Silnik wyszukiwarki działa według zupełnie innych algorytmów niż ma to miejsce w przypadku najważniejszych wyszukiwarek globalnych. Jak wyjaśnia prof. Koronacki:
Te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka.
Podkreśla także, że Nekst będzie pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka.
Polska wyszukiwarka nie będzie polegała jedynie na odnajdywaniu na stronach określonych ciągów znaków, czyli słów kluczowych. Zamiast tego przeprowadzać będzie analizy gromadzonych tekstów pod kątem najczęściej pojawiających się słów i wyrażeń wielosłownych, a przez to określać ich tematykę. Dlatego, znając wpisane słowo lub frazę poszukiwaną przez internautę, wyszukiwarka może z jednej strony doprecyzować wyniki poszukiwać, zadając mu pytania konkretyzujące, a z drugiej – pokazać również te strony internetowe, w których dana fraza się nie pojawia, ale które odpowiadają tematycznie poszukiwanym treściom. Formułowanie pytań ma być przy tym bardzo naturalne, zbliżone do zwykłego języka, którym posługujemy się na co dzień.
I jeszcze jedna ciekawostka – badacze starają się także, aby Nekst potrafił analizować emocjonalne nacechowanie wyszukiwanych treści. Jeśli się to powiedzie, odpowiedni mechanizm rozpozna na przykład, czy o przedmiocie poszukiwań treści na danej stronie wypowiadają się w pozytywny lub negatywny sposób. Trwają też pracę nad systemem analizującym treść materiałów graficznych oraz mechanizmem wykrywającym plagiaty.
Zdjęcie mężczyzny z lupą pochodzi z serwisu Shutterstock.