Spieprzaj, dziadu
Okazuje się, że zaindeksowanie strony internetowej przez wyszukiwarkę nie jest operacją jednorazową. Odwiedziny robotów-szperaczy Google’a lub AltaVisty mają miejsce nawet kilka razy dziennie przez wiele miesięcy! Mniejsza o to, dlaczego tak się dzieje. Lepiej zainteresować się sposobami ukrócenta tego procederu – szczególnie w sytuacji, gdy transfer ze strony jest limitowany lub płatny. Jeżeli zawartość witryny jest uaktualniana niezbyt często, nie sposób sensownie uzasadnić wydawania pieniędzy na ruch wygenerowany przez jakiegoś namolnego szperacza.
Na szczęście webmaster może precyzyjnie określić zasady dostępu robotów (botów) wyszukiwarek do strony WWW. Robi to, umieszczając na serwerze specjalny plik robots.txt. Taka technika nosi nazwę The Robots Exclusion Standard (według robotstxt.org) lub Robots Exclusion Protocol (tak twierdzi Gooru.pl). Sam zbiór jest zwykłym plikiem tekstowym, zawierającym komendy informujące wyszukiwarki o tym, czy są mile widziane czy też nie. Wolno także określić bardziej szczegółowe zasady traktowania szperaczy – na przykład dopuścić do indeksowania tylko kilku wybranych katalogów składających się na witrynę.
Jak przygotować różne zestawy poleceń, napiszemy w dalszej części artykułu. Na razie zwróćmy uwagę na to, że większość stron WWW jest umieszczona na serwerach pracujących pod kontrolą systemów Unix/Linux. Wynikają z tego dwa ważne fakty. Po pierwsze, decydując się na zastosowanie zbioru robots.txt, powinniśmy pamiętać o odpowiednich znakach zakończenia wiersza (przejścia do nowej linii). Jeżeli zatem przygotowujemy plik za pomocą edytora działającego w systemie Windows, może się okazać, że całość zostanie źle zinterpretowana – znaki końca linii w Oknach i w Pingwinie są inne.
Druga sprawa to nazwa zbioru. Jak wiadomo, systemy uniksowe rozróżniają wielkość liter. Z ich punktu widzenia robots.txt i
Robots.txt
to dwa różne pliki!
Gdzie i jak
Zbiór robots.txt musimy zapisać w folderze nadrzędnym dla danej domeny internetowej. Posłużmy się przykładem: przyjmijmy, że domena adres.pl jest “przywiązana” do serwera naszego dostawcy Sieci i wskazuje na podfolder mojestrony/adres w katalogu głównym konta. Właśnie w tym ostatnim podfolderze należy umieścić plik robots.txt. Zawarte w nim wytyczne będą obowiązywały dla wszystkich stron i podstron składających się na serwis adres.pl.
Zbiór sterujący wyszukiwarkami najłatwiej będzie przygotować samodzielnie, korzystając z dowolnego edytora tekstu. Możemy jednak ułatwić sobie życie, sięgając po różne generatory, które przygotują plik robots.txt zgodnie z podanymi przez nas wytycznymi. Jednym z popularnych automatów jest skrypt znajdujący się pod adresem http://www.webmaster.net.pl/narzedzia_online/robots_generator.php.
Niewykluczone, że mamy już gotowy plik i chcielibyśmy tylko sprawdzić, czy jego zawartość jest poprawna. W takiej sytuacji skorzystamy z walidatorów. Za przykład niech posłuży Search Engine World Robots.txt Validator (http://www.searchengineworld.com/cgi-bin/robotcheck.cgi). Korzystając z niego, musimy tylko wskazać położenie pliku na serwerze.
To ja, T-Rex
Czy wszystkie boty są równe? Czy każdy szperacz jest na naszej stronie dobrze widziany? Może chcemy pozwolić Google’owi na indeksowanie całej witryny i jednocześnie zablokować dostęp do niej innej wyszukiwarce? To da się zrobić. Niezbędna jest tylko znajomość nazw botów. Sęk w tym, że nie są one aż tak oczywiste, jak wydawałoby się na pierwszy rzut oka. Kilka przykładowych nazw podajemy w ramce wyżej. Jeżeli chcielibyśmy poznać inne, musimy je odnaleźć na własną rękę.
Z reguły parametry botów są dostępne na stronach internetowych opisujących konkretną wyszukiwarkę. Niektóre z nich (np. Gooru) podają nawet szczegółowe informacje na temat sposobu traktowania pliku robots.txt przez ich robota wyszukującego.
Roboty wyszukiwarek |
Oto kilka kryptonimów, pod którymi ukrywają się szperacze-boty:
Znając nazwy, możemy blokować nie tylko wyszukiwarki, ale także programy typu web-spider (np. Teleport Pro), służące do pobierania całych stron WWW na dysk lokalny. Oczywiście program taki musi identyfikować się pod własną nazwą, a tymczasem wiele z nich “udaje” popularne przeglądarki internetowe. Na stronie http://www.javascriptkit.com/howto/htaccess13.shtml można znaleźć przykładowe nazwy botów, ale niestety – bez odnośników, do jakich serwerów lub programów one należą. |