Plik robots.txt zlokalizowany jest w głównym katalogu domeny oraz dostępny pod adresem http://twojadomena.pl/robots.txt i stanowi wszechstronne narzędzie do kontrolowania poziomu dostępu robotów wyszukiwarek.
Plik robots txt najczęściej używamy do :
– zablokowania robotom dostępu do prywatnych segmentów Twojej strony,
– zablokowanie dostępu wyszukiwarką do narzędzi, skryptu, pliki itd ..,
– zapobiegania zindeksowaniu zduplikowanych treści na stronie.
Plik robots.txt umieszczamy w głównym katalogu, a jego nazwa musi zawierać tylko małe litery. Umieszczenie pliku w innym katalogu, lub zmiana nazwy, wielkości liter sprawi, że z punktu widzenia wyszukiwarek plik będzie nieważny. Pamiętaj, że wszystkie komendy w pliku robots zapisujemy tekstowo.
Skład i przykłady pliku robots.txt :
Skład pliku robots.txt jest prosty i nie należy do skomplikowanych. W pierwszej kolejności definiujemy nazwę robota, np : Googlebot i nadajemy mu odpowiednie działanie. Roboty są indentyfikowanie na podstawie klienta użytkownika – po odnalezieniu pająk wykonuje on działania zdeklarowane w kolejnych wierszach pliku.
Przykład pliku :
User-agent : *
Disallow :
Polecenie User-agent służy do określenia, jakich robotów dotyczy reguła. Bezpośrednio po dwukropku możesz zamieścić dokładną nazwę robota lub znak *. Korzystanie z ” * ” gwiazdki to reguła dotyczy wszystkich robotów odwiedzających Twoją stronę internetową. Jeśli podasz konkretną nazwę spowoduje to ograniczenie działania wyłącznie do określonego robota, np:
User-agent: Googlebot
Disallow :
Blokowanie przykładowego robota w katalogach tmp i logs :
User-agent: msnbot
Disallow : /
Jak zablokować roboty na stronie?, przykład pliku robots.txt :
User-agent: AhrefsBot
User-agent: Yandex
Disallow:
Jeśli np. nie chcesz aby roboty zaindeksowały którąś z Twojej podstrony, plik robots.txt powinien mieć poniższą postać :
User-agent: *
Disallow: /zablokowany-wpis.html
Do czego służy Disallow :
Komenda ta blokuje dostęp robota do strony i można używać jej w wielu wierszach.
Do czego służy Noindex :
Komenda noindex zapobiega indeksowaniu strony w wyszukiwarce, a jeśli została ona wcześniej zaindeksowana, to zastosowanie tej komendy powoduje usunięcie strony z indeksu.
Znak # jest używany wewnątrz pliku robots do oznaczenia komentarzy, tekst który się pojawia po znaku #, jest ignorowany.
Jeden z najczęstszych problemów z plikiem robots.txt pojawia się gdy zainstalujemy na stronie SSL do odbierania żądań stron HTTP i HTTPS. Wyszukiwarki wówczas nie zinterpetują pliku robots.txt w stronie http://twojadomena.pl/robots.txt jako instrukcji ważnych dla adresu https://twojadomena.pl. W tym przypadku musisz stworzyć dodatkową wersję pliku pod adresem https://twojadomena.pl.
Problem w HTTP i HTTPS :
Jeżeli chcesz umożliwić sczytywanie stron z serwera HTTP i zapobiec sczytywania dla wersji HTTPS, musiałbyś utworzyć dwa następujące pliki robots :
Dla HTTP :
User-agent: *
Disallow:
Dla HTTPS :
User-agent: *
Disallow: /
Wszystkie wyżej opisane funkcje należą do podstawowych, ale można zastosować inne techniki jak np. Opóźnione indeksowanie. Taka funkcja obsługiwana jest przez roboty Yahoo, Bing i Ask i nakazuje ona robotowi odczekać wyznaczony czas w sekundach przed sczytywaniem kolejnej strony. Celem tej funkcji jest ograniczenie obciążenia strony. Przykładowy plik :
User-agent : msnbot
Crawl-delay: 10
Blokowanie dostępu do prywatnych zasobów :
Czasami nie chcemy aby pewna zawartość naszej strony była w indeksie wyszukiwarek, dlatego w prosty sposób możemy zablokować dostęp do prywatnych zasobów naszej strony, jeśli np. są pod adresami /prywatne1/, /prywatne2/, /prywatne3/ itd. blokujemy dostęp komendą :
User-agent:*
Disallow: /prywatne*/
Jeśli chcemy na przykład zablokować dostęp do wszystkich adresów URL, które kończą się rozszerzeniem np: .asp, plik zapisujemy następująco :
User-agent: Googlebot
Disallow: /*.asp$
Dyrektywa Allow :
Działa na odwrotnej zasadzie niż Disallow, pozwala na zdefiniowanie konkretnych katalogów lub działów strony, które mają zostać zaindeksowane. Poniższy przykład odblokowuje Googlebotowi dostęp tylko do kategorii sklep :
User-agent: Googlebot
Disallow : /
Allow: / sklep/
Plik robots.txt może posłużyć również do odszukiwania robotom mapy witryny w formacie XML, aby poinformować roboty o lokalizacji mapy strony, stwórz krótką komendę :
Sitemap: http://twojadomena.pl/sitemap.xml
O czym musisz pamiętać korzystając z pliku robots.txt?
– Często w sieci krążą roboty szukające dziur w zabezpieczeniach stron internetowych i mogą w dużej mierze ignorować zapisy z pliku robots. Tak samo zachowują się automaty, które gromadzą adresy email, oraz inne dane teleadresowe firm.
– Pamiętaj, że zawartość pliku jest publicznie dostępna, a sam plik robots.txt nie jest metodą zabezpieczenia dostępu do strony.
– Niektóre z setek robotów mogą zbyt szybko skanować strony WWW do ich sprawdzenia, co może znacząco obciążyć Twój serwer. W tym przypadku zalecam zablokowanie w polu user agent takich robotów.
– Pamiętaj, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości strony internetowej, które zablokowałeś w pliku robots.txt.
– Plik „robots.txt” jest potrzebny tylko w przypadku, gdy chcesz zablokować inne roboty wyszukiwarek lub ukryć lub zabezpieczyć treść przed skanowaniem. Jeśli roboty mają indeksować nieustannie całą Twoją stronę internetową, to plik robots.txt jest całkowicie zbędny.
Meta Robots Vs robots.txt :
Dobrym rozwiązaniem na blokowanie konkretnej podstrony, pliku na stronie jest zastosowanie meta tagu robots. W porównaniu do pliku robots.txt, może się zdarzyć, że wykluczone strony z indeksacji będą się pokazywać w wynikach wyszukiwania, tym bardziej jeśli prowadzą do nich linki z innych stron. Zastosowanie komendy meta robots „noindex,nofollow” całkowicie wyeliminuje ten problem.
Meta robots :
<meta name=”robots” content=”Komenda” />
W miejscu ” Komenda ” możesz wstawić jeden z poniższych argumentów :
– all – cała strona zostanie zaindeksowana,
– index, follow – cała strona zostanie zaindeksowana,
– index – strona zostanie zindeksowana,
– follow – zostaną zaindeksowane linki, w celu późniejszego odwiedzenia robotów,
– index, nofollow – strona zostane zaindeksowana, ale linki na niej nie,
– noindex, follow – roboty zaindeksują tylko linki,
– noindex – strona nie zostanie zindeksowana,
– nofollow – nie zostaną zaindeksowane linki,
– noindex, nofollow – strona nie zostanie zaindeksowana,
– none – strona nie zostanie zaindeksowana.
Jak odnieść Sukces, zdeklasować konkurencję oraz zdobyć 1 pozycję w wyszukiwarce internetowej ? Jeśli jesteś żądny skutecznej i sekretnej wiedzy, zostaw Mi swój e-mail.
Zobacz również :
– Zaplecze SEO czyli jak zwiększyć ruch o 400% i więcej
– Link Building 38 sprawdzonych sposobów
– Zmiany w algorytmach Google!
– pozycjonowanie Long Tail daje rewelacyjne Efekty !
– optymalizacja produktów