Plik robots.txt cz.1


Sposoby poprawy indeksacji witryny

Nie ma co ukrywać i musisz wiedzieć, że im więcej podstron ma Twoja witryna, tym lepiej dla Ciebie. Dlatego warto regularnie rozbudowywać witrynę i dbać o to, aby była ona poprawnie indeksowana przez wyszukiwarkę. Dzięki temu Twoja pozycja w wynikach wyszukiwania będzie wysoka i stabilna.

Plik robots.txt

Każda strona bezwzględnie powinna posiadać plik robots.txt. Plik ten powinien znaleźć się w głównym katalogu witryny wraz z plikiem index.html. We wnętrzu pliku robots.txt możesz umieścić szereg poleceń, które regulują zasady dostępu do strony przez roboty wyszukiwarek.

Plik robots.txt jest plikiem tekstowym i może mieć na przykład następujący wygląd:

User-agent: *
Disallow:

Polecenie User-agent służy do określania, jakich robotów dotyczy regułka. Bezpośrednio po dwukropku może znaleźć się dokładna nazwa robota lub znak *. Jeżeli skorzystasz z gwiazdki — tak jak w naszym przykładzie — to regułka będzie dotyczyć wszystkich robotów odwiedzających stronę WWW i czytających plik robots.txt. Natomiast podanie konkretnej nazwy powoduje ograniczenie działania wpisu wyłącznie do określonego robota.

User-agent: *

Disallow: /

Jeżeli chcesz zablokować dostęp robota do konkretnego katalogu lub pliku, zapis powinien przybrać następującą postać:

User-agent: *

Disallow: /zablokowany-folder/

Disallow: /zablokowany-plik.html

Pierwsza linia powoduje, że poniższe regułki dotyczą wszystkich robotów. Druga z linii blokuje dostęp do katalogu zablokowany-folder. Natomiast ostatni z wpisów blokuje dostęp do konkretnego pliku o nazwie zablokowany-plik.html.

Na koniec prezentujemy jeszcze jeden przykład pliku robots.txt, w którym blokujemy dostęp konkretnym robotom do całego serwisu oraz chronimy wybrane elementy strony przed wszystkimi robotami.

#    Zablokuj następujące roboty:

User-agent: Gulliver/1.3
User-agent: Lycos_Spider_(T-Rex)
User-agent: Scooter/1.0 Disallow: /

#    Zablokuj następujące katalogi i pliki:

User-agent: *
Disallow: /prywatne/
Disallow: /cgi-bin/

Linie zaczynające się od znaku # zawierają komentarze i nie mają wpływu na działanie pliku robots.txt. Pierwszy człon wpisu zawiera nazwy robotów, które mają całkowicie zablokowany dostęp do witryny. Korzystając z polecenia User-agent, możemy wymienić wiele robotów, których dotyczy opcja Disallow. Każdy robot powinien zostać wpisany w nowej linii, tak jak to widać na przykładzie. Pamiętaj, że nazwa robota powinna odpowiadać temu, jak dany robot zgłasza się na stronie.

Pomiędzy pierwszy i drugim członem pliku robots.txt znajduje się pusta linia. To bardzo ważne, gdyż na tej podstawie robot wyszukiwarki wie, że ma do czynienia z drugim wpisem. W naszym przykładzie drugi z wpisów dotyczy wszystkich robotów i blokuje ich dostęp do dwóch katalogów o nazwie cgi-bin i prywatne.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *