pozycjoner.net       forum       kontakt
 
blog.pozycjoner.net
blog.pozycjoner.net
delicious   rss    



Szukaj


Polecamy


Robots.txt


Tak się składa iż roboty wyszukiwarek indeksują wszystko jak leci, również rzeczy których nie chcemy aby były indeksowane .
Znam także sytuacje że robot google - ten co indeksuje obrazki potrafi nabić kilka ładnych GB transferu w ciągu miesiąca .
Do zapanowania nad tym wszystkim służy plik robots.txt
W tymże pliku spisujemy ustawienia przeznaczone dla robotów , ustawienia te precyzyjnie mówią co ma nie być indeksowane. Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.

Przykładowy plik robots.txt wygląda tak :

User-agent: *
Disallow: /admin/
Disallow: /pozycjoner/



Pierwsza linia mówi jakich robotów tyczy się poniższy zapis ( * oznacza wszystkie )- obecnie robotów jest coś około 30 ,i dla każdego możemy stworzyć zapis co ma omijać przy indeksacji.
Linie 2 i 3 to nic innego jak konkretne katalogi na serwerze które maja zostać pominięte przy indeksacji - i tu uwaga , nie można tu stosować " * " - trzeba wszystko wypisać


I Oto cala filozofia robots.txt...

Poniżej kilka przykładów :

Indeksuj wszystko -to samo jak jest pusty plik robots.txt , lub gdy go nie ma

User-agent: *
Disallow:


Nie indeksuj niczego - przy czymś takim nie zobaczymy strony w żadnej wyszukiwarce

User-agent: *
Disallow: /



Webcrawler nie indeksuje niczego - reszta wszystko

User-agent: WebCrawler
Disallow: /



Pozwalamy na indeksacje tylko WebCrawlerowi

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /


Niech google nie indeksuje obrazków - pozwala czasami zaoszczędzić transfer , kosztem braku obrazków w google images

User-agent: Googlebot-Image
Disallow: /obrazki/


Nic tylko testować :)

Przydatne linki :
Robotstxt.org