Paieškos robotų ir skaitytuvų valdymas: Skirtumas tarp puslapio versijų
(→robots.txt failo turinys) |
|||
32 eilutė: | 32 eilutė: | ||
User-agent: ''robotas'' | User-agent: ''robotas'' | ||
Disallow: / | Disallow: / | ||
+ | </pre> | ||
+ | * Vieno konkretaus roboto užklausos sulėtinamos iki 1 užklausos kas 10 sekundžių: | ||
+ | <pre> | ||
+ | User-agent: ''robotas'' | ||
+ | Crawl-delay: 10 | ||
</pre> | </pre> | ||
* Visiems robotams '''draužiama''' kreiptis tik į '''du katalogus''': | * Visiems robotams '''draužiama''' kreiptis tik į '''du katalogus''': | ||
44 eilutė: | 49 eilutė: | ||
Disallow: /katalogas/failas.htm | Disallow: /katalogas/failas.htm | ||
</pre> | </pre> | ||
− | |||
− | |||
− | |||
==== Pavyzdinis robots.txt failas ==== | ==== Pavyzdinis robots.txt failas ==== |
13:28, 13 birželio 2013 versija
Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos (Robots Exclusion Protocol) būtent šiems lankytojams.
Turinys
Kaip veikia robots.txt ir kam jis naudojamas
Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. www.mano-svetaine.lt/robots.txt ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:
- Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
- Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
- Norint robotui pateikti svetainės žemėlapį (sitemap.xml);
robots.txt failo turinys
Faile dažniausiai naudojamos dvi arba trys instrukcijos, kuriose įrašomas roboto pavadinimas ir jo taisyklės. Keletas pavyzdžių:
- Visiems robotams galima pasiekti visas svetainės dalis (taip pat veikia jei robots.txt yra tuščias arba jo visai nėra):
User-agent: * Disallow:
- Visiems robotams draudžiama indeksuoti svetainę:
User-agent: * Disallow: /
- Vienam konkrečiam robotui draudžiama indeksuoti svetainę:
User-agent: ''robotas'' Disallow: /
- Vieno konkretaus roboto užklausos sulėtinamos iki 1 užklausos kas 10 sekundžių:
User-agent: ''robotas'' Crawl-delay: 10
- Visiems robotams draužiama kreiptis tik į du katalogus:
User-agent: * Disallow: /temp/ Disallow: /include/
- Visiems robotams draudžiama kreiptis į vieną failą:
User-agent: * Disallow: /katalogas/failas.htm
Pavyzdinis robots.txt failas
- Situacija: MSN bot'as vykdo labai daug užklausų, įtakojamas svetainės veikimo greitis:
Svarbūs pastebėjimai, naudojant robots.txt
- Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
- Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.