Paieškos robotų ir skaitytuvų valdymas: Skirtumas tarp puslapio versijų

Iš IV pagalba klientams.
Peršokti į: navigacija, paiešką
15 eilutė: 15 eilutė:
  
 
==== robots.txt failo turinys ====
 
==== robots.txt failo turinys ====
 +
 +
Faile dažniausiai naudojamos dvi arba trys instrukcijos, kuriose įrašomas roboto pavadinimas ir jo taisyklės. Keletas pavyzdžių:
 +
 +
* '''Visiems''' robotams galima pasiekti '''visas''' svetainės dalis:
 +
<pre>
 +
User-agent: *
 +
Disallow:
 +
</pre>
 +
 +
 +
 +
 +
==== Pavyzdinis robots.txt failas ====
 +
 +
* Situacija: MSN bot'as vykdo labai daug užklausų, įtakojamas svetainės veikimo greitis:
 +
  
  

13:15, 13 birželio 2013 versija

Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos (Robots Exclusion Protocol) būtent šiems lankytojams.

Kaip veikia robots.txt ir kam jis naudojamas

Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. www.mano-svetaine.lt/robots.txt ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:

  • Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
  • Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
  • Norint robotui pateikti svetainės žemėlapį (sitemap.xml);


robots.txt failo turinys

Faile dažniausiai naudojamos dvi arba trys instrukcijos, kuriose įrašomas roboto pavadinimas ir jo taisyklės. Keletas pavyzdžių:

  • Visiems robotams galima pasiekti visas svetainės dalis:
User-agent: *
Disallow:



Pavyzdinis robots.txt failas

  • Situacija: MSN bot'as vykdo labai daug užklausų, įtakojamas svetainės veikimo greitis:




Svarbūs pastebėjimai, naudojant robots.txt

  • Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
  • Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.