Paieškos robotų ir skaitytuvų valdymas: Skirtumas tarp puslapio versijų

Iš IV pagalba klientams.
Peršokti į: navigacija, paiešką
 
1 eilutė: 1 eilutė:
 +
Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos ([http://en.wikipedia.org/wiki/Robots_exclusion_standard Robots Exclusion Protocol]) būtent šiems lankytojams.
  
  
 +
==== Kaip veikia robots.txt ir kam jis naudojamas ====
  
 +
Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. <nowiki>www.mano-svetaine.lt/robots.txt</nowiki> ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:
  
 +
* Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
  
 +
* Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
  
 +
* Norint robotui pateikti svetainės žemėlapį (sitemap.xml);
  
  
13 eilutė: 19 eilutė:
  
  
 +
==== Svarbūs pastebėjimai, naudojant robots.txt ====
  
 +
* Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
  
 
+
* Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.
 
 
  
  
 
[[Kategorija:Informacija_apie_svetainės_veikimą]]
 
[[Kategorija:Informacija_apie_svetainės_veikimą]]

12:43, 13 birželio 2013 versija

Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos (Robots Exclusion Protocol) būtent šiems lankytojams.


Kaip veikia robots.txt ir kam jis naudojamas

Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. www.mano-svetaine.lt/robots.txt ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:

  • Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
  • Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
  • Norint robotui pateikti svetainės žemėlapį (sitemap.xml);





Svarbūs pastebėjimai, naudojant robots.txt

  • Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
  • Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.