Semalt: Kako blokirati Darodar Robots.txt

Datoteka Robots.txt je tipična besedilna datoteka, ki vsebuje navodila o tem, kako naj spletni pajki ali roboti plazijo po spletnem mestu. Njihova uporaba je očitna v botih iskalnikov, ki so pogosti na številnih optimiziranih spletnih mestih. Kot del protokola o izključitvi robotov (REP) datoteka robots.txt tvori bistveni vidik indeksiranja vsebine spletnega mesta in omogoči strežniku, da ustrezno potrdi uporabniške zahteve.

Julia Vashneva, vodja za uspehe strank Semalt , pojasnjuje, da je povezovanje vidik optimizacije iskalnikov (SEO), ki vključuje pridobivanje prometa z drugih področij znotraj vaše niše. Za povezave "sledite" za prenos soka povezave je nujno, da na svoje spletno mesto, ki gosti prostor, vključite datoteko robots.txt, da deluje kot inštruktor, kako strežnik deluje na vašem spletnem mestu. Navodila so na voljo v tem arhivu, ki dovoljujejo ali onemogočajo vedenje nekaterih posebnih uporabniških agentov.

Osnovni format datoteke robots.txt

Datoteka robots.txt vsebuje dve bistveni vrstici:

Uporabniško sredstvo: [ime uporabniškega agenta]

Onemogoči: [URL ni treba pajkati]

Celotna datoteka robots.txt mora vsebovati ti dve vrstici. Vendar lahko nekatere od njih vsebujejo več vrstic uporabniških agentov in direktiv. Ti ukazi lahko vsebujejo vidike, kot so dovoljenje, onemogočanje ali zakasnitev pajka. Običajno obstaja prelom vrstice, ki loči vsak sklop navodil. Vsak ukaz dovoli ali onemogoči ločen s tem prelomom vrstice, zlasti za robots.txt z več vrsticami.

Primeri

Na primer, datoteka robots.txt lahko vsebuje kode, kot so:

Uporabniško sredstvo: darodar

Onemogoči: / plugin

Prekini: / API

Onemogoči: / _kommenti

V tem primeru gre za blok datoteko robots.txt, ki spletnemu pajku Darodar omejuje dostop do vašega spletnega mesta. V zgornji sintaksi koda blokira vidike spletnega mesta, kot so vtičniki, API in razdelek s komentarji. Na podlagi tega znanja je mogoče z učinkovito izvedbo besedilne datoteke robota doseči številne koristi. Datoteke Robots.txt lahko opravljajo številne funkcije. Na primer, lahko so pripravljeni na:

1. Dovoli vso vsebino spletnih pajkov na stran spletnega mesta. Na primer;

Uporabniški agent: *

Ne dovoli:

V tem primeru lahko vse uporabniške vsebine dostopajo s katerim koli spletnim pajkom, za katerega se zahteva dostop do spletnega mesta.

2. Blokirajte določeno spletno vsebino iz določene mape. Na primer;

Uporabniško sredstvo: Googlebot

Onemogoči: / example-podmapa /

Ta sintaksa, ki vsebuje ime uporabniškega agenta Googlebot, pripada Googlu. Botu omejuje dostop do katere koli spletne strani v nizu www.ourexample.com/example-subfolder/.

3. Blokirajte določenega spletnega pajka z določene spletne strani. Na primer;

Uporabniško sredstvo: Bingbot

Onemogoči: /example-subfolder/blocked-page.html

Uporabniški agent Bing bot pripada spletnim pajkom Bing. Ta vrsta datoteke robots.txt omejuje Bingovemu pajku Bing dostop do določene strani z nizom www.ourexample.com/example-subfolder/blocked-page.

Pomembna informacija

  • Datoteke robts.txt ne uporablja vsak uporabnik. Nekateri uporabniki se lahko odločijo, da ga ne bodo upoštevali. Večina takšnih spletnih pajkov vključuje Trojane in zlonamerno programsko opremo.
  • Da bi bila datoteka Robots.txt vidna, bi morala biti na voljo v imeniku spletnih mest najvišje ravni.
  • Znaki "robots.txt" so velika in majhna. Posledično jih ne smete spreminjati na kakršen koli način, vključno z veliko začetnico nekaterih vidikov.
  • "/Robots.txt" je javna domena. Vsakdo lahko najde te podatke, ko jih doda v vsebino katerega koli URL-ja. Ne smete indeksirati bistvenih podrobnosti ali strani, za katere želite, da ostanejo zasebne.