Meni
Besplatno
Dom  /  Dermatitis/ Robot txt indeksiranje zabranjeno. Kako spriječiti indeksiranje potrebnih stranica. Spriječite indeksiranje svih stranica sa nizom upita

Robot txt indeksiranje zabranjeno. Kako spriječiti indeksiranje potrebnih stranica. Spriječite indeksiranje svih stranica sa nizom upita

Pa, na primjer, odlučili ste promijeniti dizajn svog bloga i ne želite da botovi za pretraživanje trenutno posjećuju resurs. Ili ste upravo kreirali web stranicu i instalirali motor na nju, pa ako resurs nema korisne informacije, onda ga ne biste trebali prikazivati ​​botovima za pretraživanje. U ovom članku ćete naučiti kako blokirati indeksiranje web-mjesta u Yandexu, Google-u ili svim njima odjednom. tražilice Oh. Ali prije toga možete pročitati još jedan sličan članak: “?” Hajdemo sada.

1. Blokirajte web lokaciju od indeksiranja pomoću datoteke robots.txt.
Za početak trebate. Da biste to uradili, kreirajte običan tekstualni dokument na računaru sa imenom robots i ekstenzijom .txt. Evo šta sam upravo napravio:

Sada ovu datoteku treba učitati u . Ako je resurs napravljen na WordPress engine-u, tada je korijenski direktorij gdje se nalaze folderi wp-content, wp-includes, itd.

Dakle, postavili smo praznu datoteku na hosting, sada trebamo koristiti ovu datoteku da nekako zatvorimo blog od indeksiranja. To se može učiniti, kao što sam već napisao, samo za Yandex, Google ili sve pretraživače odjednom. Hajde da pričamo o svemu po redu.

Kako blokirati indeksiranje stranice samo za Yandex?
Napišite sljedeći red u datoteku robots.txt:

Korisnički agent: Yandex
Disallow: /

Da biste bili sigurni da ste spriječili Yandex da indeksira vaš resurs, prvo dodajte web lokaciju ako to već niste učinili, a zatim idite na ovu stranicu. Zatim unesite nekoliko stranica vaše stranice i kliknite na dugme “Provjeri”. Ako je stranicama zabranjeno indeksiranje, vidjet ćete nešto poput ovoga:

Kako blokirati web lokaciju da je indeksira samo Google?
Otvorite datoteku robots.txt i tamo upišite sljedeći red:

Korisnički agent: Googlebot
Disallow: /

Kako biste provjerili da Google ne indeksira stranicu, kreirajte, dodajte svoj resurs Google Webmasteru i idite na njega. Ovdje također trebate unijeti nekoliko stranica i kliknuti na dugme “provjeri”.


Primijetio sam da Google pretraživač čak indeksira one dokumente koji su zabranjeni u datoteci robots.txt i unosi ih u dodatni indeks, tzv. Ne znam zašto, ali morate shvatiti da je 100% nemoguće blokirati web lokaciju ili pojedinačnu stranicu pomoću datoteke robots.txt. Ovaj fajl je, koliko sam ja shvatio, samo preporuka za Google, i on odlučuje šta će indeksirati, a šta ne.

Kako blokirati indeksiranje stranice za sve pretraživače?
Da spriječite da svi pretraživači indeksiraju vaš resurs odjednom, dodajte sljedeći red u robots.txt:

Korisnički agent: *
Disallow: /

Sada također možete otići na Yandex ili Google Webmaster i provjeriti zabranu indeksiranja.

Svoj robots.txt fajl možete vidjeti na ovoj adresi:

Vashdomain.ru/robots.txt

Sve što ste napisali u ovoj datoteci trebalo bi da se prikaže u pretraživaču. Ako, kada odete na ovu adresu, pred vama iskoči poruka, to znači da ste otpremili svoj fajl na pogrešno mjesto.

Usput, moj robots.txt se nalazi . Ako je vaš resurs napravljen na WordPress engine-u, možete ga jednostavno kopirati. Ispravno je konfigurisan da osigura da botovi za pretragu indeksiraju samo potrebne dokumente i da nema duplikata na sajtu.

2. Blokirajte web stranicu od indeksiranja pomoću trake sa alatkama.
Ova metoda je pogodna samo za one čiji je resurs napravljen na WordPress-u. Idite na “Control Panel” - “Settings” – “Reading”. Ovdje morate označiti kućicu pored natpisa "Preporučuju da pretraživači ne indeksiraju stranicu."


Imajte na umu da se ispod nalazi vrlo zanimljiv natpis: "Pretraživači sami odlučuju hoće li slijediti vaš zahtjev." Upravo o tome sam pisao gore. Yandex najvjerovatnije neće indeksirati stranice kojima je zabranjeno indeksiranje, ali mogu nastati problemi s Googleom.

3. Ručno zatvaramo stranicu od indeksiranja.
Kada zatvorite cijeli resurs ili stranicu iz indeksiranja, sljedeći red se automatski pojavljuje u izvornom kodu:

meta name="roboti" content="noindex,follow"

Govori botovima za pretraživanje da dokument ne može biti indeksiran. Možete jednostavno ručno napisati ovu liniju bilo gdje na vašoj web-lokaciji, glavna stvar je da se pojavljuje na svim stranicama i tada će resurs biti zatvoren od indeksiranja.

Usput, ako kreirate nepotreban dokument na svojoj web stranici i ne želite da ga botovi za pretraživanje indeksiraju, također možete umetnuti ovaj red u izvorni kod.

Nakon ažuriranja, otvorite izvorni kod stranice (CTRL + U) i pogledajte da li se ova linija pojavljuje tamo. Ako postoji, onda je sve u redu. Za svaki slučaj, možete provjeriti i pomoću alata za webmastere iz Yandexa i Googlea.

To je sve za danas. Sada znate kako blokirati indeksiranje web stranice. Nadam se da vam je ovaj članak bio od pomoći. Ćao svima.

Jedna od faza optimizacije web stranice za tražilice je kompajliranje datoteke robots.txt. Koristeći ovu datoteku, možete spriječiti neke ili sve robote za pretraživanje da indeksiraju vašu web lokaciju ili određene njene dijelove koji nisu namijenjeni za indeksiranje. Konkretno, možete spriječiti da se duplirani sadržaj indeksira, kao što su verzije stranica za štampanje.

Prije početka indeksiranja, roboti za pretraživanje uvijek upućuju na datoteku robots.txt u korijenskom direktoriju vaše stranice, na primjer, http://site.ru/robots.txt, kako bi znali koji su dijelovi web stranice robotu zabranjeni od indeksiranja. Ali čak i ako nećete ništa zabraniti, ipak se preporučuje da kreirate ovu datoteku.

Kao što možete vidjeti iz ekstenzije robots.txt, ovo je tekstualni fajl. Za kreiranje ili uređivanje ove datoteke, bolje je koristiti najjednostavnije uređivače teksta kao što je Notepad. robots.txt mora biti smješten u korijenskom direktoriju stranice i ima svoj vlastiti format, o čemu ćemo govoriti u nastavku.

Format datoteke Robots.txt

Datoteka robots.txt mora sadržavati najmanje dva potrebna unosa. Prva je direktiva User-agent koja pokazuje koji robot za pretragu treba da prati sledeća uputstva. Vrijednost može biti ime robota (googlebot, Yandex, StackRambler) ili simbol * ako pristupate svim robotima odjednom. na primjer:

Korisnički agent: googlebot

Naziv robota možete pronaći na web stranici odgovarajuće tražilice. Zatim bi trebala postojati jedna ili više Disallow direktiva. Ove direktive govore robotu koje datoteke i foldere nije dozvoljeno indeksirati. Na primjer, sljedeće linije sprječavaju robote da indeksiraju feedback.php datoteku i cgi-bin direktorij:

Disallow: /feedback.php Disallow: /cgi-bin/

Također možete koristiti samo početne znakove datoteka ili foldera. Red Disallow: /forum zabranjuje indeksiranje svih fajlova i fascikli u korenu sajta čije ime počinje sa forum, na primer, fajl http://site.ru/forum.php i folder http://site. ru/forum/ sa svim sadržajem. Ako je Disallow prazan, to znači da robot može indeksirati sve stranice. Ako je vrijednost Disallow simbol /, to znači da je cijeloj web stranici zabranjeno indeksiranje.

Za svako polje User-agent mora postojati barem jedno Disallow polje. Odnosno, ako nećete ništa zabraniti za indeksiranje, onda bi datoteka robots.txt trebala sadržavati sljedeće unose:

Korisnički agent: * Disallow:

Dodatne direktive

Pored regularnih izraza, Yandex i Google dozvoljavaju upotrebu direktive Allow, koja je suprotna od Disallow, odnosno označava koje stranice mogu biti indeksirane. U sljedećem primjeru, Yandexu je zabranjeno da indeksira sve osim adresa stranica koje počinju sa /articles:

Korisnički agent: Yandex Dozvoli: /articles Disallow: /

U ovom primjeru, direktiva Allow mora biti napisana prije Disallow, inače će Yandex ovo shvatiti kao potpunu zabranu indeksiranja stranice. Prazna direktiva Allow također potpuno onemogućuje indeksiranje stranice:

Korisnički agent: Yandex Dozvoli:

ekvivalentno

Korisnički agent: Yandex Disallow: /

Nestandardne direktive moraju biti specificirane samo za one pretraživače koji ih podržavaju. U suprotnom, robot koji ne razumije ovaj unos može pogrešno obraditi njega ili cijelu datoteku robots.txt. Više informacija o dodatnim direktivama i općenito o razumijevanju naredbi u datoteci robots.txt od strane pojedinačnog robota može se pronaći na web stranici odgovarajuće tražilice.

Regularni izrazi u robots.txt

Većina pretraživača uzima u obzir samo eksplicitno određena imena datoteka i fascikli, ali postoje i napredniji pretraživači. Google Robot i Yandex Robot podržavaju upotrebu jednostavnih regularnih izraza u robots.txt, što značajno smanjuje količinu posla za webmastere. Na primjer, sljedeće naredbe sprječavaju Googlebot-a da indeksira sve datoteke s ekstenzijom .pdf:

Korisnički agent: googlebot Disallow: *.pdf$

U gornjem primjeru, * je bilo koji niz znakova, a $ označava kraj veze.

Korisnički agent: Yandex Dozvoli: /articles/*.html$ Disallow: /

Gore navedene direktive dozvoljavaju Yandexu da indeksira samo datoteke sa ekstenzijom ".html" koje se nalaze u folderu /articles/. Sve ostalo je zabranjeno za indeksiranje.

Mapa sajta

Možete odrediti lokaciju XML sitemapa u datoteci robots.txt:

Korisnički agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ako ste veoma veliki broj stranice na web mjestu i morali ste razbiti sitemap na dijelove, onda u datoteci robots.txt trebate naznačiti sve dijelove mape:

Korisnički agent: Yandex Disallow: Mapa sajta: http://mysite.ru/my_sitemaps1.xml Mapa sajta: http://mysite.ru/my_sitemaps2.xml

Site mirrors

Kao što znate, obično se istom sajtu može pristupiti na dve adrese: i sa www i bez njega. Za robota za pretragu, site.ru i www.site.ru su različite stranice, ali sa istim sadržajem. Zovu se ogledala.

Zbog činjenice da postoje veze ka stranicama stranice i sa i bez www, težina stranica se može podijeliti između www.site.ru i site.ru. Da se to ne bi dogodilo, pretraživač treba da naznači glavno ogledalo stranice. Kao rezultat „lepljenja“, sva težina će pripadati jednom glavnom ogledalu i sajt će moći da zauzme višu poziciju u rezultatima pretrage.

Možete odrediti glavno ogledalo za Yandex direktno u datoteci robots.txt koristeći Host direktivu:

Korisnički agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Nakon lijepljenja, ogledalo www.site.ru će imati svu težinu i zauzet će višu poziciju u rezultatima pretraživanja. I tražilica uopće neće indeksirati site.ru.

Za druge pretraživače, izbor glavnog ogledala je trajno preusmeravanje na strani servera (šifra 301) sa dodatnih ogledala na glavno. Ovo se radi pomoću datoteke .htaccess i modula mod_rewrite. Da biste to učinili, stavite .htaccess datoteku u korijen stranice i tamo napišite sljedeće:

RewriteEngine On Opcije +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Kao rezultat toga, svi zahtjevi sa site.ru ići će na www.site.ru, odnosno site.ru/page1.php će biti preusmjereni na www.site.ru/page1.php.

Metoda preusmjeravanja će raditi za sve pretraživače i pretraživače, ali se i dalje preporučuje dodavanje direktive Host u datoteku robots.txt za Yandex.

Komentari u robots.txt

Također možete dodati komentare u datoteku robots.txt - oni počinju simbolom # i završavaju se novim redom. Komentare je preporučljivo pisati u posebnom redu, ili ih je bolje uopće ne koristiti.

Primjer korištenja komentara:

User-agent: StackRambler Disallow: /garbage/ # nema ništa korisno u ovoj fascikli Disallow: /doc.xhtml # i na ovoj stranici # i svi komentari u ovoj datoteci su takođe beskorisni

Primjeri datoteka robots.txt

1. Dozvolite svim robotima da indeksiraju sve dokumente stranice:

Korisnički agent: * Disallow:
Korisnički agent: * Disallow: /

3. Zabranjujemo Google robotu za pretraživanje da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu i zabranjujemo robotu Yandex tražilice da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru Korisnički agent: * Disallow:

5. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu, a Yandex robotu dozvoljavamo da indeksira samo dio stranice namijenjen za njega:

Korisnički agent: Yandex Dozvoli: /yandex Disallow: / Host: www.site.ru Korisnički agent: * Disallow:

Prazne linije razdvajaju ograničenja za različite robote. Svaki blok ograničenja mora početi redom s poljem User-Agent, koji označava robota na kojeg se primjenjuju ova pravila indeksiranja web mjesta.

Uobičajene greške

Važno je uzeti u obzir da je prazan red u datoteci robots.txt separator između dva unosa za različite robote. Također ne možete specificirati više direktiva u jednoj liniji. Kada sprječavaju indeksiranje datoteke, webmasteri često izostavljaju / ispred naziva datoteke.

Nema potrebe da u robots.txt navedete zabranu indeksiranja stranice za različite programe koji su dizajnirani da u potpunosti preuzmu stranicu, na primjer TeleportPro. Ni programi za preuzimanje niti pretraživači nikada ne gledaju ovu datoteku i ne izvršavaju upute napisane tamo. Namijenjen je isključivo pretraživačima. Također ne biste trebali blokirati admin panel svoje stranice u robots.txt, jer ako nigdje nema linka do njega, onda neće biti indeksiran. Otkrit ćete lokaciju administrativnog područja samo ljudima koji ne bi trebali znati za to. Također je vrijedno zapamtiti da pretraživač robots.txt koji je prevelik može zanemariti. Ako imate previše stranica koje nisu namijenjene za indeksiranje, onda je bolje da ih jednostavno uklonite sa stranice ili ih premjestite u poseban direktorij i spriječite indeksiranje ovog direktorija.

Provjeravam greške u fajlu robots.txt

Obavezno provjerite kako pretraživači razumiju vašu datoteku robota. Da biste provjerili Google, možete koristiti Google Webmaster Tools. Ako želite da saznate kako Yandex razumije vašu datoteku robots.txt, možete koristiti uslugu Yandex.Webmaster. To će vam omogućiti da na vrijeme ispravite sve greške. Također na stranicama ovih servisa možete pronaći preporuke za kreiranje robots.txt datoteke i mnoge druge korisne informacije.

Kopiranje članka je zabranjeno.

Robots.txt je posebna datoteka koja se nalazi u korijenskom direktoriju stranice. Webmaster u njemu označava koje stranice i podatke treba isključiti iz indeksiranja od strane pretraživača. Datoteka sadrži direktive koje opisuju pristup dijelovima stranice (tzv. standard izuzetaka robota). Na primjer, možete ga koristiti za postavljanje različitih postavki pristupa za robote za pretraživanje dizajnirane za mobilne uređaje i desktop računare. Veoma je važno da ga pravilno postavite.

Da li je robots.txt neophodan?

Sa robots.txt možete:

  • zabraniti indeksiranje sličnih i nepotrebnih stranica kako se ne bi gubilo ograničenje indeksiranja (broj URL-ova koje robot za pretraživanje može indeksirati u jednom indeksiranju). One. robot će moći indeksirati važnije stranice.
  • sakriti slike iz rezultata pretrage.
  • zatvorite nevažne skripte, stilske datoteke i druge nekritične resurse stranice iz indeksiranja.

Ako će to spriječiti Google ili Yandex pretraživač da analizira stranice, nemojte blokirati datoteke.

Gdje se nalazi datoteka Robots.txt?

Ako samo želite da vidite šta se nalazi u datoteci robots.txt, jednostavno unesite u adresnu traku vašeg pretraživača: site.ru/robots.txt.

Fizički, datoteka robots.txt se nalazi u root folderu web lokacije na hostingu. Imam hosting beget.ru, pa ću pokazati lokaciju datoteke robots.txt na ovom hostingu.


Kako kreirati ispravan robots.txt

Datoteka robots.txt se sastoji od jednog ili više pravila. Svako pravilo blokira ili dozvoljava indeksiranje putanje na web mjestu.

  1. U uređivaču teksta kreirajte datoteku pod nazivom robots.txt i popunite je prema pravilima u nastavku.
  2. Datoteka robots.txt mora biti ASCII ili UTF-8 kodirana tekstualna datoteka. Znakovi u drugim kodovima nisu dozvoljeni.
  3. Trebao bi postojati samo jedan takav fajl na stranici.
  4. Datoteka robots.txt mora biti smještena korijenski direktorij site. Na primjer, za kontrolu indeksiranja svih stranica na web-mjestu http://www.example.com/, datoteka robots.txt treba da se nalazi na http://www.example.com/robots.txt. Ne bi trebao biti u poddirektorijumu(npr. na adresi http://example.com/pages/robots.txt). Ako imate poteškoća s pristupom korijenskom direktoriju, obratite se svom hosting provajderu. Ako nemate pristup korijenskom direktoriju web-mjesta, koristite alternativni metod blokiranja kao što su meta oznake.
  5. Datoteka robots.txt može se dodati adresama sa poddomene(na primjer http:// web stranica.example.com/robots.txt) ili nestandardni portovi (na primjer, http://example.com: 8181 /robots.txt).
  6. Provjerite datoteku u usluzi Yandex.Webmaster i Google Search Console.
  7. Prenesite datoteku u korijenski direktorij vaše stranice.

Evo primjera datoteke robots.txt sa dva pravila. Ispod je njegovo objašnjenje.

Korisnički agent: Googlebot Disallow: /nogooglebot/ Korisnički agent: * Dozvoli: / Mapa stranice: http://www.example.com/sitemap.xml

Objašnjenje

  1. Korisnički agent pod imenom Googlebot ne bi trebao indeksirati direktorij http://example.com/nogooglebot/ i njegove poddirektorije.
  2. Svi ostali korisnički agenti imaju pristup cijeloj stranici (može se izostaviti, rezultat će biti isti, jer je potpuni pristup odobren po defaultu).
  3. Datoteka Sitemap za ovu stranicu nalazi se na http://www.example.com/sitemap.xml.

Disallow i Allow direktive

Da biste spriječili indeksiranje i robotski pristup web mjestu ili nekim njegovim odjeljcima, koristite direktivu Disallow.

Korisnički agent: Yandex Disallow: / # blokira pristup cijeloj web stranici Korisnički agent: Yandex Disallow: /cgi-bin # blokira pristup stranicama # počevši sa "/cgi-bin"

Prema standardu, preporučljivo je umetnuti prazan red prije svake direktive User-agent.

Simbol # služi za opisivanje komentara. Sve nakon ovog znaka i prije prijeloma prvog reda se ne uzima u obzir.

Da biste omogućili robotu pristup stranici ili nekim njenim odjeljcima, koristite direktivu Allow

User-agent: Yandex Allow: /cgi-bin Disallow: / # zabranjuje preuzimanje svega osim stranica # koje počinju sa "/cgi-bin"

Nije dozvoljeno imati prazne prijelome reda između direktiva User-agent, Disallow i Allow.

Direktive Allow i Disallow iz odgovarajućeg bloka User-agent sortirane su po dužini URL prefiksa (od najmanjeg do najvećeg) i primjenjuju se uzastopno. Ako je nekoliko direktiva pogodno za datu stranicu stranice, robot bira posljednju po redoslijedu pojavljivanja na sortiranoj listi. Dakle, redosled direktiva u datoteci robots.txt ne utiče na to kako ih robot koristi. primjeri:

# Original robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Sortirano robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # Dozvoljava preuzimanje samo stranica # koje počinju sa "/catalog" # Original robots.txt: Korisnički agent: Yandex Dozvoli: / Dozvoli: /catalog/auto Disallow: /catalog # Sortirano robots.txt: User-agent: Yandex Dozvoli: / Disallow: /catalog Dozvoli: /catalog/auto # zabranjuje preuzimanje stranica počinje sa "/catalog" # ali dozvoljava preuzimanje stranica koje počinju sa "/catalog/auto".

Ako postoji sukob između dvije direktive s prefiksima iste dužine, direktiva Allow ima prednost.

Korištenje posebnih znakova * i $

Kada specificirate putanje direktiva Allow i Disallow, možete koristiti specijalne znakove * i $, na taj način specificirajući određene regularne izraze.

Specijalni znak * označava bilo koji (uključujući prazan) niz znakova.

Specijalni znak $ označava kraj reda, znak prije njega je posljednji.

Korisnički agent: Yandex Disallow: /cgi-bin/*.aspx # zabranjuje "/cgi-bin/example.aspx" # i "/cgi-bin/private/test.aspx" Disallow: /*private # zabranjuje ne samo "/private", # ali i "/cgi-bin/private"

Sitemap Directive

Ako koristite datoteku Sitemap da opišete strukturu lokacije, navedite putanju do datoteke kao parametar direktive mape lokacije (ako postoji nekoliko datoteka, navedite sve). primjer:

Korisnički agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Direktiva je intersekcionalna, tako da će je koristiti robot bez obzira na mjesto u datoteci robots.txt gdje je navedena.

Robot će zapamtiti putanju do datoteke, obraditi podatke i koristiti rezultate u narednim sesijama preuzimanja.

Direktiva odgode puzanja

Ako je server jako opterećen i nema vremena da obradi zahtjeve robota, koristite direktivu Crawl-delay. Omogućava vam da postavite robotu za pretraživanje minimalni vremenski period (u sekundama) između kraja učitavanja jedne stranice i početka učitavanja sljedeće.

Prije promjene brzine indeksiranja stranice, saznajte kojim stranicama robot češće pristupa.

  • Analizirajte logove servera. Kontaktirajte osobu odgovornu za stranicu ili hosting provajdera.
  • Pogledajte listu URL-ova na stranici Indeksiranje → Statistika indeksiranja u Yandex.Webmasteru (postavite prekidač na Sve stranice).

Ako otkrijete da robot pristupa stranicama usluga, spriječite njihovo indeksiranje u datoteci robots.txt pomoću direktive Disallow. Ovo će pomoći da se smanji broj nepotrebnih poziva od robota.

Clean-param direktiva

Direktiva radi samo sa Yandex robotom.

Ako adrese stranica web mjesta sadrže dinamičke parametre koji ne utječu na njihov sadržaj (identifikatore sesije, korisnike, preporuke, itd.), možete ih opisati korištenjem Clean-param direktive.

Yandex Robot, koristeći ovu direktivu, neće više puta učitavati duple informacije. Ovo će povećati efikasnost indeksiranja vaše stranice i smanjiti opterećenje servera.

Na primjer, stranica ima stranice:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parametar ref se koristi samo za praćenje s kojeg je resursa napravljen zahtjev i ne mijenja sadržaj na sve tri adrese; Zatim, ako navedete direktivu na sljedeći način:

Korisnički agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Yandex robot će sve adrese stranica svesti na jednu:

www.example.com/some_dir/get_book.pl?book_id=123

Ako je takva stranica dostupna na stranici, bit će uključena u rezultate pretraživanja.

Sintaksa direktive

Clean-param: p0[&p1&p2&..&pn]

Prvo polje, odvojeno sa &, navodi parametre koje robot ne mora uzeti u obzir. Drugo polje specificira prefiks putanje stranica za koje treba primijeniti pravilo.

Napomena. Direktiva Clean-Param je poprečnog presjeka, tako da se može navesti bilo gdje u datoteci robots.txt. Ako je specificirano nekoliko direktiva, robot će sve njih uzeti u obzir.

Prefiks može sadržavati regularni izraz u formatu sličnom datoteci robots.txt, ali uz neka ograničenja: mogu se koristiti samo znakovi A-Za-z0-9.-/*_. U ovom slučaju, simbol * se tumači na isti način kao u datoteci robots.txt: simbol * se uvijek implicitno dodaje na kraj prefiksa. na primjer:

Clean-param: s /forum/showthread.php

Slučaj se uzima u obzir. Postoji ograničenje dužine pravila - 500 karaktera. na primjer:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

HOST direktiva

On trenutno Yandex je prestao podržavati ovu direktivu.

Ispravna postavka robots.txt

Sadržaj datoteke robots.txt razlikuje se u zavisnosti od vrste sajta (online prodavnica, blog), korišćenog CMS-a, karakteristika strukture i niza drugih faktora. Stoga bi kreiranje ove datoteke za komercijalnu web stranicu, posebno ako je riječ o složenom projektu, trebao obaviti SEO stručnjak s dovoljno iskustva.

Nespremna osoba najverovatnije neće moći da prihvati ispravna odluka u vezi s tim koji dio sadržaja je najbolje blokirati od indeksiranja i kojem dijelu treba dozvoliti da se pojavi u rezultatima pretraživanja.

Ispravan primjer Robots.txt za WordPress

Korisnički agent: *# opšta pravila za robote, osim Yandexa i Googlea, # jer za njih su pravila ispod Disallow: /cgi-bin # folder na hostingu Disallow: /? # svi parametri zahtjeva na glavnoj stranici Disallow: /wp- # svi WP fajlovi: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # ako postoji poddirektorij /wp/ gdje CMS je instaliran (ako nije, # pravilo se može izbrisati) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # arhiva autora Disallow: /users/ # arhiva autora Disallow: */ trackback # trackbacks, obavještenja u komentarima o pojavljivanju otvorene # veze do članka Disallow: */feed # svi feedovi Disallow: */rss # rss feed Disallow: */embed # sve ugradnje Disallow : */wlwmanifest.xml # xml datoteka manifesta Windows Live Writer (ako ga ne koristite, # pravilo se može izbrisati) Disallow: /xmlrpc.php # WordPress API datoteka Disallow: *utm*= # veze sa utm oznakama Disallow: *openstat= # veze sa openstat tagovima Dozvolite: */uploads # otvorite folder sa fajlovima za otpremanje Mapa sajta: http://site.ru/sitemap.xml # adresa mape sajta Korisnički agent: GoogleBot # pravila za Google (ja nemoj duplirati komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Dozvoli: */uploads Dozvoli: /*/*.js # otvorite js skripte unutar / wp - (/*/ - za prioritet) Dozvoli: /*/*.css # otvori css datoteke unutar /wp- (/*/ - za prioritet) Dozvoli: /wp-*.png # slike u dodacima, keš folderu itd. Dozvoli: /wp-*.jpg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.jpeg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.gif # slike u dodacima, keš folderu, itd. Dozvoli: /wp-admin/admin-ajax.php # koriste dodaci kako ne bi blokirali JS i CSS Korisnički agent: Yandex # pravila za Yandex (ne dupliram komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Dozvoli: */uploads Dozvoli: /*/*.js Dozvoli: /*/*.css Dozvoli: /wp-*.png Dozvoli: /wp-*.jpg Dozvoli: /wp-*.jpeg Dozvoli: /wp-*.gif Dozvoli: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex ne preporučuje blokiranje # indeksiranja, već brisanje tag parametri, # Google ne podržava takva pravila Clean-Param: openstat # slično

Robots.txt primjer za Joomla

Korisnički agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /uključuje/
Disallow: /instalacija/
Disallow: /jezik/
Disallow: /biblioteke/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Robots.txt primjer za Bitrix

Korisnički agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /osobno/
Disallow: /upload/
Zabraniti: /traži/
Zabraniti: /*/traži/
Zabraniti: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*promjena_lozinke=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BSKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Zabraniti: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Zabraniti: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=

Zabraniti: /*PAGE_NAME=pretraga
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: http://put do vaše mape XML formata

Robots.txt primjer za MODx

Korisnički agent: *
Disallow: /assets/cache/
Zabraniti: /assets/docs/
Zabraniti: /assets/export/
Zabraniti: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /menadžer/
Mapa sajta: http://site.ru/sitemap.xml

Robots.txt primjer za Drupal

Korisnički agent: *
Disallow: /baza podataka/
Disallow: /uključuje/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Zabraniti: /ažuriranja/
Disallow: /profili/
Disallow: /profile
Disallow: /profil/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /komentar/odgovor/
Disallow: /kontakt/
Disallow: /odjava/
Zabraniti: /traži/
Disallow: /user/register/
Disallow: /korisnik/lozinka/
Zabraniti: *registriraj se*
Disallow: *login*
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /preporuka/
Disallow: /agregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taksonomija/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*sekcija
Disallow: /*red
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*kalendar
Disallow: /*index.php
Dozvoli: /*?page=
Disallow: /*?
Sitemap: http://put do vaše mape XML formata

PAŽNJA!

CMS se stalno ažurira. Možda ćete morati blokirati indeksiranje drugih stranica. U zavisnosti od svrhe, zabrana indeksiranja se može ukloniti ili, obrnuto, dodati.

Provjerite robots.txt

Svaki pretraživač ima svoje zahtjeve za dizajn robots.txt datoteke.

Da bi provjeri robots.txt Da biste provjerili ispravnost sintakse i strukture datoteke, možete koristiti jedan od online servisa. Na primjer, Yandex i Google nude vlastite usluge analize web stranica za webmastere, koje uključuju analiza robots.txt:

Provjera robotx.txt za Yandex pretraživača

To se može učiniti pomoću posebnog alata iz Yandexa - Yandex.Webmaster, a postoje i dvije opcije.

Opcija 1:

Padajuća lista u gornjem desnom uglu - izaberite Robots.txt analiza ili slijedite vezu http://webmaster.yandex.ru/robots.xml

Ne zaboravite da sve promjene koje napravite u datoteci robots.txt neće biti dostupne odmah, već tek nakon nekog vremena.

Provjera robotx.txt za Google robota za pretraživanje

  1. U Google Search Consoleu odaberite svoju web lokaciju, idite na alat za inspekciju i pregledajte sadržaj svoje robots.txt datoteke. Sintaktički I logicno greške u njemu će biti istaknute, a njihov broj će biti naznačen ispod prozora za uređivanje.
  2. Na dnu stranice interfejsa navedite željeni URL u odgovarajućem prozoru.
  3. Iz padajućeg menija sa desne strane izaberite robot.
  4. Kliknite na dugme CHECK.
  5. Status će biti prikazan DOSTUPNO ili NIJE DOSTUPNO. U prvom slučaju, Google roboti mogu otići na adresu koju ste naveli, ali u drugom - ne.
  6. Ako je potrebno, izvršite promjene u izborniku i ponovite test. Pažnja! Ove ispravke neće biti automatski dodane u datoteku robots.txt na vašoj web lokaciji.
  7. Kopirajte izmijenjeni sadržaj i dodajte ga u datoteku robots.txt na vašem web serveru.

Osim usluga verifikacije od Yandexa i Googlea, postoje mnoge druge na mreži robots.txt validatori.

Robots.txt generatori

  1. Servis SEOlib.ru Koristeći ovaj alat možete brzo dobiti i provjeriti ograničenja u datoteci Robots.txt.
  2. Generator sa pr-cy.ru Kao rezultat generatora Robots.txt, dobićete tekst koji se mora pohraniti u datoteku pod nazivom Robots.txt i učitati u korijenski direktorij vaše stranice.

Roboti za pretraživanje skeniraju sve informacije na Internetu, ali vlasnici stranica mogu ograničiti ili uskratiti pristup svom resursu. Da biste to učinili, morate blokirati indeksiranje stranice putem servisne datoteke robots.txt.

Ako ne morate potpuno zatvoriti stranicu, onemogućite indeksiranje pojedinačnih stranica. Korisnici ne bi trebali vidjeti servisne dijelove stranice, lične račune ili zastarjele informacije iz odjeljka promocije ili kalendara u pretrazi. Osim toga, morate blokirati indeksiranje skripti, iskačućih prozora i banera, kao i teških datoteka. Ovo će pomoći u smanjenju vremena indeksiranja i smanjenju opterećenja na serveru.

Kako potpuno zatvoriti stranicu

Obično je resurs potpuno zatvoren od indeksiranja tokom ili. Zatvorene su i stranice na kojima webmasteri proučavaju ili sprovode eksperimente.

Možete zabraniti indeksiranje web stranica za sve tražilice, za pojedinačnog robota ili ga zabraniti za sve osim jednog.

Kako zatvoriti pojedinačne stranice

Male vizit karte obično ne zahtijevaju skrivanje pojedinačnih stranica. Za resurse s puno službenih informacija zatvorite stranice i cijele odjeljke:

  • administrativni panel;
  • servisni imenici;
  • lični račun;
  • obrasci za registraciju;
  • narudžbenice;
  • poređenje proizvoda;
  • favoriti;
  • korpa;
  • captcha;
  • iskačući prozori i baneri;
  • pretraga na sajtu;
  • identifikatori sesije.

Preporučljivo je zabraniti indeksiranje tzv. stranice za smeće. To su stare vijesti, promocije i posebne ponude, događaji i kalendarski događaji. Na informativnim stranicama zatvorite članke sa zastarjelim informacijama. U suprotnom, resurs će se smatrati irelevantnim. Kako ne biste zatvorili članke i materijale, redovno ažurirajte podatke u njima.

Zabrana indeksiranja


Kako sakriti druge informacije

Datoteka robots.txt vam omogućava da zatvorite fascikle na web lokaciji, datoteke, skripte, utm oznake. Mogu se sakriti potpuno ili selektivno. Navedite zabranu indeksiranja za sve robote ili pojedinačne robote.

Zabrana indeksiranja

Kako zatvoriti web stranicu koristeći meta tagove

Alternativa datoteci robots.txt je robots meta tag. Upišite ga u izvorni kod stranice u datoteci index.html. Stavite u posudu . Navedite za koje pretraživače web mjesto nije indeksirano. Ako za svakoga, napišite robote. Ako se radi o jednom robotu, navedite njegovo ime. Za Google - Googlebot, za Yandex - Yandex. Postoje dvije opcije za pisanje meta oznake.

Opcija 1.

Opcija 2.

Atribut “content” ima sljedeća značenja:

  • none - indeksiranje je zabranjeno, uključujući noindex i nofollow;
  • noindex - zabranjeno je indeksiranje sadržaja;
  • nofollow - indeksiranje linkova je zabranjeno;
  • follow - indeksiranje linkova je dozvoljeno;
  • indeks - indeksiranje je dozvoljeno;
  • sve - dozvoljeno je indeksiranje sadržaja i linkova.
Na ovaj način možete spriječiti indeksiranje sadržaja, ali i dalje dozvoliti veze. Da biste to učinili, navedite content=”noindex, follow”. Na takvoj stranici linkovi će biti indeksirani, ali tekst neće. Koristite kombinacije vrijednosti za različite slučajeve.

Ako blokirate indeksiranje svoje stranice putem meta oznaka, ne morate posebno kreirati robots.txt.

Koje greške postoje?

Logično- kada su pravila u suprotnosti jedno s drugim. Identifikujte logičke greške provjerom datoteke robots.txt u alatu za testiranje Yandex.Webmaster i Google robota.

Sintaktički- kada su pravila u datoteci pogrešno napisana.

Među najčešćim su:

  • unos bez obzira na velika i mala slova;
  • napisano velikim slovima;
  • navođenje svih pravila u jednom redu;
  • nema prazne linije između pravila;
  • specificiranje indeksa u direktivi;
  • izlistavanje skupa umjesto zatvaranja cijelog odjeljka ili mape;
  • nepostojanje obavezne direktive o zabrani.

Krevetac

    Za blokiranje indeksiranja stranice koristite dvije opcije. Kreirajte datoteku robots.txt i navedite direktivu disallow za sve pretraživače. Druga opcija je dodavanje zabrane putem meta oznake robots u datoteci index.html unutar oznake.

    Zatvorite servisne informacije, zastarjele podatke, skripte, sesije i utm oznake. Kreirajte posebno pravilo za svaku zabranu. Blokirajte sve robote za pretraživanje putem * ili navedite ime određenog indeksa. Ako želite dozvoliti samo jednog robota, napišite pravilo koristeći disallow.

    Kada kreirate datoteku robots.txt, izbjegavajte Boolean i sintaksne greške. Provjerite datoteku koristeći Yandex.Webmaster i Google Robots Testing Tool.

Materijal je pripremila Svetlana Sirvida-Llorente.

Ovaj članak govori o korištenju datoteke robots.txt u praksi u vezi s uklanjanjem nepotrebnih stranica iz . Koje stranice obrisati, kako ih tražiti, kako osigurati da korisni sadržaji nisu blokirani. U suštini, članak je o korištenju samo jedne direktive - Disallow. Opsežna uputstva za korišćenje datoteke robota i drugih direktiva u pomoći za Yandex.

U većini slučajeva zatvaramo nepotrebne stranice za sve robote za pretraživanje, odnosno navodimo Disallow pravila za User-agent: *.

Korisnički agent: *
Disallow: /cgi-bin

Šta bi trebalo blokirati od indeksiranja?

Koristeći direktivu Disallow u datoteci robots.txt, morate blokirati sljedeće od indeksiranja od strane botova za pretraživanje:

  • stranice za prijavu na CMS admin panel;

    Disallow: /bitrix
    Disallow: /login
    Disallow: /admin
    Disallow: /administrator
    Disallow: /wp-admin

  • stranice sa indikatorima sesije;

    Disallow : *session _id =

  • štampane verzije i druge stranice na web stranici (feed, rss, print);
  • stranice različitog sortiranja i filtriranja, ako nemaju punopravni. Optimizacija znači imati vlastite jedinstvene naslove i slike na stranici;
  • stranice s rezultatima pretraživanja web stranice.

Kako tražiti stranice koje treba zatvoriti iz indeksiranja?

ComparseR

Skenirajte web lokaciju i napravite stablo web stranice s desne strane na kartici "Struktura":

Pogledajte sve ugniježđene "grane" stabla.

Nabavite stranice na karticama "Yandex" i "Google" u indeksu tražilice. Zatim, u statistici skeniranja, pogledajte "Pronađeno u Yandexu, nije pronađeno na web-lokaciji" i "Pronađeno na Google-u, nije pronađeno na web-lokaciji".

Yandex.Webmaster

U odeljku "Indeksiranje" - "Struktura sajta" pogledajte sve "grane" strukture.

Provjerite da koristan sadržaj nije slučajno blokiran

robots.txt

Pogledajte sadržaj datoteke robots.txt.

Comparser (provjeri zatvaranje s robots meta tagom)

U postavkama komparatora, prije skeniranja, poništite sljedeće:

Analizirajte rezultate skeniranja na desnoj strani:

Search Console (provjera korisnih blokiranih resursa)

Važno je osigurati da Googlebot ima pristup datotekama stilova i slikama koje se koriste za renderiranje stranica. Da biste to učinili, morate selektivno indeksirati stranice pomoću alata „Prikaži kao Googlebot“ klikom na dugme „Preuzmi i prikaži“. Dobijene dvije slike “Ovako je Googlebot vidio ovu stranicu” i “Ovako će posjetilac stranice vidjeti ovu stranicu” trebale bi izgledati gotovo isto. Primjer stranice problema:

Blokirane dijelove stranice možete vidjeti u tabeli ispod:

Pročitajte više o rezultatima skeniranja u pomoći konzole. Svi blokirani resursi moraju biti deblokirani u datoteci robots.txt pomoću direktive Allow (neće biti moguće deblokirati samo vanjske resurse). U tom slučaju morate precizno otključati samo potrebne resurse. U gornjem primjeru, Google botu je odbijen pristup folderu /templates/, ali je otvoren za neke vrste fajlova unutar ovog foldera:

Korisnički agent: Googlebot
Dozvoli: /templates/*.css
Dozvoli: /templates/*.js
Dozvoli: /templates/*.png
Dozvoli: /templates/*.jpg
Dozvoli: /templates/*.woff
Dozvoli: /templates/*.ttf
Dozvoli: /templates/*.svg
Disallow: /templates/