Menü
Ücretsiz
Kayıt
Ev  /  Dermatit/ Robot txt indekslemesi yasaktır. Gerekli sayfaların indekslenmesi nasıl önlenir? Sorgu dizesi içeren tüm sayfaların dizine eklenmesini engelle

Robot txt indekslemesi yasaktır. Gerekli sayfaların indekslenmesi nasıl önlenir? Sorgu dizesi içeren tüm sayfaların dizine eklenmesini engelle

Örneğin, blogunuzun tasarımını değiştirmeye karar verdiniz ve şu anda arama botlarının kaynağı ziyaret etmesini istemiyorsunuz. Veya yeni bir web sitesi oluşturdunuz ve üzerine bir motor yüklediniz; kullanışlı bilgi, o zaman bunu arama botlarına göstermemelisiniz. Bu makalede bir sitenin Yandex'de, Google'da veya hepsinde aynı anda indekslenmesini nasıl engelleyeceğinizi öğreneceksiniz. arama motorları Ah. Ancak bundan önce benzer bir makale daha okuyabilirsiniz: “?” Şimdi başlayalım.

1. robots.txt dosyasını kullanarak sitenin dizine eklenmesini engelleyin.
Başlamak için ihtiyacınız var. Bunu yapmak için bilgisayarınızda robots adında ve .txt uzantılı normal bir metin belgesi oluşturun. İşte az önce yarattığım şey:

Şimdi bu dosyanın . Kaynak WordPress motorunda oluşturulmuşsa kök klasör, wp-content, wp-includes vb. klasörlerin bulunduğu yerdir.

Yani, barındırmaya boş bir dosya yükledik, şimdi bu dosyayı bir şekilde blogun indekslenmesini kapatmak için kullanmamız gerekiyor. Bu, daha önce de yazdığım gibi, yalnızca Yandex, Google veya tüm arama motorları için aynı anda yapılabilir. Her şeyi sırayla konuşalım.

Bir sitenin yalnızca Yandex için indekslenmesi nasıl engellenir?
Robots.txt dosyasına aşağıdaki satırı yazın:

Kullanıcı aracısı: Yandex
İzin verme: /

Yandex'in kaynağınızı indekslemesini engellediğinizden emin olmak için, henüz yapmadıysanız önce bir site ekleyin ve ardından bu sayfaya gidin. Daha sonra sitenizin birkaç sayfasını girin ve “Kontrol Et” butonuna tıklayın. Sayfaların dizine eklenmesi yasaklanmışsa şunun gibi bir şey görürsünüz:

Bir sitenin yalnızca Google tarafından dizine eklenmesi nasıl engellenir?
Robots.txt dosyasını açın ve buraya aşağıdaki satırı yazın:

Kullanıcı aracısı: Googlebot
İzin verme: /

Google'ın siteyi dizine eklemediğini kontrol etmek için kaynağınızı oluşturun, Google Web Yöneticisi'ne ekleyin ve ona gidin. Burada ayrıca birkaç sayfa girmeniz ve "kontrol et" düğmesine tıklamanız gerekir.


Google arama motorunun, robots.txt dosyasında yasak olan belgeleri bile indekslediğini ve bunları "snot" adı verilen ek bir dizine eklediğini fark ettim. Nedenini bilmiyorum ama robots.txt dosyasını kullanarak bir siteyi veya tek bir sayfayı engellemenin %100 imkansız olduğunu anlamalısınız. Anladığım kadarıyla bu dosya yalnızca Google için bir öneridir ve neyin indekslenip neyin indekslenmeyeceğine karar verir.

Bir sitenin tüm arama motorları için dizine eklenmesi nasıl engellenir?
Tüm arama motorlarının kaynağınızı aynı anda dizine eklemesini önlemek için robots.txt dosyasına aşağıdaki satırı ekleyin:

Kullanıcı aracısı: *
İzin verme: /

Artık Yandex'e veya Google Web Yöneticisi'ne giderek indeksleme yasağını da kontrol edebilirsiniz.

Robots.txt dosyanızı şu adreste görebilirsiniz:

Vashdomain.ru/robots.txt

Bu dosyaya yazdığınız her şey tarayıcıda görüntülenmelidir. Bu adrese gittiğinizde karşınıza bir mesaj çıkıyorsa dosyanızı yanlış yere yüklemişsiniz demektir.

Bu arada robots.txt dosyam . Kaynağınız WordPress motorunda oluşturulmuşsa, onu kolayca kopyalayabilirsiniz. Arama botlarının yalnızca gerekli belgeleri dizine eklemesini ve sitede hiçbir kopyanın bulunmamasını sağlamak için doğru şekilde yapılandırılmıştır.

2. Araç çubuğunu kullanarak sitenin indekslenmesini engelleyin.
Bu yöntem yalnızca kaynağı WordPress'te yapılanlar için uygundur. “Denetim Masası” - “Ayarlar” - “Okuma” ya gidin. Burada "Arama motorlarının siteyi dizine eklememesini önerin" yazısının yanındaki kutuyu işaretlemeniz gerekiyor.


Lütfen aşağıda çok ilginç bir yazının bulunduğunu unutmayın: "İsteğinizi takip edip etmemeye arama motorları kendileri karar verir." Yukarıda yazdığım şey tam da bu. Yandex büyük olasılıkla indekslenmesi yasak olan sayfaları indekslemeyecektir, ancak Google ile sorunlar ortaya çıkabilir.

3. Siteyi manuel olarak indekslemeden kapatıyoruz.
Bir kaynağın veya sayfanın tamamını indeksleme işleminden kapattığınızda, kaynak kodunda otomatik olarak aşağıdaki satır görünür:

meta adı = "robotlar" içerik = "noindex, takip et"

Arama botlarına belgenin dizine eklenemeyeceğini bildirir. Bu satırı sitenizin herhangi bir yerine manuel olarak yazabilirsiniz, asıl mesele tüm sayfalarda görünmesi ve ardından kaynağın indekslenmesinin kapatılmasıdır.

Bu arada web sitenizde gereksiz bir doküman oluşturuyorsanız ve arama botlarının bunu indekslemesini istemiyorsanız bu satırı kaynak koduna da ekleyebilirsiniz.

Güncellemeden sonra sayfanın kaynak kodunu (CTRL + U) açın ve bu satırın orada görünüp görünmediğine bakın. Eğer varsa, o zaman her şey yolunda demektir. Her ihtimale karşı, Yandex ve Google'ın web yöneticilerine yönelik araçlarını kullanarak da kontrol edebilirsiniz.

Hepsi bugün için. Artık bir sitenin dizine eklenmesini nasıl engelleyeceğinizi biliyorsunuz. Umarım bu makale size yardımcı olmuştur. Herkese güle güle.

Bir siteyi arama motorları için optimize etmenin aşamalarından biri robots.txt dosyasını derlemektir. Bu dosyayı kullanarak, arama robotlarının bir kısmının veya tamamının sitenizi veya sitenizin indekslenmesi amaçlanmayan belirli kısımlarını indekslemesini engelleyebilirsiniz. Özellikle sayfaların yazdırılabilir sürümleri gibi yinelenen içeriklerin dizine eklenmesini önleyebilirsiniz.

Arama robotları, indekslemeye başlamadan önce, robotun sitenin hangi bölümlerinin yasaklandığını bilmek için her zaman sitenizin kök dizinindeki robots.txt dosyasına (örneğin, http://site.ru/robots.txt) başvurur. indekslemeden. Ancak hiçbir şeyi yasaklamayacak olsanız bile yine de bu dosyayı oluşturmanız önerilir.

Robots.txt uzantısından da görebileceğiniz gibi bu bir metin dosyasıdır. Bu dosyayı oluşturmak veya düzenlemek için Notepad gibi en basit metin editörlerini kullanmak daha iyidir. robots.txt, sitenin kök dizinine yerleştirilmeli ve aşağıda tartışacağımız kendi formatına sahip olmalıdır.

Robots.txt dosya formatı

Robots.txt dosyası en az iki gerekli girişi içermelidir. Bunlardan ilki, hangi arama robotunun sonraki talimatları takip etmesi gerektiğini belirten Kullanıcı aracısı direktifidir. Değer, robotun adı (googlebot, Yandex, StackRambler) veya tüm robotlara aynı anda erişiyorsanız * simgesi olabilir. Örneğin:

Kullanıcı aracısı: googlebot

Robotun adını ilgili arama motorunun web sitesinde bulabilirsiniz. Daha sonra bir veya daha fazla Disallow yönergesi bulunmalıdır. Bu yönergeler robota hangi dosya ve klasörlerin dizine eklenmesine izin verilmediğini bildirir. Örneğin aşağıdaki satırlar robotların geribildirim.php dosyasını ve cgi-bin dizinini indekslemesini engeller:

İzin verme: /feedback.php İzin verme: /cgi-bin/

Dosya veya klasörlerin yalnızca başlangıç ​​karakterlerini de kullanabilirsiniz. Disallow: /forum satırı, sitenin kökünde adı forumla başlayan tüm dosya ve klasörlerin, örneğin http://site.ru/forum.php dosyası ve http://site klasörü gibi dizine eklenmesini yasaklar. ru/forum/ tüm içeriğiyle birlikte. Disallow boşsa bu, robotun tüm sayfaları dizine ekleyebileceği anlamına gelir. Disallow değeri / sembolü ise tüm sitenin indekslenmesinin yasak olduğu anlamına gelir.

Her Kullanıcı aracısı alanı için en az bir İzin Verme alanı bulunmalıdır. Yani, herhangi bir şeyin indekslenmesini yasaklamayacaksanız robots.txt dosyası aşağıdaki girişleri içermelidir:

Kullanıcı aracısı: * İzin verme:

Ek Direktifler

Yandex ve Google, normal ifadelerin yanı sıra Disallow'un tam tersi olan, yani hangi sayfaların indekslenebileceğini belirten Allow direktifinin kullanımına da izin veriyor. Aşağıdaki örnekte, Yandex'in /articles ile başlayan sayfa adresleri dışındaki her şeyi dizine eklemesi yasaktır:

Kullanıcı aracısı: Yandex İzin Ver: /articles İzin Verme: /

Bu örnekte, İzin Ver direktifi İzin Verme'den önce yazılmalıdır, aksi takdirde Yandex bunu sitenin indekslenmesinin tamamen yasaklanması olarak anlayacaktır. Boş bir İzin Ver yönergesi ayrıca site dizine eklemeyi tamamen devre dışı bırakır:

Kullanıcı aracısı: Yandex İzin ver:

eş değer

Kullanıcı aracısı: Yandex İzin Verme: /

Standart olmayan yönergelerin yalnızca bunları destekleyen arama motorları için belirtilmesi gerekir. Aksi takdirde bu girişi anlamayan bir robot, girişi veya robots.txt dosyasının tamamını hatalı işleyebilir. Ek yönergeler ve genel olarak robots.txt dosyasındaki komutların tek bir robot tarafından anlaşılması hakkında daha fazla bilgi, ilgili arama motorunun web sitesinde bulunabilir.

robots.txt dosyasındaki normal ifadeler

Çoğu arama motoru yalnızca açıkça belirtilen dosya ve klasör adlarını dikkate alır, ancak daha gelişmiş arama motorları da vardır. Google Robot ve Yandex Robot, robots.txt dosyasında basit düzenli ifadelerin kullanımını destekler ve bu da web yöneticilerinin iş yükünü önemli ölçüde azaltır. Örneğin, aşağıdaki komutlar Googlebot'un .pdf uzantılı tüm dosyaları dizine eklemesini engeller:

Kullanıcı aracısı: googlebot İzin Verme: *.pdf$

Yukarıdaki örnekte * herhangi bir karakter dizisidir ve $ bağlantının sonunu belirtir.

Kullanıcı aracısı: Yandex İzin Ver: /articles/*.html$ İzin Verme: /

Yukarıdaki yönergeler Yandex'in yalnızca /articles/ klasöründe bulunan ".html" uzantılı dosyaları dizine eklemesine olanak tanır. İndeksleme için diğer her şey yasaktır.

Site Haritası

XML site haritasının konumunu robots.txt dosyasında belirtebilirsiniz:

Kullanıcı aracısı: googlebot İzin Verme: Site Haritası: http://site.ru/sitemap.xml

eğer çok çok sayıda sitedeki sayfalar ve site haritasını parçalara ayırmanız gerekiyordu, ardından robots.txt dosyasında haritanın tüm bölümlerini belirtmeniz gerekiyor:

Kullanıcı aracısı: Yandex İzin Verme: Site Haritası: http://mysite.ru/my_sitemaps1.xml Site Haritası: http://mysite.ru/my_sitemaps2.xml

Site aynaları

Bildiğiniz gibi genellikle aynı siteye iki adresten erişilebiliyor: hem www'li hem de www'siz. Bir arama robotu için site.ru ve www.site.ru farklı sitelerdir ancak aynı içeriğe sahiptir. Bunlara ayna denir.

Hem www'li hem de www'siz site sayfalarına bağlantıların olması nedeniyle sayfaların ağırlığı www.site.ru ve site.ru arasında bölünebilir. Bunun olmasını önlemek için arama motorunun sitenin ana aynasını belirtmesi gerekir. “Yapıştırma” sonucunda tüm ağırlık tek bir ana aynaya ait olacak ve site arama sonuçlarında daha üst sıralarda yer alabilecektir.

Host direktifini kullanarak Yandex'in ana yansıtmasını doğrudan robots.txt dosyasında belirleyebilirsiniz:

Kullanıcı aracısı: Yandex İzin Verme: /feedback.php İzin Verme: /cgi-bin/ Ana Bilgisayar: www.site.ru

Yapıştırdıktan sonra www.site.ru aynası tüm ağırlığa sahip olacak ve arama sonuçlarında daha yüksek bir konuma sahip olacaktır. Ve arama motoru site.ru'yu hiç indekslemeyecek.

Diğer arama motorları için ana aynanın seçimi, ek aynalardan ana aynaya sunucu tarafında kalıcı bir yönlendirmedir (kod 301). Bu, .htaccess dosyası ve mod_rewrite modülü kullanılarak yapılır. Bunu yapmak için .htaccess dosyasını sitenin kök dizinine yerleştirin ve buraya aşağıdakileri yazın:

RewriteEngine Açık Seçenekler +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Sonuç olarak, site.ru'dan gelen tüm istekler www.site.ru'ya gidecek, yani site.ru/page1.php www.site.ru/page1.php'ye yönlendirilecektir.

Yönlendirme yöntemi tüm arama motorları ve tarayıcılarda çalışacaktır ancak yine de Host yönergesinin Yandex için robots.txt dosyasına eklenmesi önerilir.

robots.txt dosyasındaki yorumlar

Ayrıca robots.txt dosyasına yorumlar da ekleyebilirsiniz; bunlar # simgesiyle başlar ve yeni bir satırla biter. Yorumların ayrı bir satıra yazılması tavsiye edilir veya hiç kullanılmaması daha iyidir.

Yorumların kullanımına bir örnek:

Kullanıcı aracısı: StackRambler Disallow: /garbage/ # bu klasörde işe yarar hiçbir şey yok Disallow: /doc.xhtml # ve bu sayfada da # ve bu dosyadaki tüm yorumlar da işe yaramaz

robots.txt dosyası örnekleri

1. Tüm robotların tüm site belgelerini dizine eklemesine izin verin:

Kullanıcı aracısı: * İzin verme:
Kullanıcı aracısı: * İzin verme: /

3. Google arama robotunun, geribildirim.php dosyasını ve cgi-bin dizininin içeriğini dizine eklemesini yasaklıyoruz:

Kullanıcı aracısı: googlebot İzin Verme: /cgi-bin/ İzin Verme: /feedback.php

4. Tüm robotların sitenin tamamını dizine eklemesine izin veriyoruz ve Yandex arama motoru robotunun geribildirim.php dosyasını ve cgi-bin dizininin içeriğini dizine eklemesini yasaklıyoruz:

Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin/ İzin Verme: /feedback.php Ana Bilgisayar: www.site.ru Kullanıcı aracısı: * İzin Verme:

5. Tüm robotların sitenin tamamını dizine eklemesine izin veriyoruz ve Yandex robotunun yalnızca sitenin kendisi için tasarlanan kısmını dizine eklemesine izin veriyoruz:

Kullanıcı aracısı: Yandex İzin Ver: /yandex İzin Verme: / Ana Bilgisayar: www.site.ru Kullanıcı aracısı: * İzin Verme:

Boş satırlar farklı robotlar için kısıtlamaları ayırır. Her kısıtlama bloğu, bu site indeksleme kurallarının geçerli olduğu robotu belirten Kullanıcı Aracısı alanını içeren bir satırla başlamalıdır.

Genel hatalar

Robots.txt dosyasındaki boş bir satırın, farklı robotlar için iki giriş arasında bir ayırıcı olduğunun dikkate alınması önemlidir. Ayrıca bir satırda birden fazla yönerge belirtemezsiniz. Bir dosyanın dizine eklenmesini engellerken web yöneticileri genellikle dosya adının önündeki / karakterini atlar.

TeleportPro gibi siteyi tamamen indirmek için tasarlanmış çeşitli programlar için siteyi indeksleme yasağını robots.txt'de belirtmeye gerek yoktur. Hiçbir indirme programı veya tarayıcı bu dosyaya bakmaz ve orada yazılan talimatları uygulamaz. Yalnızca arama motorlarına yöneliktir. Ayrıca sitenizin yönetici panelini robots.txt dosyasında engellememelisiniz, çünkü herhangi bir yerde bağlantı yoksa dizine eklenmez. Yönetici alanının konumunu yalnızca bilmemesi gereken kişilere açıklayacaksınız. Çok büyük robots.txt dosyasının arama motoru tarafından göz ardı edilebileceğini de hatırlamakta fayda var. Dizine eklenmesi amaçlanmayan çok fazla sayfanız varsa, bunları siteden kaldırmak veya ayrı bir dizine taşımak ve bu dizinin dizine eklenmesini önlemek daha iyidir.

Robots.txt dosyasında hatalar olup olmadığı kontrol ediliyor

Arama motorlarının robots dosyanızı nasıl anladığını kontrol ettiğinizden emin olun. Google'ı kontrol etmek için Google Web Yöneticisi Araçlarını kullanabilirsiniz. Robots.txt dosyanızın Yandex tarafından nasıl anlaşıldığını öğrenmek istiyorsanız Yandex.Webmaster hizmetini kullanabilirsiniz. Bu, herhangi bir hatayı zamanında düzeltmenize olanak tanır. Ayrıca bu hizmetlerin sayfalarında robots.txt dosyası oluşturmaya yönelik öneriler ve diğer birçok yararlı bilgiyi bulabilirsiniz.

Makalenin kopyalanması yasaktır.

Robots.txt, sitenin kök dizininde bulunan özel bir dosyadır. Web yöneticisi, hangi sayfaların ve verilerin arama motorları tarafından dizine eklenmesinin dışında tutulacağını belirtir. Dosya, sitenin bölümlerine erişimi açıklayan yönergeleri içerir (sözde robot istisna standardı). Örneğin mobil cihazlar ve masaüstü bilgisayarlar için tasarlanmış arama robotlarına farklı erişim ayarları yapmak için kullanabilirsiniz. Doğru şekilde ayarlamak çok önemlidir.

robots.txt gerekli mi?

robots.txt ile şunları yapabilirsiniz:

  • Tarama sınırını (bir arama robotunun tek bir taramada tarayabileceği URL sayısı) boşa harcamamak için benzer ve gereksiz sayfaların dizine eklenmesini yasaklayın. Onlar. robot daha önemli sayfaları indeksleyebilecek.
  • görselleri arama sonuçlarından gizleyin.
  • önemsiz komut dosyalarını, stil dosyalarını ve diğer kritik olmayan sayfa kaynaklarını indekslemeden kapatın.

Bu, Google veya Yandex tarayıcısının sayfaları analiz etmesini engelleyecekse dosyaları engellemeyin.

Robots.txt dosyası nerede bulunur?

Robots.txt dosyasında ne olduğunu görmek istiyorsanız tarayıcınızın adres çubuğuna site.ru/robots.txt adresini girmeniz yeterlidir.

Fiziksel olarak robots.txt dosyası, barındırmadaki sitenin kök klasöründe bulunur. Beget.ru hostingim var, bu yüzden bu hostingde robots.txt dosyasının konumunu göstereceğim.


Doğru robots.txt nasıl oluşturulur?

Robots.txt dosyası bir veya daha fazla kuraldan oluşur. Her kural sitede yol indekslenmesini engeller veya buna izin verir.

  1. Bir metin düzenleyicide robots.txt adında bir dosya oluşturun ve bu dosyayı aşağıdaki kurallara göre doldurun.
  2. Robots.txt dosyası ASCII veya UTF-8 kodlu bir metin dosyası olmalıdır. Diğer kodlamalardaki karakterlere izin verilmez.
  3. Sitede böyle bir dosyanın yalnızca bir tane olması gerekir.
  4. Robots.txt dosyası şuraya yerleştirilmelidir: kök dizini alan. Örneğin, http://www.example.com/ sitesindeki tüm sayfaların dizine eklenmesini kontrol etmek için robots.txt dosyasının http://www.example.com/robots.txt konumunda bulunması gerekir. Bir alt dizinde olmamalıdır(örneğin, adreste http://example.com/pages/robots.txt). Kök dizine erişimde zorluk yaşıyorsanız barındırma sağlayıcınızla iletişime geçin. Sitenin kök dizinine erişiminiz yoksa meta etiketler gibi alternatif bir engelleme yöntemi kullanın.
  5. Robots.txt dosyası şu adreslere eklenebilir: alt alanlar(örneğin http:// İnternet sitesi.example.com/robots.txt) veya standart olmayan bağlantı noktaları (örneğin, http://example.com: 8181 /robots.txt).
  6. Dosyayı Yandex.Webmaster hizmetinde ve Google Search Console'da kontrol edin.
  7. Dosyayı sitenizin kök dizinine yükleyin.

Burada iki kural içeren örnek bir robots.txt dosyası verilmiştir. Aşağıda onun açıklaması var.

Kullanıcı aracısı: Googlebot İzin Verme: /nogooglebot/ Kullanıcı aracısı: * İzin ver: / Site Haritası: http://www.example.com/sitemap.xml

Açıklama

  1. Googlebot adlı bir kullanıcı aracısı, http://example.com/nogooglebot/ dizinini ve onun alt dizinlerini dizine eklememelidir.
  2. Diğer tüm kullanıcı aracılarının sitenin tamamına erişimi vardır (ihmal edilebilir, varsayılan olarak tam erişim verildiğinden sonuç aynı olacaktır).
  3. Bu sitenin Site Haritası dosyası http://www.example.com/sitemap.xml adresinde bulunur.

İzin Verme ve İzin Verme yönergeleri

Siteye veya bazı bölümlerine indekslemeyi ve robot erişimini engellemek için İzin Verme yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Verme: / # sitenin tamamına erişimi engeller Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin # "/cgi-bin" ile başlayan # sayfalara erişimi engeller

Standarda göre her Kullanıcı aracısı yönergesinden önce boş bir satır beslemesi eklenmesi önerilir.

# sembolü yorumları tanımlamak için tasarlanmıştır. Bu karakterden sonraki ve ilk satır sonundan önceki her şey dikkate alınmaz.

Robotun siteye veya bazı bölümlerine erişmesine izin vermek için İzin Ver yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Ver: /cgi-bin İzin Verme: / #, "/cgi-bin" ile başlayan # sayfalar dışındaki her şeyin indirilmesini yasaklar

Kullanıcı aracısı, Disallow ve Allow direktifleri arasında boş satır sonlarına izin verilmez.

İlgili Kullanıcı aracısı bloğundaki İzin Ver ve İzin Verme yönergeleri, URL önekinin uzunluğuna göre (en küçükten en büyüğe) sıralanır ve sırayla uygulanır. Belirli bir site sayfası için birden fazla yönerge uygunsa robot, sıralanmış listede görünüm sırasına göre sonuncusunu seçer. Dolayısıyla robots.txt dosyasındaki yönergelerin sırası, robotun bunları nasıl kullandığını etkilemez. Örnekler:

# Orijinal robots.txt: Kullanıcı aracısı: Yandex İzin Ver: /catalog İzin Verme: / # Sıralanmış robots.txt: Kullanıcı aracısı: Yandex İzin Verme: / İzin Ver: /catalog # Yalnızca "/catalog" ile başlayan # sayfaların indirilmesine izin verir # Orijinal robots.txt: Kullanıcı aracısı: Yandex İzin Ver: / İzin Ver: /catalog/auto İzin Verme: /catalog # Sıralanmış robots.txt: Kullanıcı aracısı: Yandex İzin Ver: / İzin Verme: /catalog İzin Ver: /catalog/auto # sayfaların indirilmesini yasaklar "/catalog" # ile başlar ancak "/catalog/auto" ile başlayan sayfaların indirilmesine izin verir.

Ön ekleri aynı uzunlukta olan iki yönerge arasında çelişki olması durumunda Allow yönergesi öncelikli olur.

* ve $ özel karakterlerini kullanma

Allow ve Disallow direktiflerinin yollarını belirtirken * ve $ özel karakterlerini kullanabilir, böylece belirli normal ifadeleri belirtebilirsiniz.

Özel karakter * herhangi bir (boş dahil) karakter dizisi anlamına gelir.

$ özel karakteri satırın sonunu, ondan önceki karakterin sonuncu olduğunu ifade eder.

Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" # ve "/cgi-bin/private/test.aspx" yasaklar İzin Verme: /*private # yalnızca yasaklamaz "/private", # ama aynı zamanda "/cgi-bin/private"

Site Haritası Direktifi

Site yapısını açıklamak için bir Site Haritası dosyası kullanıyorsanız, site haritası direktifinin parametresi olarak dosyanın yolunu belirtin (birkaç dosya varsa tümünü belirtin). Örnek:

Kullanıcı aracısı: Yandex İzin Ver: / site haritası: https://example.com/site_structure/my_sitemaps1.xml site haritası: https://example.com/site_structure/my_sitemaps2.xml

Yönerge kesişimsel olduğundan, robots.txt dosyasında belirtildiği yere bakılmaksızın robot tarafından kullanılacaktır.

Robot dosyanın yolunu hatırlayacak, verileri işleyecek ve sonuçları sonraki indirme oturumlarında kullanacaktır.

Tarama gecikmesi yönergesi

Sunucu çok yüklüyse ve robotun isteklerini işlemek için zamanı yoksa Crawl-delay yönergesini kullanın. Arama robotuna, bir sayfanın yüklenmesinin sonu ile bir sonrakinin yüklenmesinin başlangıcı arasındaki minimum süreyi (saniye cinsinden) ayarlamanıza olanak tanır.

Site tarama hızını değiştirmeden önce robotun hangi sayfalara daha sık eriştiğini öğrenin.

  • Sunucu günlüklerini analiz edin. Siteden veya barındırma sağlayıcısından sorumlu kişiyle iletişime geçin.
  • Yandex.Webmaster'daki Dizin Oluşturma → Tarama istatistikleri sayfasındaki URL listesine bakın (düğmeyi Tüm sayfalar olarak ayarlayın).

Robotun hizmet sayfalarına eriştiğini fark ederseniz Disallow yönergesini kullanarak bu sayfaların robots.txt dosyasında dizine eklenmesini engelleyin. Bu, robottan gelen gereksiz çağrıların sayısını azaltmaya yardımcı olacaktır.

Clean-param direktifi

Yönerge yalnızca Yandex robotuyla çalışır.

Site sayfası adresleri, içeriklerini etkilemeyen dinamik parametreler içeriyorsa (oturum tanımlayıcıları, kullanıcılar, yönlendirenler vb.), bunları Clean-param yönergesini kullanarak tanımlayabilirsiniz.

Yandex Robot bu yönergeyi kullanarak yinelenen bilgileri tekrar tekrar yüklemeyecektir. Bu, sitenizi tarama verimliliğini artıracak ve sunucudaki yükü azaltacaktır.

Örneğin, sitede sayfalar var:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Ref parametresi yalnızca isteğin hangi kaynaktan yapıldığını takip etmek için kullanılır ve içeriği değiştirmez; üç adreste de kitap_id=123 ile aynı sayfa gösterilecektir. Daha sonra yönergeyi şu şekilde belirtirseniz:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: ref /some_dir/get_book.pl

Yandex robotu tüm sayfa adreslerini bire indirecektir:

www.example.com/some_dir/get_book.pl?book_id=123

Sitede böyle bir sayfa mevcutsa arama sonuçlarına dahil edilecektir.

Direktif Sözdizimi

Temiz parametre: p0[&p1&p2&..&pn]

& ile ayrılmış ilk alan, robotun dikkate alması gerekmeyen parametreleri listeler. İkinci alan, kuralın uygulanması gereken sayfaların yol önekini belirtir.

Not. Clean-Param yönergesi kesitsel olduğundan robots.txt dosyasının herhangi bir yerinde belirtilebilir. Birden fazla direktif belirtilirse robot bunların hepsini dikkate alacaktır.

Önek, robots.txt dosyasına benzer bir formatta normal bir ifade içerebilir ancak bazı kısıtlamalarla: yalnızca A-Za-z0-9.-/*_ karakterleri kullanılabilir. Bu durumda * sembolü, robots.txt dosyasındakiyle aynı şekilde yorumlanır: * sembolü her zaman örtülü olarak önekin sonuna eklenir. Örneğin:

Temiz parametre: s /forum/showthread.php

Durum dikkate alınır. Kuralın uzunluğu konusunda bir sınır vardır: 500 karakter. Örneğin:

Temizleme parametresi: abc /forum/showthread.php Temizleme parametresi: sid&sort /forum/*.php Temizleme parametresi: someTrash&otherTrash

HOST direktifi

Açık şu an Yandex bu yönergeyi desteklemeyi bıraktı.

Robots.txt dosyasını düzeltin: ayar

Robots.txt dosyasının içeriği sitenin türüne (çevrimiçi mağaza, blog), kullanılan CMS'ye, yapı özelliklerine ve bir dizi başka faktöre bağlı olarak farklılık gösterir. Bu nedenle ticari bir web sitesi için bu dosyanın oluşturulması, özellikle karmaşık bir proje ise, yeterli tecrübeye sahip bir SEO uzmanı tarafından yapılmalıdır.

Hazırlıksız bir kişi büyük olasılıkla kabul edemeyecek doğru karar içeriğin hangi bölümünün dizine eklenmesinin en iyi şekilde engelleneceği ve hangi bölümün arama sonuçlarında görünmesine izin verilmesi gerektiği ile ilgili.

WordPress için doğru Robots.txt örneği

Kullanıcı aracısı: *# Genel kurallar Yandex ve Google dışındaki robotlar için # çünkü onlar için kurallar aşağıdadır Disallow: /cgi-bin # barındırmadaki klasör Disallow: /? # ana sayfadaki tüm istek parametreleri İzin verme: /wp- # tüm WP dosyaları: /wp-json/, /wp-includes, /wp-content/plugins İzin verme: /wp/ # eğer bir /wp/ alt dizini varsa burada CMS kurulu (eğer değilse, # kural silinebilir) İzin Verme: *?s= # arama İzin Verme: *&s= # arama İzin Verme: /arama/ # arama İzin Verme: /yazar/ # yazar arşivi İzin verme: /users/ # yazar arşivi İzin verme: */ geri izleme # geri izlemeler, yorumlarda bir makaleye açık # bağlantının görünümüyle ilgili bildirimler İzin verme: */feed # tüm yayınlar İzin verme: */rss # rss beslemesi İzin verme: */embed # tüm yerleştirmelere İzin verme : */wlwmanifest.xml # manifest xml dosyası Windows Live Writer (eğer kullanmazsanız, # kural silinebilir) İzin Verme: /xmlrpc.php # WordPress API dosyası İzin Verme: *utm*= # utm etiketli bağlantılar İzin verme: *openstat= # openstat etiketli bağlantılar İzin ver: */uploads # yüklenen dosyaların bulunduğu klasörü aç Site haritası: http://site.ru/sitemap.xml # site haritası adresi Kullanıcı aracısı: GoogleBot # Google için kurallar (I) yorumları kopyalamayın) İzin Verme: /cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/ İzin verme: *?s= İzin verme: *&s= İzin verme: /arama/ İzin verme: /author/ İzin verme: /users/ İzin verme: */geri izleme İzin verme: */feed İzin verme: */ rss İzin Verme: */embed İzin Verme: */wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Verme: *utm*= İzin Verme: *openstat= İzin Ver: */uploads İzin Ver: /*/*.js # js komut dosyalarını / wp içinde aç - (/*/ - öncelik için) İzin ver: /*/*.css # css dosyalarını /wp- içinde aç (/*/ - öncelik için) İzin ver: /wp-*.png # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.jpg # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.jpeg # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.gif # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-admin/admin-ajax.php # JS ve CSS'yi engellememek için eklentiler tarafından kullanılır Kullanıcı aracısı: Yandex # Yandex için kurallar (Yorumları kopyalamıyorum) İzin Verme: /cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/ İzin verme: *?s= İzin verme: *&s= İzin verme: /arama/ İzin verme: /author/ İzin verme: /users/ İzin verme: */geri izleme İzin verme: */feed İzin verme: */ rss İzin Verme: */embed İzin Verme: */wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Ver: */uploads İzin Ver: /*/*.js İzin Ver: /*/*.css İzin Ver: /wp-*.png İzin Ver: /wp-*.jpg İzin Ver: /wp-*.jpeg İzin Ver: /wp-*.gif İzin Ver: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex #'in indekslenmesini engellememeyi, aksine silmeyi önerir etiket parametreleri, # Google bu tür kuralları desteklemiyor Clean-Param: openstat # benzer

Joomla için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /yönetici/
İzin verme: /cache/
İzin verme: /içerir/
İzin verme: /kurulum/
İzin verme: /dil/
İzin verme: /kütüphaneler/
İzin verme: /medya/
İzin verme: /modules/
İzin verme: /eklentiler/
İzin verme: /şablonlar/
İzin verme: /tmp/
İzin verme: /xmlrpc/

Bitrix için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /*index.php$
İzin verme: /bitrix/
İzin verme: /auth/
İzin verme: /kişisel/
İzin verme: /upload/
İzin verme: /arama/
İzin verme: /*/arama/
İzin verme: /*/slide_show/
İzin verme: /*/gallery/*order=*
İzin verme: /*?print=
İzin verme: /*&print=
İzin verme: /*register=
İzin verme: /*forgot_password=
İzin verme: /*change_password=
İzin verme: /*login=
İzin verme: /*çıkış=
İzin verme: /*auth=
İzin verme: /*?action=
İzin verme: /*action=ADD_TO_COMPARE_LIST
İzin verme: /*action=DELETE_FROM_COMPARE_LIST
İzin verme: /*action=ADD2BASKET
İzin verme: /*action=SATIN AL
İzin verme: /*bitrix_*=
İzin verme: /*backurl=*
İzin verme: /*BACKURL=*
İzin verme: /*back_url=*
İzin verme: /*BACK_URL=*
İzin verme: /*back_url_admin=*
İzin verme: /*print_course=Y
İzin verme: /*COURSE_ID=
İzin verme: /*?COURSE_ID=
İzin verme: /*?PAGEN
İzin verme: /*PAGEN_1=
İzin verme: /*PAGEN_2=
İzin verme: /*PAGEN_3=
İzin verme: /*PAGEN_4=
İzin verme: /*PAGEN_5=
İzin verme: /*PAGEN_6=
İzin verme: /*PAGEN_7=

İzin verme: /*PAGE_NAME=arama
İzin verme: /*PAGE_NAME=user_post
İzin verme: /*PAGE_NAME=detail_slide_show
İzin verme: /*SHOWALL
İzin verme: /*show_all=
Site Haritası: http://XML formatı haritanızın yolu

MODx için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /assets/cache/
İzin verme: /assets/docs/
İzin verme: /assets/export/
İzin verme: /assets/import/
İzin verme: /assets/modules/
İzin verme: /assets/plugins/
İzin verme: /assets/snippet'ler/
İzin verme: /install/
İzin verme: /yönetici/
Site haritası: http://site.ru/sitemap.xml

Drupal için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /veritabanı/
İzin verme: /içerir/
İzin verme: /misc/
İzin verme: /modules/
İzin verme: /siteler/
İzin verme: /temalar/
İzin verme: /scripts/
İzin verme: /güncellemeler/
İzin verme: /profiller/
İzin verme: /profil
İzin verme: /profil/*
İzin verme: /xmlrpc.php
İzin verme: /cron.php
İzin verme: /update.php
İzin verme: /install.php
İzin verme: /index.php
İzin verme: /admin/
İzin verme: /yorum/yanıt/
İzin verme: /contact/
İzin verme: /çıkış/
İzin verme: /arama/
İzin verme: /user/register/
İzin verme: /kullanıcı/şifre/
İzin verme: *kayıt ol*
İzin verme: *giriş yap*
İzin verme: /en çok oy alan-
İzin verme: /mesajlar/
İzin verme: /book/export/
İzin verme: /user2userpoints/
İzin verme: /kullanıcınoktalarım/
İzin verme: /tagadelic/
İzin verme: /yönlendirme/
İzin verme: /toplayıcı/
İzin verme: /files/pin/
İzin verme: /oylarınız
İzin verme: /yorumlar/en son
İzin verme: /*/düzenle/
İzin verme: /*/delete/
İzin verme: /*/dışa aktarma/html/
İzin verme: /taxonomy/term/*/0$
İzin verme: /*/düzenle$
İzin verme: /*/outline$
İzin verme: /*/revizyonlar$
İzin verme: /*/iletişim$
İzin verme: /*indirme borusu
İzin verme: /node$
İzin verme: /node/*/track$
İzin verme: /*&
İzin verme: /*%
İzin verme: /*?page=0
İzin verme: /*bölüm
İzin verme: /*sipariş
İzin verme: /*?sırala*
İzin verme: /*&sırala*
İzin verme: /*votesupdown
İzin verme: /*takvim
İzin verme: /*index.php
İzin ver: /*?page=
İzin verme: /*?
Site Haritası: http://XML formatı haritanızın yolu

DİKKAT!

CMS sürekli güncellenmektedir. Diğer sayfaların indekslenmesini engellemeniz gerekebilir. Amaca bağlı olarak indeksleme yasağı kaldırılabilir veya tam tersine eklenebilir.

robots.txt'yi kontrol edin

Robots.txt dosyasının tasarımı için her arama motorunun kendi gereksinimleri vardır.

İçin robots.txt'yi kontrol edin Dosyanın sözdiziminin ve yapısının doğruluğunu kontrol etmek için çevrimiçi hizmetlerden birini kullanabilirsiniz. Örneğin, Yandex ve Google, web yöneticileri için kendi site analiz hizmetlerini sunmaktadır. robots.txt analizi:

Yandex arama robotu için robotx.txt kontrol ediliyor

Bu, Yandex - Yandex.Webmaster'ın özel bir aracı kullanılarak yapılabilir ve ayrıca iki seçenek vardır.

Seçenek 1:

Sağ üstteki açılır liste - seçin Robots.txt analizi veya http://webmaster.yandex.ru/robots.xml bağlantısını takip edin

Robots.txt dosyasında yapacağınız tüm değişikliklerin hemen geçerli olmayacağını, ancak bir süre sonra geçerli olacağını unutmayın.

Google arama robotu için robotx.txt kontrol ediliyor

  1. Google Search Console'da sitenizi seçin, inceleme aracına gidin ve robots.txt dosyanızın içeriğini inceleyin. Sözdizimsel Ve zeka oyunu içindeki hatalar vurgulanacak ve bunların sayısı düzenleme penceresinin altında belirtilecektir.
  2. Arayüz sayfasının alt kısmındaki uygun pencerede istediğiniz URL'yi belirtin.
  3. Sağdaki açılır menüden seçin robot.
  4. Düğmeye bas KONTROL ETMEK.
  5. Durum görüntülenecek MEVCUT veya MÜSAİT DEĞİL. İlk durumda, Google robotları belirttiğiniz adrese gidebilir, ancak ikincisinde gidemez.
  6. Gerekirse menüde değişiklik yapın ve testi yeniden gerçekleştirin. Dikkat! Bu düzeltmeler sitenizdeki robots.txt dosyasına otomatik olarak eklenmez.
  7. Değiştirilen içeriği kopyalayın ve web sunucunuzdaki robots.txt dosyasına ekleyin.

Yandex ve Google'ın doğrulama hizmetlerine ek olarak, başka birçok çevrimiçi hizmet de var robots.txt doğrulayıcıları.

Robots.txt oluşturucuları

  1. SEOlib.ru'dan hizmet. Bu aracı kullanarak Robots.txt dosyasındaki kısıtlamaları hızlı bir şekilde alabilir ve kontrol edebilirsiniz.
  2. pr-cy.ru'dan oluşturucu Robots.txt oluşturucunun bir sonucu olarak, Robots.txt adlı bir dosyaya kaydedilmesi ve sitenizin kök dizinine yüklenmesi gereken metni alacaksınız.

Arama robotları İnternet'teki tüm bilgileri tarar, ancak site sahipleri kaynaklarına erişimi sınırlayabilir veya reddedebilir. Bunu yapmak için robots.txt hizmet dosyası aracılığıyla sitenin indekslenmesini engellemeniz gerekir.

Siteyi tamamen kapatmanız gerekmiyorsa, tek tek sayfaların dizine eklenmesini devre dışı bırakın. Kullanıcılar aramada sitenin hizmet bölümlerini, kişisel hesaplarını veya promosyonlar bölümünden veya takvimden güncel olmayan bilgileri görmemelidir. Ayrıca komut dosyalarının, açılır pencerelerin ve bannerların ve ağır dosyaların indekslenmesini engellemeniz gerekir. Bu, indeksleme süresinin azaltılmasına ve sunucudaki yükün azaltılmasına yardımcı olacaktır.

Bir site nasıl tamamen kapatılır

Genellikle kaynak veya sırasında indekslemeye tamamen kapatılır. Web yöneticilerinin araştırma yaptığı veya deney yaptığı siteler de kapatıldı.

Site dizine eklemeyi tüm arama motorları için, tek bir robot için veya biri hariç tümü için yasaklayabilirsiniz.

Tek tek sayfalar nasıl kapatılır

Küçük kartvizit siteleri genellikle tek tek sayfaların gizlenmesini gerektirmez. Çok sayıda resmi bilgi içeren kaynaklar için, sayfaları ve bölümleri kapatın:

  • idari panel;
  • hizmet dizinleri;
  • Kişisel Alan;
  • kayıt formları;
  • Sipariş formları;
  • ürün karşılaştırması;
  • Favoriler;
  • sepet;
  • captcha;
  • açılır pencereler ve afişler;
  • sitede arama yapın;
  • oturum tanımlayıcıları.

Sözde indekslemenin yasaklanması tavsiye edilir. çöp sayfaları. Bunlar eski haberler, promosyonlar ve özel teklifler, etkinlikler ve takvim etkinlikleridir. Bilgi sitelerinde güncel olmayan bilgiler içeren makaleleri kapatın. Aksi takdirde kaynak ilgisiz olarak algılanacaktır. Makaleleri ve materyalleri kapatmamak için içlerindeki verileri düzenli olarak güncelleyin.

İndeksleme yasağı


Diğer bilgiler nasıl gizlenir

Robots.txt dosyası sitedeki klasörleri, dosyaları, komut dosyalarını ve utm etiketlerini kapatmanıza olanak tanır. Tamamen veya seçici olarak gizlenebilirler. Tüm robotlar veya tek tek robotlar için indeksleme yasağı belirtin.

İndeksleme yasağı

Meta etiketleri kullanarak bir site nasıl kapatılır

Robots.txt dosyasına bir alternatif, robots meta etiketidir. Bunu index.html dosyasındaki sitenin kaynak koduna yazın. Bir kaba yerleştirin . Sitenin hangi tarayıcılar için dizine eklenmediğini belirtin. Herkes içinse robots.txt yazın. Bir robot varsa adını belirtin. Google için - Googlebot, Yandex için - Yandex. Meta etiket yazmak için iki seçenek vardır.

Seçenek 1.

Seçenek 2.

“İçerik” özelliği aşağıdaki anlamlara sahiptir:

  • hiçbiri - noindex ve nofollow dahil olmak üzere indeksleme yasaktır;
  • noindex - içerik indeksleme yasaktır;
  • nofollow - bağlantıların indekslenmesi yasaktır;
  • takip et - bağlantıların indekslenmesine izin verilir;
  • indeks - indekslemeye izin verilir;
  • hepsi - içeriğin ve bağlantıların indekslenmesine izin verilir.
Bu şekilde içeriğin dizine eklenmesini engelleyebilir ancak yine de bağlantılara izin verebilirsiniz. Bunu yapmak için content=”noindex, follow” ifadesini belirtin. Böyle bir sayfada bağlantılar indekslenir ancak metin indekslenmez. Farklı durumlar için değer kombinasyonlarını kullanın.

Sitenizin dizine eklenmesini meta etiketler aracılığıyla engellerseniz robots.txt dosyasını ayrı olarak oluşturmanıza gerek kalmaz.

Hangi hatalar var?

zeka oyunu- kurallar birbiriyle çeliştiğinde. Yandex.Web Yöneticisi ve Google Robots Test Aracı'ndaki robots.txt dosyasını kontrol ederek mantıksal hataları belirleyin.

Sözdizimsel- Dosyadaki kurallar yanlış yazıldığında.

En yaygın olanları şunlardır:

  • büyük/küçük harfe duyarsız giriş;
  • büyük harflerle yazılmış;
  • tüm kuralların tek satırda listelenmesi;
  • kurallar arasında boş satır yok;
  • tarayıcının direktifte belirtilmesi;
  • bir bölümün veya klasörün tamamını kapatmak yerine bir kümeyi listelemek;
  • zorunlu bir izin vermeme direktifinin bulunmaması.

Beşik

    Sitenin indekslenmesini engellemek için iki seçeneği kullanın. Bir robots.txt dosyası oluşturun ve tüm tarayıcılar için bir izin vermeme yönergesi belirtin. Diğer bir seçenek ise etiketin içindeki index.html dosyasındaki robots meta etiketi aracılığıyla yasak eklemektir.

    Hizmet bilgilerini, eski verileri, komut dosyalarını, oturumları ve utm etiketlerini kapatın. Her yasaklama için ayrı bir kural oluşturun. Tüm arama robotlarını * ile engelleyin veya belirli bir tarayıcının adını belirtin. Yalnızca bir robota izin vermek istiyorsanız kuralı disallow kullanarak yazın.

    Robots.txt dosyası oluştururken Boolean ve sözdizimi hataları. Dosyayı Yandex.Webmaster ve Google Robots Test Aracı'nı kullanarak kontrol edin.

Materyal Svetlana Sirvida-Llorente tarafından hazırlandı.

Bu makale, gereksiz sayfaların .txt dosyasından kaldırılmasıyla ilgili olarak robots.txt dosyasının pratikte kullanılmasıyla ilgilidir. Hangi sayfaların silineceği, nasıl aranacağı, faydalı içeriğin engellenmediğinden nasıl emin olunacağı. Özünde, makale yalnızca tek bir yönergenin kullanılmasıyla ilgilidir: İzin Verme. Robots dosyasının kullanımına ilişkin kapsamlı talimatlar ve Yandex Yardım'daki diğer talimatlar.

Çoğu durumda, tüm arama robotları için gereksiz sayfaları kapatırız, yani Kullanıcı aracısı için İzin Verme kurallarını belirtiriz: *.

Kullanıcı aracısı: *
İzin verme: /cgi-bin

Dizine eklenmesi nelerin engellenmesi gerekir?

Robots.txt dosyasındaki Disallow yönergesini kullanarak, aşağıdakilerin arama botları tarafından indekslenmesini engellemeniz gerekir:

  • CMS yönetici paneline giriş sayfaları;

    İzin verme: /bitrix
    İzin verme: /login
    İzin verme: /admin
    İzin verme: /yönetici
    İzin verme: /wp-admin

  • oturum göstergelerinin bulunduğu sayfalar;

    İzin verme: *session _id =

  • web sitesindeki baskı versiyonları ve diğer sayfalar (besleme, rss, baskı);
  • tam teşekküllü bir sayfaya sahip değilse, çeşitli sıralama ve filtreleme sayfaları. Optimizasyon, sayfada kendi benzersiz başlıklarınızın ve görsellerinizin olması anlamına gelir;
  • site arama sonuçlarını içeren sayfalar.

İndekslemeden kapatılması gereken sayfalar nasıl aranır?

KarşılaştırmaR

Siteyi tarayın ve sağdaki "Yapı" sekmesinde bir site ağacı oluşturun:

Ağacın tüm iç içe geçmiş "dallarını" görüntüleyin.

Arama motoru dizinindeki "Yandex" ve "Google" sekmelerindeki sayfaları alın. Ardından tarama istatistiklerinde “Yandex'te bulundu, sitede bulunamadı” ve “Google'da bulundu, sitede bulunamadı” ifadelerine bakın.

Yandex.Web Yöneticisi

"Dizin Oluşturma" - "Site Yapısı" bölümünde yapının tüm "dallarını" görüntüleyin.

Yararlı içeriğin yanlışlıkla engellenmediğini kontrol edin

robots.txt

Robots.txt dosyasının içeriğini görüntüleyin.

Karşılaştırıcı (robot meta etiketiyle kapanmayı kontrol edin)

Karşılaştırıcı ayarlarında, taramadan önce aşağıdakilerin işaretini kaldırın:

Sağdaki tarama sonuçlarını analiz edin:

Search Console (yararlı engellenen kaynakları kontrol etme)

Googlebot'un sayfaları oluşturmak için kullanılan stil sayfası dosyalarına ve resimlere erişebilmesini sağlamak önemlidir. Bunun için “Al ve Göster” butonuna tıklayarak “Googlebot Gibi Görüntüle” aracıyla sayfaları seçerek taramanız gerekmektedir. Ortaya çıkan iki resim "Googlebot bu sayfayı böyle gördü" ve "Bir site ziyaretçisi bu sayfayı böyle görecek" hemen hemen aynı görünmelidir. Sorunlu bir sayfa örneği:

Sayfanın engellenen kısımlarını aşağıdaki tabloda görebilirsiniz:

Konsol yardımında tarama sonuçları hakkında daha fazla bilgi edinin. Engellenen tüm kaynakların engellemesi robots.txt dosyasında İzin Ver yönergesi kullanılarak kaldırılmalıdır (yalnızca harici kaynakların engellemesini kaldırmak işe yaramaz). Bu durumda, yalnızca gerekli kaynakların kilidini tam olarak açmanız gerekir. Yukarıdaki örnekte Google botunun klasöre erişimi reddedildi /templates/, ancak bu klasör içindeki bazı dosya türlerine açıktır:

Kullanıcı aracısı: Googlebot
İzin ver: /templates/*.css
İzin ver: /templates/*.js
İzin ver: /templates/*.png
İzin ver: /templates/*.jpg
İzin ver: /templates/*.woff
İzin ver: /templates/*.ttf
İzin ver: /templates/*.svg
İzin verme: /şablonlar/