خانه / درماتیت/ نمایه سازی txt ربات ممنوع است. نحوه جلوگیری از ایندکس شدن صفحات مورد نیاز از ایندکس شدن تمام صفحات دارای رشته پرس و جو جلوگیری کنید

نمایه سازی ربات txt ممنوع است. نحوه جلوگیری از ایندکس شدن صفحات مورد نیاز از ایندکس شدن تمام صفحات دارای رشته پرس و جو جلوگیری کنید

خوب، برای مثال، شما تصمیم گرفتید طراحی وبلاگ خود را تغییر دهید و نمی خواهید ربات های جستجو در این زمان از منبع بازدید کنند. یا فقط یک وب‌سایت ایجاد کرده‌اید و یک موتور روی آن نصب کرده‌اید، بنابراین اگر منبع ندارد اطلاعات مفید، پس نباید آن را به ربات های جستجو نشان دهید. در این مقاله یاد خواهید گرفت که چگونه یک سایت را از نمایه سازی در Yandex، Google یا همه آنها به طور همزمان مسدود کنید. موتورهای جستجواوه اما قبل از آن، می توانید مقاله مشابه دیگری را نیز بخوانید: "؟" حالا بیایید شروع کنیم.

1. با استفاده از فایل robots.txt سایت را از ایندکس شدن مسدود کنید.
برای شروع شما نیاز دارید. برای انجام این کار، یک سند متنی معمولی با نام robots و پسوند txt. در رایانه خود ایجاد کنید. این چیزی است که من به تازگی ایجاد کردم:

اکنون این فایل باید در بارگذاری شود. اگر منبع روی موتور وردپرس ساخته شده باشد، پس پوشه root جایی است که پوشه های wp-content، wp-includes و غیره در آن قرار دارند.

بنابراین، ما یک فایل خالی در هاست آپلود کرده ایم، اکنون باید از این فایل استفاده کنیم تا وبلاگ را به نحوی از نمایه سازی ببندیم. این را می توان همانطور که قبلاً نوشتم فقط برای Yandex ، Google یا همه موتورهای جستجو به طور همزمان انجام داد. بیایید در مورد همه چیز به ترتیب صحبت کنیم.

چگونه یک سایت را از نمایه سازی فقط برای Yandex مسدود کنیم؟
خط زیر را در فایل robots.txt بنویسید:

عامل کاربر: Yandex
غیر مجاز:/

برای اطمینان از اینکه Yandex از ایندکس کردن منبع خود جلوگیری کرده اید، اگر قبلاً این کار را نکرده اید ابتدا یک سایت اضافه کنید و سپس به این صفحه بروید. سپس وارد چندین صفحه از سایت خود شده و بر روی دکمه "بررسی" کلیک کنید. اگر صفحاتی از فهرست بندی منع شده باشند، چیزی شبیه به این را خواهید دید:

چگونه یک سایت را از ایندکس شدن فقط توسط گوگل مسدود کنیم؟
فایل robots.txt را باز کنید و خط زیر را در آنجا بنویسید:

عامل کاربر: Googlebot
غیر مجاز:/

برای بررسی اینکه گوگل سایت را ایندکس نمی کند، ایجاد کنید، منبع خود را به Google Webmaster اضافه کنید و به آن بروید. در اینجا همچنین باید چندین صفحه را وارد کرده و روی دکمه "بررسی" کلیک کنید.

من متوجه شدم که موتور جستجوی گوگل حتی اسنادی را که در فایل robots.txt ممنوع هستند ایندکس می کند و آنها را در یک فهرست اضافی به نام "snot" وارد می کند. من نمی دانم چرا، اما باید بدانید که مسدود کردن یک سایت یا یک صفحه فردی با استفاده از فایل robots.txt 100٪ غیرممکن است. این فایل، همانطور که من متوجه شدم، فقط یک توصیه برای گوگل است و تصمیم می گیرد چه چیزی را ایندکس کند و چه چیزی را نه.

چگونه یک سایت را از فهرست شدن برای همه موتورهای جستجو مسدود کنیم؟
برای اینکه همه موتورهای جستجو نتوانند منبع شما را یکجا فهرست کنند، خط زیر را به robots.txt اضافه کنید:

عامل کاربر: *
غیر مجاز:/

اکنون می توانید به Yandex یا Google Webmaster نیز بروید و ممنوعیت فهرست بندی را بررسی کنید.

می توانید فایل robots.txt خود را در این آدرس ببینید:

Vashdomain.ru/robots.txt

هر چیزی که در این فایل نوشتید باید در مرورگر نمایش داده شود. اگر وقتی به این آدرس می روید، پیامی جلوی شما ظاهر می شود، به این معنی است که فایل خود را در جای اشتباهی آپلود کرده اید.

به هر حال، robots.txt من قرار دارد. اگر منبع شما بر روی موتور وردپرس ساخته شده است، می توانید به سادگی آن را کپی کنید. این به درستی پیکربندی شده است تا اطمینان حاصل شود که ربات های جستجو فقط اسناد لازم را فهرست می کنند و هیچ مورد تکراری در سایت وجود ندارد.

2. سایت را از نمایه سازی با استفاده از نوار ابزار مسدود کنید.
این روش فقط برای کسانی مناسب است که منبع آنها در وردپرس ساخته شده است. به "کنترل پنل" - "تنظیمات" - "خواندن" بروید. در اینجا باید کادر کنار کتیبه "توصیه کنید که موتورهای جستجو سایت را فهرست بندی نکنند" را علامت بزنید.

لطفاً توجه داشته باشید که در زیر یک کتیبه بسیار جالب وجود دارد: "موتورهای جستجو خودشان تصمیم می گیرند که آیا درخواست شما را دنبال کنند یا خیر." این دقیقاً همان چیزی است که در بالا نوشتم. به احتمال زیاد Yandex صفحاتی را که فهرست کردن آنها ممنوع است فهرست نمی کند، اما ممکن است مشکلاتی در گوگل ایجاد شود.

3. سایت را از ایندکس شدن به صورت دستی می بندیم.
هنگامی که کل یک منبع یا صفحه را از فهرست بندی می بندید، خط زیر به طور خودکار در کد منبع ظاهر می شود:

meta name = "ربات ها" content="noindex,follow"

به ربات‌های جستجو می‌گوید که سند را نمی‌توان ایندکس کرد. شما به سادگی می توانید این خط را به صورت دستی در هر نقطه از سایت خود بنویسید، نکته اصلی این است که در تمام صفحات ظاهر می شود و سپس منبع از فهرست بندی بسته می شود.

به هر حال، اگر یک سند غیر ضروری در وب سایت خود ایجاد می کنید و نمی خواهید ربات های جستجو آن را فهرست کنند، می توانید این خط را نیز در کد منبع وارد کنید.

پس از به روز رسانی، کد منبع صفحه (CTRL + U) را باز کنید و ببینید آیا این خط در آنجا ظاهر می شود یا خیر. اگر وجود داشته باشد، پس همه چیز خوب است. در هر صورت، می توانید استفاده از ابزارهای وب مسترها از Yandex و Google را نیز بررسی کنید.

برای امروز کافی است. اکنون می دانید که چگونه یک سایت را از فهرست بندی مسدود کنید. امیدوارم این مقاله برای شما مفید بوده باشد. خداحافظ همه

یکی از مراحل بهینه سازی سایت برای موتورهای جستجو، تدوین فایل robots.txt است. با استفاده از این فایل می توانید از ایندکس کردن سایت شما یا قسمت های خاصی از آن که برای نمایه سازی در نظر گرفته نشده اند، برخی یا همه ربات های جستجوگر جلوگیری کنید. به ویژه، می توانید از فهرست شدن محتوای تکراری مانند نسخه های قابل چاپ صفحات جلوگیری کنید.

قبل از شروع نمایه سازی، ربات های جستجوگر همیشه به فایل robots.txt در دایرکتوری ریشه سایت خود، به عنوان مثال http://site.ru/robots.txt مراجعه می کنند تا بدانند ربات در کدام بخش از سایت ممنوع است. از نمایه سازی اما حتی اگر قرار نیست چیزی را ممنوع کنید، باز هم توصیه می شود این فایل را ایجاد کنید.

همانطور که از پسوند robots.txt می بینید، این یک فایل متنی است. برای ایجاد یا ویرایش این فایل بهتر است از ساده ترین ویرایشگرهای متن مانند Notepad استفاده کنید. robots.txt باید در دایرکتوری ریشه سایت قرار گیرد و فرمت خاص خود را داشته باشد که در ادامه به آن خواهیم پرداخت.

فرمت فایل Robots.txt

فایل robots.txt باید حداقل شامل دو ورودی لازم باشد. اولین مورد دستورالعمل User-agent است که نشان می دهد کدام ربات جستجو باید دستورالعمل های بعدی را دنبال کند. اگر به یکباره به همه ربات ها دسترسی دارید، مقدار می تواند نام ربات (googlebot، Yandex، StackRambler) یا نماد * باشد. مثلا:

عامل کاربر: googlebot

می توانید نام ربات را در وب سایت موتور جستجوی مربوطه پیدا کنید. بعد باید یک یا چند دستورالعمل Disallow وجود داشته باشد. این دستورالعمل ها به ربات می گویند که کدام فایل ها و پوشه ها مجاز به ایندکس نیستند. به عنوان مثال، خطوط زیر مانع از ایندکس کردن فایل feedback.php و دایرکتوری cgi-bin توسط روبات ها می شود:

غیر مجاز: /feedback.php غیر مجاز: /cgi-bin/

همچنین می توانید فقط از کاراکترهای شروع فایل ها یا پوشه ها استفاده کنید. خط Disallow: /forum فهرست کردن همه فایل‌ها و پوشه‌ها را در ریشه سایت که نام آن با forum شروع می‌شود، ممنوع می‌کند، به عنوان مثال، فایل http://site.ru/forum.php و پوشه http://site. ru/forum/ با تمام محتوایش. اگر Disallow خالی باشد، به این معنی است که ربات می تواند همه صفحات را فهرست کند. اگر مقدار Disallow نماد / باشد به این معنی است که کل سایت از ایندکس شدن منع شده است.

برای هر قسمت User-agent باید حداقل یک قسمت Disallow وجود داشته باشد. یعنی اگر قرار نیست چیزی را برای نمایه سازی ممنوع کنید، فایل robots.txt باید حاوی ورودی های زیر باشد:

عامل کاربر: * غیر مجاز:

دستورالعمل های اضافی

علاوه بر عبارات منظم، Yandex و Google اجازه استفاده از دستورالعمل Allow را می دهند، که برعکس Disallow است، یعنی نشان می دهد که کدام صفحات را می توان ایندکس کرد. در مثال زیر، Yandex از فهرست کردن همه چیز به جز آدرس‌های صفحه که با /articles شروع می‌شوند، ممنوع است:

عامل کاربر: Yandex Allow: /articles Disallow: /

در این مثال، دستورالعمل Allow باید قبل از Disallow نوشته شود، در غیر این صورت Yandex این را به عنوان یک ممنوعیت کامل برای فهرست کردن سایت درک خواهد کرد. یک دستورالعمل خالی Allow نیز نمایه سازی سایت را به طور کامل غیرفعال می کند:

عامل کاربر: Yandex Allow:

معادل

عامل کاربر: Yandex Disallow: /

دستورالعمل های غیر استاندارد فقط برای موتورهای جستجویی که از آنها پشتیبانی می کنند باید مشخص شوند. در غیر این صورت، رباتی که این ورودی را نمی فهمد ممکن است آن یا کل فایل robots.txt را به اشتباه پردازش کند. اطلاعات بیشتر در مورد دستورالعمل های اضافی و به طور کلی در مورد درک دستورات در فایل robots.txt توسط یک ربات فردی را می توانید در وب سایت موتور جستجوی مربوطه پیدا کنید.

عبارات منظم در robots.txt

اکثر موتورهای جستجو فقط نام فایل ها و پوشه های مشخص شده را در نظر می گیرند، اما موتورهای جستجوی پیشرفته تری نیز وجود دارند. ربات گوگل و ربات Yandex از استفاده از عبارات منظم ساده در robots.txt پشتیبانی می کنند که به میزان قابل توجهی میزان کار را برای وب مسترها کاهش می دهد. به عنوان مثال، دستورات زیر مانع از ایندکس کردن همه فایل‌های با پسوند pdf توسط Googlebot می‌شوند:

عامل کاربر: googlebot غیر مجاز: *.pdf$

در مثال بالا، * هر دنباله ای از کاراکترها است و $ پایان پیوند را نشان می دهد.

عامل کاربر: Yandex Allow: /articles/*.html$ غیر مجاز: /

دستورالعمل های بالا به Yandex اجازه می دهد که فقط فایل هایی با پسوند ".html" واقع در پوشه /articles/ را فهرست کند. هر چیز دیگری برای نمایه سازی ممنوع است.

نقشه سایت

می توانید مکان نقشه سایت XML را در فایل robots.txt مشخص کنید:

عامل کاربر: googlebot غیر مجاز: نقشه سایت: http://site.ru/sitemap.xml

اگر خیلی هستید تعداد زیادی ازصفحات موجود در سایت و شما مجبور شدید نقشه سایت را به قطعات تقسیم کنید، سپس در فایل robots.txt باید تمام قسمت های نقشه را نشان دهید:

عامل کاربر: Yandex Disallow: نقشه سایت: http://mysite.ru/my_sitemaps1.xml نقشه سایت: http://mysite.ru/my_sitemaps2.xml

آینه های سایت

همانطور که می دانید، معمولاً یک سایت را می توان در دو آدرس: هم با www و هم بدون آن، دسترسی داشت. برای یک ربات جستجوگر، site.ru و www.site.ru سایت های متفاوتی هستند، اما با محتوای یکسان. به آنها آینه می گویند.

با توجه به اینکه لینک صفحات سایت هم با و هم بدون www وجود دارد، وزن صفحات را می توان بین www.site.ru و site.ru تقسیم کرد. برای جلوگیری از این اتفاق، موتور جستجو باید آینه اصلی سایت را نشان دهد. در نتیجه "چسباندن"، تمام وزن متعلق به یک آینه اصلی خواهد بود و سایت می تواند جایگاه بالاتری در نتایج جستجو داشته باشد.

می توانید آینه اصلی Yandex را مستقیماً در فایل robots.txt با استفاده از دستورالعمل Host مشخص کنید:

عامل کاربر: Yandex Disallow: /feedback.php غیر مجاز: /cgi-bin/ میزبان: www.site.ru

پس از چسباندن، آینه www.site.ru تمام وزن را در اختیار خواهد داشت و در نتایج جستجو جایگاه بالاتری را اشغال می کند. و موتور جستجو به هیچ وجه site.ru را ایندکس نمی کند.

برای سایر موتورهای جستجو، انتخاب آینه اصلی، تغییر مسیر دائمی سمت سرور (کد 301) از آینه های اضافی به آینه اصلی است. این کار با استفاده از فایل htaccess و ماژول mod_rewrite انجام می شود. برای این کار فایل .htaccess را در ریشه سایت قرار دهید و موارد زیر را در آنجا بنویسید:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

در نتیجه، تمام درخواست های site.ru به www.site.ru می رود، یعنی site.ru/page1.php به www.site.ru/page1.php هدایت می شود.

روش تغییر مسیر برای همه موتورهای جستجو و مرورگرها کار می کند، اما همچنان توصیه می شود دستورالعمل Host را به فایل robots.txt برای Yandex اضافه کنید.

نظرات در robots.txt

همچنین می توانید نظراتی را به فایل robots.txt اضافه کنید - آنها با علامت # شروع می شوند و با یک خط جدید پایان می یابند. توصیه می شود نظرات را در یک خط جداگانه بنویسید، یا بهتر است به هیچ وجه از آنها استفاده نکنید.

نمونه ای از استفاده از نظرات:

User-agent: StackRambler Disallow: /garbage/ # هیچ چیز مفیدی در این پوشه وجود ندارد Disallow: /doc.xhtml # و در این صفحه نیز # و تمام نظرات این فایل نیز بی فایده است.

نمونه هایی از فایل های robots.txt

1. به همه روبات‌ها اجازه دهید تا همه اسناد سایت را فهرست کنند:

عامل کاربر: * غیر مجاز:
عامل کاربر: * غیر مجاز: /

3. ما ربات جستجوگر گوگل را از فهرست کردن فایل feedback.php و محتویات دایرکتوری cgi-bin منع می کنیم:

User-agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. ما به همه روبات‌ها اجازه می‌دهیم کل سایت را ایندکس کنند و ربات موتور جستجوی Yandex را از فهرست‌بندی فایل feedback.php و محتویات دایرکتوری cgi-bin منع می‌کنیم:

عامل کاربر: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php میزبان: www.site.ru User-agent: * Disallow:

5. ما به همه ربات‌ها اجازه می‌دهیم کل سایت را ایندکس کنند و به ربات Yandex اجازه می‌دهیم فقط بخشی از سایت را که برای آن در نظر گرفته شده است ایندکس کند:

عامل کاربر: Yandex Allow: /yandex Disallow: / میزبان: www.site.ru User-agent: * Disallow:

خطوط خالی محدودیت هایی را برای ربات های مختلف جدا می کند. هر بلوک از محدودیت ها باید با یک خط با قسمت User-Agent شروع شود که نشان دهنده رباتی است که این قوانین نمایه سازی سایت برای آن اعمال می شود.

خطاهای رایج

توجه به این نکته مهم است که یک خط خالی در فایل robots.txt جداکننده بین دو ورودی برای روبات های مختلف است. همچنین نمی توانید چندین دستورالعمل را در یک خط مشخص کنید. هنگام جلوگیری از ایندکس شدن یک فایل، مدیران وب غالباً / قبل از نام فایل را حذف می کنند.

نیازی نیست در robots.txt ممنوعیت ایندکس کردن سایت برای برنامه های مختلفی که برای دانلود کامل سایت طراحی شده اند، به عنوان مثال TeleportPro مشخص کنید. نه برنامه های دانلود و نه مرورگرها هرگز به این فایل نگاه نمی کنند و دستورالعمل های نوشته شده در آنجا را انجام نمی دهند. این به طور انحصاری برای موتورهای جستجو در نظر گرفته شده است. همچنین نباید پنل مدیریت سایت خود را در robots.txt مسدود کنید، زیرا اگر لینکی به آن در جایی وجود نداشته باشد، ایندکس نمی شود. شما فقط مکان ناحیه مدیریت را برای افرادی که نباید در مورد آن بدانند نشان می دهید. همچنین شایان ذکر است که robots.txt که خیلی بزرگ است ممکن است توسط موتور جستجو نادیده گرفته شود. اگر صفحات زیادی دارید که برای نمایه سازی در نظر گرفته نشده اند، بهتر است به سادگی آنها را از سایت حذف کنید یا به یک فهرست جداگانه منتقل کنید و از ایندکس شدن این دایرکتوری جلوگیری کنید.

بررسی فایل robots.txt برای وجود خطا

حتما بررسی کنید که موتورهای جستجو چگونه فایل روبات شما را درک می کنند. برای بررسی گوگل می توانید از گوگل وبمستر تولز استفاده کنید. اگر می خواهید بدانید که فایل robots.txt شما چگونه توسط Yandex درک می شود، می توانید از سرویس Yandex.Webmaster استفاده کنید. این به شما این امکان را می دهد که هر اشتباهی را به موقع اصلاح کنید. همچنین در صفحات این سرویس ها می توانید توصیه هایی برای ایجاد یک فایل robots.txt و بسیاری اطلاعات مفید دیگر بیابید.

کپی مطلب ممنوع

Robots.txt یک فایل ویژه است که در دایرکتوری ریشه سایت قرار دارد. مدیر وب سایت در آن نشان می دهد که کدام صفحات و داده ها را از فهرست بندی توسط موتورهای جستجو حذف کند. این فایل حاوی دستورالعمل هایی است که دسترسی به بخش هایی از سایت (به اصطلاح استاندارد استثنایی ربات) را توضیح می دهد. به عنوان مثال، می توانید از آن برای تنظیم تنظیمات دسترسی مختلف برای روبات های جستجوگر طراحی شده برای دستگاه های تلفن همراه و رایانه های رومیزی استفاده کنید. تنظیم صحیح آن بسیار مهم است.

آیا robots.txt ضروری است؟

با robots.txt می توانید:

ایندکس کردن صفحات مشابه و غیر ضروری را ممنوع کنید تا محدودیت خزیدن (تعداد URL هایی که یک ربات جستجو می تواند در یک خزیدن می تواند بخزد) هدر نرود. آن ها ربات قادر خواهد بود صفحات مهم تری را ایندکس کند.
مخفی کردن تصاویر از نتایج جستجو
اسکریپت‌های بی‌اهمیت، فایل‌های سبک و سایر منابع صفحه غیر مهم را از فهرست‌سازی ببندید.

اگر با این کار خزنده Google یا Yandex از تجزیه و تحلیل صفحات جلوگیری می کند، فایل ها را مسدود نکنید.

فایل Robots.txt در کجا قرار دارد؟

اگر فقط می‌خواهید ببینید چه چیزی در فایل robots.txt وجود دارد، کافی است در نوار آدرس مرورگر خود وارد کنید: site.ru/robots.txt.

از نظر فیزیکی، فایل robots.txt در پوشه ریشه سایت در هاست قرار دارد. من میزبانی beget.ru دارم، بنابراین مکان فایل robots.txt را در این میزبانی نشان خواهم داد.

نحوه ایجاد robots.txt صحیح

فایل robots.txt از یک یا چند قانون تشکیل شده است. هر قانون نمایه سازی مسیر در سایت را مسدود یا اجازه می دهد.

در یک ویرایشگر متن، فایلی به نام robots.txt ایجاد کنید و طبق قوانین زیر آن را پر کنید.
فایل robots.txt باید یک فایل متنی کدگذاری شده ASCII یا UTF-8 باشد. نویسه‌ها در سایر رمزگذاری‌ها مجاز نیستند.
فقط یک فایل از این قبیل باید در سایت وجود داشته باشد.
فایل robots.txt باید در آن قرار گیرد دایرکتوری ریشهسایت. به عنوان مثال، برای کنترل نمایه سازی تمام صفحات در سایت http://www.example.com/، فایل robots.txt باید در http://www.example.com/robots.txt قرار گیرد. نباید در یک زیر شاخه باشد(مثلاً در آدرس http://example.com/pages/robots.txt). اگر در دسترسی به دایرکتوری ریشه مشکل دارید، با ارائه دهنده هاست خود تماس بگیرید. اگر به دایرکتوری ریشه سایت دسترسی ندارید، از روش مسدودسازی جایگزین مانند متا تگ استفاده کنید.
فایل robots.txt را می توان به آدرس های با اضافه کرد زیر دامنه ها(به عنوان مثال http:// سایت اینترنتی.example.com/robots.txt) یا پورت های غیر استاندارد (به عنوان مثال، http://example.com: 8181 /robots.txt).
فایل را در سرویس Yandex.Webmaster و کنسول جستجوی Google بررسی کنید.
فایل را در پوشه اصلی سایت خود آپلود کنید.

در اینجا یک نمونه فایل robots.txt با دو قانون آورده شده است. در زیر توضیحات او آمده است.

عامل کاربر: Googlebot غیر مجاز: /nogooglebot/ User-agent: * مجاز: / نقشه سایت: http://www.example.com/sitemap.xml

توضیح

یک عامل کاربری به نام Googlebot نباید دایرکتوری http://example.com/nogooglebot/ و زیر شاخه های آن را فهرست کند.
همه عوامل کاربر دیگر به کل سایت دسترسی دارند (می توان حذف کرد، نتیجه یکسان خواهد بود، زیرا دسترسی کامل به طور پیش فرض داده شده است).
فایل نقشه سایت برای این سایت در http://www.example.com/sitemap.xml قرار دارد.

دستورات غیر مجاز و مجاز

برای جلوگیری از نمایه سازی و دسترسی ربات به سایت یا برخی از بخش های آن، از دستورالعمل Disallow استفاده کنید.

User-agent: Yandex Disallow: / # دسترسی به کل سایت را مسدود می کند. User-agent: Yandex Disallow: /cgi-bin # دسترسی به صفحاتی را که با "/cgi-bin" شروع می شوند مسدود می کند.

طبق استاندارد، توصیه می شود قبل از هر دستورالعمل کاربر-عامل، یک فید خط خالی درج شود.

نماد # برای توصیف نظرات در نظر گرفته شده است. همه چیز بعد از این کاراکتر و قبل از شکست خط اول در نظر گرفته نمی شود.

برای اجازه دسترسی ربات به سایت یا برخی از بخش های آن، از دستورالعمل Allow استفاده کنید

عامل کاربر: Yandex Allow: /cgi-bin Disallow: / # دانلود همه چیز را ممنوع می کند به جز صفحات # که با "/cgi-bin" شروع می شوند

وجود خطوط خالی بین دستورالعمل های User-agent، Disallow و Allow مجاز نیست.

دستورات Allow و Disallow از بلوک User-agent مربوطه بر اساس طول پیشوند URL (از کوچکترین به بزرگترین) مرتب شده و به صورت متوالی اعمال می شوند. اگر چندین دستورالعمل برای یک صفحه سایت خاص مناسب باشد، ربات آخرین مورد را به ترتیب ظاهر در لیست مرتب شده انتخاب می کند. بنابراین، ترتیب دستورات موجود در فایل robots.txt بر نحوه استفاده ربات از آنها تأثیری ندارد. مثال ها:

# robots.txt اصلی: User-agent: Yandex Allow: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # اجازه دانلود فقط صفحاتی را می دهد که با "/catalog" شروع می شوند # اصلی robots.txt: User-agent: Yandex Allow: / Allow: /catalog/auto غیر مجاز: /catalog # مرتب‌سازی‌شده robots.txt: User-agent: Yandex Allow: / Disallow: /catalog Allow: /catalog/auto # بارگیری صفحات را ممنوع می‌کند با "/catalog" # شروع می شود، اما به صفحاتی که با "/catalog/auto" شروع می شوند اجازه دانلود می دهند.

اگر بین دو دستورالعمل با پیشوندهای هم طول تضاد وجود داشته باشد، دستور Allow اولویت دارد.

استفاده از کاراکترهای خاص * و $

هنگام تعیین مسیرهای دستورات Allow و Disallow، می توانید از کاراکترهای ویژه * و $ استفاده کنید، بنابراین عبارات منظم خاصی را مشخص کنید.

کاراکتر ویژه * به معنای هر دنباله (از جمله خالی) کاراکترها است.

کاراکتر ویژه $ به معنای پایان خط است، کاراکتر قبل از آن آخرین مورد است.

عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" # و "/cgi-bin/private/test.aspx" را ممنوع می کند: /*private # نه تنها ممنوع می کند "/private"، # و همچنین "/cgi-bin/private"

دستورالعمل نقشه سایت

اگر از فایل نقشه سایت برای توصیف ساختار سایت استفاده می کنید، مسیر فایل را به عنوان پارامتری برای دستورالعمل نقشه سایت مشخص کنید (اگر چندین فایل وجود دارد، همه را مشخص کنید). مثال:

عامل کاربر: Yandex Allow: / نقشه سایت: https://example.com/site_structure/my_sitemaps1.xml نقشه سایت: https://example.com/site_structure/my_sitemaps2.xml

این دستورالعمل متقاطع است، بنابراین بدون توجه به مکانی در فایل robots.txt که در آن مشخص شده است، توسط ربات استفاده می شود.

ربات مسیر فایل را به خاطر می آورد، داده ها را پردازش می کند و از نتایج در جلسات دانلود بعدی استفاده می کند.

دستورالعمل Crawl-Delay

اگر سرور به شدت بارگذاری شده است و زمان پردازش درخواست های ربات را ندارد، از دستورالعمل Crawl-Delay استفاده کنید. این امکان را به شما می دهد که حداقل بازه زمانی (بر حسب ثانیه) را بین پایان بارگذاری یک صفحه و شروع بارگذاری صفحه بعدی تنظیم کنید.

قبل از تغییر سرعت خزیدن سایت، دریابید که ربات بیشتر به کدام صفحات دسترسی دارد.

گزارش های سرور را تجزیه و تحلیل کنید. با مسئول سایت یا ارائه دهنده هاست تماس بگیرید.
به فهرست نشانی‌های وب در صفحه فهرست‌بندی → خزیدن آمار در Yandex.Webmaster نگاه کنید (تغییر را روی همه صفحات قرار دهید).

اگر متوجه شدید که ربات به صفحات سرویس دسترسی دارد، با استفاده از دستور Disallow از ایندکس شدن آنها در فایل robots.txt جلوگیری کنید. این به کاهش تعداد تماس های غیر ضروری از ربات کمک می کند.

بخشنامه Clean-param

این دستورالعمل فقط با ربات Yandex کار می کند.

اگر آدرس های صفحه سایت حاوی پارامترهای پویا هستند که بر محتوای آنها تأثیر نمی گذارد (شناسه های جلسه، کاربران، ارجاع دهندگان و غیره)، می توانید آنها را با استفاده از دستورالعمل Clean-param توصیف کنید.

ربات Yandex، با استفاده از این دستورالعمل، بارها و بارها اطلاعات تکراری را بارگیری نمی کند. این کار باعث افزایش راندمان خزیدن سایت شما و کاهش بار روی سرور می شود.

به عنوان مثال، سایت دارای صفحات:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

پارامتر ref فقط برای ردیابی اینکه درخواست از کدام منبع انجام شده استفاده می شود و محتوا را تغییر نمی دهد؛ همان صفحه با کتاب book_id=123 در هر سه آدرس نشان داده می شود. سپس، اگر دستورالعمل را به صورت زیر مشخص کنید:

عامل کاربر: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

ربات Yandex تمام آدرس های صفحه را به یک کاهش می دهد:

www.example.com/some_dir/get_book.pl?book_id=123

اگر چنین صفحه ای در سایت موجود باشد، در نتایج جستجو قرار می گیرد.

دستور دستوری

Clean-param: p0[&p1&p2&..&pn]

فیلد اول که با & از هم جدا شده است، پارامترهایی را که ربات نیازی به در نظر گرفتن آنها ندارد فهرست می کند. فیلد دوم پیشوند مسیر صفحاتی را که قانون باید برای آنها اعمال شود مشخص می کند.

توجه داشته باشید. دستورالعمل Clean-Param مقطعی است، بنابراین می توان آن را در هر جایی از فایل robots.txt مشخص کرد. اگر چندین دستورالعمل مشخص شود، همه آنها توسط ربات مورد توجه قرار می گیرد.

پیشوند می تواند حاوی یک عبارت منظم در قالبی شبیه به فایل robots.txt باشد، اما با برخی محدودیت ها: فقط از کاراکترهای A-Za-z0-9.-/*_ می توان استفاده کرد. در این مورد، نماد * به همان روشی که در فایل robots.txt تفسیر می شود: نماد * همیشه به طور ضمنی به انتهای پیشوند اضافه می شود. مثلا:

Clean-param: s /forum/showthread.php

مورد در نظر گرفته شده است. محدودیتی در طول قانون وجود دارد - 500 کاراکتر. مثلا:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

دستورالعمل HOST

بر این لحظه Yandex پشتیبانی از این دستورالعمل را متوقف کرده است.

robots.txt صحیح: تنظیم

محتویات فایل robots.txt بسته به نوع سایت (فروشگاه آنلاین، وبلاگ)، CMS مورد استفاده، ویژگی های ساختار و تعدادی از عوامل دیگر متفاوت است. بنابراین ایجاد این فایل برای یک وب سایت تجاری به خصوص اگر پروژه ای پیچیده باشد باید توسط متخصص سئو و با تجربه کافی انجام شود.

یک فرد ناآماده به احتمال زیاد نمی تواند قبول کند تصمیم درستدر مورد اینکه کدام قسمت از محتوا بهتر است از نمایه سازی مسدود شود و کدام قسمت باید در نتایج جستجو ظاهر شود.

مثال صحیح Robots.txt برای وردپرس

عامل کاربر: *# قوانین عمومی برای روبات ها، به جز Yandex و Google، # زیرا برای آنها قوانین زیر Disallow است: /cgi-bin # پوشه در میزبانی غیر مجاز: /؟ # همه پارامترهای درخواست در صفحه اصلی غیر مجاز: /wp- # همه فایل‌های WP: /wp-json/، /wp-includes، /wp-content/plugins غیر مجاز: /wp/ # اگر یک زیر شاخه /wp/ وجود دارد که در آن CMS نصب شده است (اگر نه، # قانون را می توان حذف کرد) غیر مجاز: *?s= # جستجو غیرمجاز: *&s= # جستجو غیرمجاز: /search/ # جستجو غیرمجاز: /author/ # بایگانی نویسنده غیر مجاز: /users/ # بایگانی نویسنده غیر مجاز: */ trackback # پس‌گیری‌ها، اعلان‌ها در نظرات درباره ظاهر یک پیوند باز # به یک مقاله غیرمجاز: */feed # همه فیدها غیرمجاز: */rss # فید rss غیرمجاز: */embed # همه جاسازی‌ها غیرمجاز : */wlwmanifest.xml # فایل xml مانیفست Windows Live Writer (اگر از آن استفاده نمی‌کنید، # قانون قابل حذف است) غیر مجاز: /xmlrpc.php # فایل API وردپرس غیر مجاز: *utm*= # پیوند با برچسب‌های utm غیر مجاز: *openstat= # پیوندها با برچسب‌های openstat مجاز: */uploads # باز کردن پوشه با فایل‌های آپلود نقشه سایت: http://site.ru/sitemap.xml # آدرس نقشه سایت عامل کاربر: GoogleBot # قوانین برای Google (I نظرات را تکرار نکنید) Disallow: /cgi-bin Disallow: /؟ Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php غیر مجاز: *utm*= غیر مجاز: *openstat= مجاز: */uploads مجاز: /*/*.js # باز کردن اسکریپت های js در داخل / wp - (/*/ - برای اولویت) اجازه: /*/*.css # باز کردن فایل‌های css در داخل /wp- (/*/ - برای اولویت) مجاز: /wp-*.png # تصاویر در افزونه‌ها، پوشه کش و غیره. مجاز به: /wp-*.jpg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.jpeg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.gif # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دهید: /wp-admin/admin-ajax.php # مورد استفاده پلاگین‌ها باشد تا JS و CSS مسدود نشود. Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php مجاز: */uploads مجاز: /*/*.js مجاز: /*/*.css مجاز: /wp-*.png مجاز: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex توصیه می‌کند # را از نمایه‌سازی مسدود نکنید، اما حذف کنید پارامترهای برچسب، # Google از چنین قوانینی پشتیبانی نمی کند Clean-Param: openstat # مشابه

نمونه Robots.txt برای جوملا

عامل کاربر: *
غیر مجاز: /administrator/
غیر مجاز: /cache/
غیر مجاز: /شامل/
غیر مجاز: /نصب/
غیر مجاز: /language/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /media/
غیر مجاز: /modules/
غیر مجاز: /plugins/
غیر مجاز: /templates/
غیر مجاز: /tmp/
غیر مجاز: /xmlrpc/

مثال Robots.txt برای Bitrix

عامل کاربر: *
غیر مجاز: /*index.php$
غیر مجاز: /bitrix/
غیر مجاز: /auth/
غیر مجاز: /شخصی/
غیر مجاز: /upload/
غیر مجاز: /search/
غیر مجاز: /*/جستجو/
غیر مجاز: /*/slide_show/
غیر مجاز: /*/gallery/*order=*
غیر مجاز: /*?print=
غیر مجاز: /*&print=
غیر مجاز: /*register=
غیر مجاز: /*forgot_password=
غیر مجاز: /*change_password=
غیر مجاز: /*login=
غیر مجاز: /*logout=
غیر مجاز: /*auth=
غیر مجاز: /*?action=
غیر مجاز: /*action=ADD_TO_COMPARE_LIST
غیر مجاز: /*action=DELETE_FROM_COMPARE_LIST
غیر مجاز: /*action=ADD2BASKET
غیر مجاز: /*action=BUY
غیر مجاز: /*bitrix_*=
غیر مجاز: /*backurl=*
غیر مجاز: /*BACKURL=*
غیر مجاز: /*back_url=*
غیر مجاز: /*BACK_URL=*
غیر مجاز: /*back_url_admin=*
غیر مجاز: /*print_course=Y
غیر مجاز: /*COURSE_ID=
غیر مجاز: /*?COURSE_ID=
غیر مجاز: /*?PAGEN
غیر مجاز: /*PAGEN_1=
غیر مجاز: /*PAGEN_2=
غیر مجاز: /*PAGEN_3=
غیر مجاز: /*PAGEN_4=
غیر مجاز: /*PAGEN_5=
غیر مجاز: /*PAGEN_6=
غیر مجاز: /*PAGEN_7=

غیر مجاز: /*PAGE_NAME=جستجو
غیر مجاز: /*PAGE_NAME=user_post
غیر مجاز: /*PAGE_NAME=detail_slide_show
غیر مجاز: /*SHOWALL
غیر مجاز: /*show_all=
نقشه سایت: http:// مسیر نقشه فرمت XML شما

مثال Robots.txt برای MODx

عامل کاربر: *
غیر مجاز: /assets/cache/
غیر مجاز: /assets/docs/
غیر مجاز: /assets/export/
غیر مجاز: /assets/import/
غیر مجاز: /assets/modules/
غیر مجاز: /assets/plugins/
غیر مجاز: /assets/snippets/
غیر مجاز: /install/
غیر مجاز: /manager/
نقشه سایت: http://site.ru/sitemap.xml

مثال Robots.txt برای دروپال

عامل کاربر: *
غیر مجاز: /پایگاه داده/
غیر مجاز: /شامل/
غیر مجاز: /misc/
غیر مجاز: /modules/
غیر مجاز: /sites/
غیر مجاز: /themes/
غیر مجاز: /scripts/
غیر مجاز: /به روز رسانی/
غیر مجاز: /پروفایل/
غیر مجاز: /پروفایل
غیر مجاز: /profile/*
غیر مجاز: /xmlrpc.php
غیر مجاز: /cron.php
غیر مجاز: /update.php
غیر مجاز: /install.php
غیر مجاز: /index.php
غیر مجاز: /admin/
عدم اجازه: /comment/reply/
غیر مجاز: /contact/
غیر مجاز: /logout/
غیر مجاز: /search/
غیر مجاز: /user/register/
غیر مجاز: /user/password/
غیر مجاز: *ثبت نام*
غیر مجاز: *ورود*
غیر مجاز: /top-rated-
غیر مجاز: /messages/
غیر مجاز: /book/export/
غیر مجاز: /user2userpoints/
غیر مجاز: /myuserpoints/
غیر مجاز: /tagadelic/
غیر مجاز: /ارجاع/
غیر مجاز: /aggregator/
غیر مجاز: /files/pin/
غیر مجاز: /Your-votes
غیر مجاز: /comments/recent
غیر مجاز: /*/edit/
غیر مجاز: /*/حذف/
غیر مجاز: /*/صادرات/html/
غیر مجاز: /taxonomy/term/*/0$
غیر مجاز: /*/edit$
غیر مجاز: /*/outline$
غیر مجاز: /*/revisions$
غیر مجاز: /*/contact$
غیر مجاز: /*downloadpipe
غیر مجاز: /node$
غیر مجاز: /node/*/track$
غیر مجاز: /*&
غیر مجاز: /*%
غیر مجاز: /*?page=0
غیر مجاز: /*بخش
غیر مجاز: /*سفارش
غیر مجاز: /*?مرتب کردن*
غیر مجاز: /*&مرتب کردن*
غیر مجاز: /*votesupdown
غیر مجاز: /*تقویم
غیر مجاز: /*index.php
مجاز: /*?page=
غیر مجاز: /*؟
نقشه سایت: http:// مسیر نقشه فرمت XML شما

توجه!

CMS به طور مداوم به روز می شود. ممکن است لازم باشد صفحات دیگر را از نمایه سازی مسدود کنید. بسته به هدف، ممنوعیت نمایه سازی را می توان حذف کرد یا برعکس، اضافه کرد.

robots.txt را بررسی کنید

هر موتور جستجو برای طراحی فایل robots.txt الزامات خاص خود را دارد.

به منظور. واسه اینکه. برای اینکه robots.txt را بررسی کنیدبرای بررسی صحت نحو و ساختار فایل می توانید از یکی از سرویس های آنلاین استفاده کنید. به عنوان مثال، Yandex و Google خدمات تجزیه و تحلیل سایت خود را برای وب مسترها ارائه می دهند که شامل تجزیه و تحلیل robots.txt:

بررسی robotx.txt برای ربات جستجوی Yandex

این را می توان با استفاده از یک ابزار ویژه از Yandex - Yandex.Webmaster انجام داد، و همچنین دو گزینه وجود دارد.

انتخاب 1:

لیست کشویی در بالا سمت راست - انتخاب کنید تجزیه و تحلیل Robots.txtیا پیوند http://webmaster.yandex.ru/robots.xml را دنبال کنید

فراموش نکنید که تمام تغییراتی که در فایل robots.txt ایجاد می کنید بلافاصله در دسترس نخواهد بود، اما فقط پس از مدتی.

بررسی robotx.txt برای ربات جستجوگر گوگل

در کنسول جستجوی گوگل، سایت خود را انتخاب کنید، به ابزار بازرسی بروید و محتوای فایل robots.txt خود را بررسی کنید. نحویو بازی فکریخطاهای موجود در آن برجسته می شود و تعداد آنها در زیر پنجره ویرایش نشان داده می شود.
در پایین صفحه رابط، URL مورد نظر را در پنجره مربوطه مشخص کنید.
از منوی کشویی سمت راست، را انتخاب کنید ربات.
روی دکمه کلیک کنید بررسی.
وضعیت نمایش داده خواهد شد در دسترسیا در دسترس نیست. در حالت اول، روبات های گوگل می توانند به آدرسی که شما مشخص کرده اید بروند، اما در حالت دوم - نه.
در صورت لزوم، تغییراتی در منو ایجاد کرده و دوباره تست را انجام دهید. توجه!این اصلاحات به طور خودکار به فایل robots.txt در سایت شما اضافه نمی شود.
محتوای اصلاح شده را کپی کرده و به فایل robots.txt در سرور وب خود اضافه کنید.

علاوه بر خدمات تأیید از Yandex و Google، بسیاری دیگر به صورت آنلاین وجود دارد اعتبار سنجی robots.txt.

ژنراتورهای Robots.txt

سرویس از SEOlib.ru با استفاده از این ابزار می توانید به سرعت محدودیت های موجود در فایل Robots.txt را دریافت و بررسی کنید.
Generator از pr-cy.ru در نتیجه مولد Robots.txt، متنی را دریافت خواهید کرد که باید در فایلی به نام Robots.txt ذخیره شده و در دایرکتوری ریشه سایت خود آپلود شود.

ربات های جستجوگر تمام اطلاعات موجود در اینترنت را اسکن می کنند، اما صاحبان سایت می توانند دسترسی به منابع خود را محدود یا رد کنند. برای انجام این کار، باید سایت را از ایندکس شدن از طریق فایل سرویس robots.txt مسدود کنید.

اگر نیازی به بستن کامل سایت ندارید، نمایه سازی صفحات جداگانه را غیرفعال کنید. کاربران نباید بخش‌های خدمات سایت، حساب‌های شخصی یا اطلاعات قدیمی از بخش تبلیغات یا تقویم را در جستجو ببینند. علاوه بر این، باید اسکریپت ها، پنجره های پاپ آپ و بنرها و فایل های سنگین را از فهرست بندی مسدود کنید. این به کاهش زمان نمایه سازی و کاهش بار روی سرور کمک می کند.

نحوه بستن کامل سایت

معمولاً منبع در طول یا به طور کامل از نمایه سازی بسته می شود. سایت‌هایی که مدیران وب‌سایت‌ها در آن‌ها مطالعه یا آزمایش می‌کنند نیز بسته هستند.

شما می توانید نمایه سازی سایت را برای همه موتورهای جستجو، برای یک ربات منفرد ممنوع کنید، یا آن را برای همه به جز یکی ممنوع کنید.

نحوه بستن صفحات جداگانه

سایت های کارت ویزیت کوچک معمولاً نیازی به پنهان کردن صفحات جداگانه ندارند. برای منابعی که اطلاعات رسمی زیادی دارند، صفحات و کل بخش ها را ببندید:

پنل اداری؛
فهرست خدمات؛
منطقه شخصی;
فرم های ثبت نام؛
فرم های سفارش؛
مقایسه محصول؛
موارد دلخواه
سبد؛
کپچا
پاپ آپ ها و بنرها؛
جستجو در سایت؛
شناسه های جلسه

توصیه می شود که فهرست سازی به اصطلاح ممنوع شود. صفحات زباله اینها اخبار قدیمی، تبلیغات و پیشنهادات ویژه، رویدادها و رویدادهای تقویم هستند. در سایت های اطلاع رسانی، مقالات را با اطلاعات قدیمی ببندید. در غیر این صورت، منبع نامربوط تلقی می شود. برای اینکه مقالات و مطالب بسته نشود، به طور مرتب داده های موجود در آنها را به روز کنید.

ممنوعیت نمایه سازی

چگونه اطلاعات دیگر را پنهان کنیم

فایل robots.txt به شما امکان می دهد پوشه های سایت، فایل ها، اسکریپت ها و تگ های utm را ببندید. آنها را می توان به طور کامل یا انتخابی پنهان کرد. یک ممنوعیت برای نمایه سازی برای همه روبات ها یا ربات های فردی مشخص کنید.

ممنوعیت نمایه سازی

نحوه بستن سایت با استفاده از متا تگ ها

جایگزینی برای فایل robots.txt متا تگ robots است. آن را در کد منبع سایت در فایل index.html بنویسید. در ظرفی قرار دهید . مشخص کنید که سایت برای کدام خزنده ها ایندکس نشده است. اگر برای همه، روبات بنویسید. اگر برای یک ربات، نام آن را مشخص کنید. برای Google - Googlebot، برای Yandex - Yandex. دو گزینه برای نوشتن متا تگ وجود دارد.

انتخاب 1.

گزینه 2.

ویژگی "محتوا" معانی زیر را دارد:

هیچ - نمایه سازی ممنوع است، از جمله noindex و nofollow.
noindex - نمایه سازی محتوا ممنوع است.
nofollow - نمایه سازی پیوندها ممنوع است.
دنبال - نمایه سازی پیوندها مجاز است.
نمایه - نمایه سازی مجاز است.
همه - نمایه سازی محتوا و لینک ها مجاز است.

به این ترتیب، می توانید از ایندکس شدن محتوا جلوگیری کنید اما همچنان به لینک ها اجازه دهید. برای این کار، content=”noindex, follow” را مشخص کنید. در چنین صفحه ای، پیوندها ایندکس می شوند، اما متن ایندکس نمی شود. از ترکیب مقادیر برای موارد مختلف استفاده کنید.

اگر سایت خود را از نمایه سازی از طریق متا تگ مسدود می کنید، نیازی به ایجاد robots.txt به طور جداگانه ندارید.

چه خطاهایی وجود دارد؟

بازی فکری- زمانی که قوانین با یکدیگر تضاد دارند. با بررسی فایل robots.txt در Yandex.Webmaster و Google Robots Testing Tool، خطاهای منطقی را شناسایی کنید.

نحوی- زمانی که قوانین موجود در فایل اشتباه نوشته شده باشد.

رایج ترین آنها عبارتند از:

ورودی غیر حساس به حروف کوچک و بزرگ
با حروف بزرگ نوشته شده است؛
فهرست کردن همه قوانین در یک خط؛
بدون خط خالی بین قوانین.
مشخص کردن خزنده در دستورالعمل؛
فهرست کردن یک مجموعه به جای بستن کل بخش یا پوشه.
عدم وجود بخشنامه عدم اجازه اجباری

گهواره

برای مسدود کردن ایندکس سایت از دو گزینه استفاده کنید. یک فایل robots.txt ایجاد کنید و یک دستور غیر مجاز برای همه خزنده ها مشخص کنید. گزینه دیگر اضافه کردن ممنوعیت از طریق متا تگ robots در فایل index.html داخل تگ است.

اطلاعات سرویس، داده های منسوخ، اسکریپت ها، جلسات و تگ های utm را ببندید. برای هر ممنوعیت یک قانون جداگانه ایجاد کنید. همه روبات های جستجو را از طریق * مسدود کنید یا نام یک خزنده خاص را مشخص کنید. اگر می خواهید فقط به یک ربات اجازه دهید، قانون را با استفاده از Disallow بنویسید.

هنگام ایجاد فایل robots.txt، از Boolean و خطاهای نحوی. فایل را با استفاده از Yandex.Webmaster و Google Robots Testing Tool بررسی کنید.

مواد توسط Svetlana Sirvida-Llorente تهیه شده است.

این مقاله در مورد استفاده عملی از فایل robots.txt در رابطه با حذف صفحات غیر ضروری از . کدام صفحات را حذف کنیم، چگونه آنها را جستجو کنیم، چگونه مطمئن شویم که محتوای مفید مسدود نشده است. در اصل، مقاله در مورد استفاده از یک دستورالعمل است - Disallow. دستورالعمل های جامع برای استفاده از فایل روبات ها و سایر دستورالعمل ها در Yandex Help.

در بیشتر موارد، صفحات غیر ضروری را برای همه روبات های جستجوگر می بندیم، یعنی قوانین Disallow را برای User-agent مشخص می کنیم: *.

عامل کاربر: *
غیر مجاز: /cgi-bin

چه چیزی باید از نمایه سازی مسدود شود؟

با استفاده از دستور Disallow در فایل robots.txt، باید موارد زیر را از نمایه سازی توسط ربات های جستجو مسدود کنید:

صفحات ورود به پنل مدیریت CMS؛
غیر مجاز: /bitrix
غیر مجاز: /login
غیر مجاز: /admin
غیر مجاز: /administrator
غیر مجاز: /wp-admin
صفحات با شاخص های جلسه؛
غیر مجاز: *session _id =
نسخه های چاپی و سایر صفحات در وب سایت (فید، rss، چاپ)؛
صفحاتی با مرتب سازی و فیلترهای مختلف، در صورتی که یک صفحه کامل نداشته باشند. بهینه سازی به معنای داشتن عناوین و تصاویر منحصر به فرد خود در صفحه است.
صفحات با نتایج جستجوی سایت

چگونه صفحاتی را که باید از فهرست بندی بسته شوند جستجو کنیم؟

ComparseR

سایت را اسکن کنید و یک درخت سایت در سمت راست در برگه "ساختار" بسازید:

مشاهده همه "شاخه های" تو در تو درخت.

صفحاتی را در برگه های "Yandex" و "Google" در فهرست موتور جستجو دریافت کنید. سپس، در آمار اسکن، به «در Yandex یافت شد، در سایت یافت نشد» و «در گوگل یافت شد، در سایت یافت نشد» نگاه کنید.

Yandex.Webmaster

در بخش "شاخص سازی" - "ساختار سایت"، تمام "شاخه های" ساختار را مشاهده کنید.

بررسی کنید که محتوای مفید به طور تصادفی مسدود نشده باشد

robots.txt

محتویات فایل robots.txt را مشاهده کنید.

مقایسه کننده (بسته شدن با متا تگ robots را بررسی کنید)

در تنظیمات Comparser، قبل از اسکن، تیک موارد زیر را بردارید:

تجزیه و تحلیل نتایج اسکن در سمت راست:

کنسول جستجو (بررسی منابع مسدود شده مفید)

مهم است که اطمینان حاصل شود که Googlebot به فایل‌های صفحه سبک و تصاویر مورد استفاده برای رندر صفحات دسترسی دارد. برای انجام این کار، باید با کلیک بر روی دکمه «دریافت و نمایش»، صفحات را با ابزار «View Like Googlebot» به صورت انتخابی خزیدن کنید. دو تصویر به‌دست‌آمده «اینگونه است که Googlebot این صفحه را دید» و «اینگونه است که بازدیدکنندگان سایت این صفحه را می‌بیند» باید تقریباً یکسان به نظر برسند. نمونه ای از صفحه مشکل:

قسمت های مسدود شده صفحه را در جدول زیر مشاهده می کنید:

درباره نتایج اسکن در راهنمای کنسول بیشتر بخوانید. تمام منابع مسدود شده باید در فایل robots.txt با استفاده از دستورالعمل Allow رفع انسداد شوند (باز کردن انسداد فقط منابع خارجی کار نخواهد کرد). در این مورد، شما باید دقیقاً فقط منابع لازم را باز کنید. در مثال بالا، ربات گوگل از دسترسی به پوشه منع شده است /templates/، اما برای برخی از انواع فایل های داخل این پوشه باز است:

عامل کاربر: Googlebot
مجاز: /templates/*.css
مجاز: /templates/*.js
مجاز: /templates/*.png
مجاز: /templates/*.jpg
مجاز: /templates/*.woff
مجاز: /templates/*.ttf
مجاز: /templates/*.svg
غیر مجاز: /templates/