نمایه سازی ربات txt ممنوع است. نحوه جلوگیری از ایندکس شدن صفحات مورد نیاز از ایندکس شدن تمام صفحات دارای رشته پرس و جو جلوگیری کنید
خوب، برای مثال، شما تصمیم گرفتید طراحی وبلاگ خود را تغییر دهید و نمی خواهید ربات های جستجو در این زمان از منبع بازدید کنند. یا فقط یک وبسایت ایجاد کردهاید و یک موتور روی آن نصب کردهاید، بنابراین اگر منبع ندارد اطلاعات مفید، پس نباید آن را به ربات های جستجو نشان دهید. در این مقاله یاد خواهید گرفت که چگونه یک سایت را از نمایه سازی در Yandex، Google یا همه آنها به طور همزمان مسدود کنید. موتورهای جستجواوه اما قبل از آن، می توانید مقاله مشابه دیگری را نیز بخوانید: "؟" حالا بیایید شروع کنیم.
1. با استفاده از فایل robots.txt سایت را از ایندکس شدن مسدود کنید.
برای شروع شما نیاز دارید. برای انجام این کار، یک سند متنی معمولی با نام robots و پسوند txt. در رایانه خود ایجاد کنید. این چیزی است که من به تازگی ایجاد کردم:
اکنون این فایل باید در بارگذاری شود. اگر منبع روی موتور وردپرس ساخته شده باشد، پس پوشه root جایی است که پوشه های wp-content، wp-includes و غیره در آن قرار دارند.
بنابراین، ما یک فایل خالی در هاست آپلود کرده ایم، اکنون باید از این فایل استفاده کنیم تا وبلاگ را به نحوی از نمایه سازی ببندیم. این را می توان همانطور که قبلاً نوشتم فقط برای Yandex ، Google یا همه موتورهای جستجو به طور همزمان انجام داد. بیایید در مورد همه چیز به ترتیب صحبت کنیم.
چگونه یک سایت را از نمایه سازی فقط برای Yandex مسدود کنیم؟
خط زیر را در فایل robots.txt بنویسید:
عامل کاربر: Yandex
غیر مجاز:/
برای اطمینان از اینکه Yandex از ایندکس کردن منبع خود جلوگیری کرده اید، اگر قبلاً این کار را نکرده اید ابتدا یک سایت اضافه کنید و سپس به این صفحه بروید. سپس وارد چندین صفحه از سایت خود شده و بر روی دکمه "بررسی" کلیک کنید. اگر صفحاتی از فهرست بندی منع شده باشند، چیزی شبیه به این را خواهید دید:
چگونه یک سایت را از ایندکس شدن فقط توسط گوگل مسدود کنیم؟
فایل robots.txt را باز کنید و خط زیر را در آنجا بنویسید:
عامل کاربر: Googlebot
غیر مجاز:/
برای بررسی اینکه گوگل سایت را ایندکس نمی کند، ایجاد کنید، منبع خود را به Google Webmaster اضافه کنید و به آن بروید. در اینجا همچنین باید چندین صفحه را وارد کرده و روی دکمه "بررسی" کلیک کنید.
من متوجه شدم که موتور جستجوی گوگل حتی اسنادی را که در فایل robots.txt ممنوع هستند ایندکس می کند و آنها را در یک فهرست اضافی به نام "snot" وارد می کند. من نمی دانم چرا، اما باید بدانید که مسدود کردن یک سایت یا یک صفحه فردی با استفاده از فایل robots.txt 100٪ غیرممکن است. این فایل، همانطور که من متوجه شدم، فقط یک توصیه برای گوگل است و تصمیم می گیرد چه چیزی را ایندکس کند و چه چیزی را نه.
چگونه یک سایت را از فهرست شدن برای همه موتورهای جستجو مسدود کنیم؟
برای اینکه همه موتورهای جستجو نتوانند منبع شما را یکجا فهرست کنند، خط زیر را به robots.txt اضافه کنید:
عامل کاربر: *
غیر مجاز:/
اکنون می توانید به Yandex یا Google Webmaster نیز بروید و ممنوعیت فهرست بندی را بررسی کنید.
می توانید فایل robots.txt خود را در این آدرس ببینید:
Vashdomain.ru/robots.txt
هر چیزی که در این فایل نوشتید باید در مرورگر نمایش داده شود. اگر وقتی به این آدرس می روید، پیامی جلوی شما ظاهر می شود، به این معنی است که فایل خود را در جای اشتباهی آپلود کرده اید.
به هر حال، robots.txt من قرار دارد. اگر منبع شما بر روی موتور وردپرس ساخته شده است، می توانید به سادگی آن را کپی کنید. این به درستی پیکربندی شده است تا اطمینان حاصل شود که ربات های جستجو فقط اسناد لازم را فهرست می کنند و هیچ مورد تکراری در سایت وجود ندارد.
2. سایت را از نمایه سازی با استفاده از نوار ابزار مسدود کنید.
این روش فقط برای کسانی مناسب است که منبع آنها در وردپرس ساخته شده است. به "کنترل پنل" - "تنظیمات" - "خواندن" بروید. در اینجا باید کادر کنار کتیبه "توصیه کنید که موتورهای جستجو سایت را فهرست بندی نکنند" را علامت بزنید.
لطفاً توجه داشته باشید که در زیر یک کتیبه بسیار جالب وجود دارد: "موتورهای جستجو خودشان تصمیم می گیرند که آیا درخواست شما را دنبال کنند یا خیر." این دقیقاً همان چیزی است که در بالا نوشتم. به احتمال زیاد Yandex صفحاتی را که فهرست کردن آنها ممنوع است فهرست نمی کند، اما ممکن است مشکلاتی در گوگل ایجاد شود.
3. سایت را از ایندکس شدن به صورت دستی می بندیم.
هنگامی که کل یک منبع یا صفحه را از فهرست بندی می بندید، خط زیر به طور خودکار در کد منبع ظاهر می شود:
meta name = "ربات ها" content="noindex,follow"
به رباتهای جستجو میگوید که سند را نمیتوان ایندکس کرد. شما به سادگی می توانید این خط را به صورت دستی در هر نقطه از سایت خود بنویسید، نکته اصلی این است که در تمام صفحات ظاهر می شود و سپس منبع از فهرست بندی بسته می شود.
به هر حال، اگر یک سند غیر ضروری در وب سایت خود ایجاد می کنید و نمی خواهید ربات های جستجو آن را فهرست کنند، می توانید این خط را نیز در کد منبع وارد کنید.
پس از به روز رسانی، کد منبع صفحه (CTRL + U) را باز کنید و ببینید آیا این خط در آنجا ظاهر می شود یا خیر. اگر وجود داشته باشد، پس همه چیز خوب است. در هر صورت، می توانید استفاده از ابزارهای وب مسترها از Yandex و Google را نیز بررسی کنید.
برای امروز کافی است. اکنون می دانید که چگونه یک سایت را از فهرست بندی مسدود کنید. امیدوارم این مقاله برای شما مفید بوده باشد. خداحافظ همه
یکی از مراحل بهینه سازی سایت برای موتورهای جستجو، تدوین فایل robots.txt است. با استفاده از این فایل می توانید از ایندکس کردن سایت شما یا قسمت های خاصی از آن که برای نمایه سازی در نظر گرفته نشده اند، برخی یا همه ربات های جستجوگر جلوگیری کنید. به ویژه، می توانید از فهرست شدن محتوای تکراری مانند نسخه های قابل چاپ صفحات جلوگیری کنید.
قبل از شروع نمایه سازی، ربات های جستجوگر همیشه به فایل robots.txt در دایرکتوری ریشه سایت خود، به عنوان مثال http://site.ru/robots.txt مراجعه می کنند تا بدانند ربات در کدام بخش از سایت ممنوع است. از نمایه سازی اما حتی اگر قرار نیست چیزی را ممنوع کنید، باز هم توصیه می شود این فایل را ایجاد کنید.
همانطور که از پسوند robots.txt می بینید، این یک فایل متنی است. برای ایجاد یا ویرایش این فایل بهتر است از ساده ترین ویرایشگرهای متن مانند Notepad استفاده کنید. robots.txt باید در دایرکتوری ریشه سایت قرار گیرد و فرمت خاص خود را داشته باشد که در ادامه به آن خواهیم پرداخت.
فرمت فایل Robots.txt
فایل robots.txt باید حداقل شامل دو ورودی لازم باشد. اولین مورد دستورالعمل User-agent است که نشان می دهد کدام ربات جستجو باید دستورالعمل های بعدی را دنبال کند. اگر به یکباره به همه ربات ها دسترسی دارید، مقدار می تواند نام ربات (googlebot، Yandex، StackRambler) یا نماد * باشد. مثلا:
عامل کاربر: googlebotمی توانید نام ربات را در وب سایت موتور جستجوی مربوطه پیدا کنید. بعد باید یک یا چند دستورالعمل Disallow وجود داشته باشد. این دستورالعمل ها به ربات می گویند که کدام فایل ها و پوشه ها مجاز به ایندکس نیستند. به عنوان مثال، خطوط زیر مانع از ایندکس کردن فایل feedback.php و دایرکتوری cgi-bin توسط روبات ها می شود:
غیر مجاز: /feedback.php غیر مجاز: /cgi-bin/همچنین می توانید فقط از کاراکترهای شروع فایل ها یا پوشه ها استفاده کنید. خط Disallow: /forum فهرست کردن همه فایلها و پوشهها را در ریشه سایت که نام آن با forum شروع میشود، ممنوع میکند، به عنوان مثال، فایل http://site.ru/forum.php و پوشه http://site. ru/forum/ با تمام محتوایش. اگر Disallow خالی باشد، به این معنی است که ربات می تواند همه صفحات را فهرست کند. اگر مقدار Disallow نماد / باشد به این معنی است که کل سایت از ایندکس شدن منع شده است.
برای هر قسمت User-agent باید حداقل یک قسمت Disallow وجود داشته باشد. یعنی اگر قرار نیست چیزی را برای نمایه سازی ممنوع کنید، فایل robots.txt باید حاوی ورودی های زیر باشد:
عامل کاربر: * غیر مجاز:دستورالعمل های اضافی
علاوه بر عبارات منظم، Yandex و Google اجازه استفاده از دستورالعمل Allow را می دهند، که برعکس Disallow است، یعنی نشان می دهد که کدام صفحات را می توان ایندکس کرد. در مثال زیر، Yandex از فهرست کردن همه چیز به جز آدرسهای صفحه که با /articles شروع میشوند، ممنوع است:
عامل کاربر: Yandex Allow: /articles Disallow: /در این مثال، دستورالعمل Allow باید قبل از Disallow نوشته شود، در غیر این صورت Yandex این را به عنوان یک ممنوعیت کامل برای فهرست کردن سایت درک خواهد کرد. یک دستورالعمل خالی Allow نیز نمایه سازی سایت را به طور کامل غیرفعال می کند:
عامل کاربر: Yandex Allow:معادل
عامل کاربر: Yandex Disallow: /دستورالعمل های غیر استاندارد فقط برای موتورهای جستجویی که از آنها پشتیبانی می کنند باید مشخص شوند. در غیر این صورت، رباتی که این ورودی را نمی فهمد ممکن است آن یا کل فایل robots.txt را به اشتباه پردازش کند. اطلاعات بیشتر در مورد دستورالعمل های اضافی و به طور کلی در مورد درک دستورات در فایل robots.txt توسط یک ربات فردی را می توانید در وب سایت موتور جستجوی مربوطه پیدا کنید.
عبارات منظم در robots.txt
اکثر موتورهای جستجو فقط نام فایل ها و پوشه های مشخص شده را در نظر می گیرند، اما موتورهای جستجوی پیشرفته تری نیز وجود دارند. ربات گوگل و ربات Yandex از استفاده از عبارات منظم ساده در robots.txt پشتیبانی می کنند که به میزان قابل توجهی میزان کار را برای وب مسترها کاهش می دهد. به عنوان مثال، دستورات زیر مانع از ایندکس کردن همه فایلهای با پسوند pdf توسط Googlebot میشوند:
عامل کاربر: googlebot غیر مجاز: *.pdf$در مثال بالا، * هر دنباله ای از کاراکترها است و $ پایان پیوند را نشان می دهد.
عامل کاربر: Yandex Allow: /articles/*.html$ غیر مجاز: /دستورالعمل های بالا به Yandex اجازه می دهد که فقط فایل هایی با پسوند ".html" واقع در پوشه /articles/ را فهرست کند. هر چیز دیگری برای نمایه سازی ممنوع است.
نقشه سایت
می توانید مکان نقشه سایت XML را در فایل robots.txt مشخص کنید:
عامل کاربر: googlebot غیر مجاز: نقشه سایت: http://site.ru/sitemap.xmlاگر خیلی هستید تعداد زیادی ازصفحات موجود در سایت و شما مجبور شدید نقشه سایت را به قطعات تقسیم کنید، سپس در فایل robots.txt باید تمام قسمت های نقشه را نشان دهید:
عامل کاربر: Yandex Disallow: نقشه سایت: http://mysite.ru/my_sitemaps1.xml نقشه سایت: http://mysite.ru/my_sitemaps2.xmlآینه های سایت
همانطور که می دانید، معمولاً یک سایت را می توان در دو آدرس: هم با www و هم بدون آن، دسترسی داشت. برای یک ربات جستجوگر، site.ru و www.site.ru سایت های متفاوتی هستند، اما با محتوای یکسان. به آنها آینه می گویند.
با توجه به اینکه لینک صفحات سایت هم با و هم بدون www وجود دارد، وزن صفحات را می توان بین www.site.ru و site.ru تقسیم کرد. برای جلوگیری از این اتفاق، موتور جستجو باید آینه اصلی سایت را نشان دهد. در نتیجه "چسباندن"، تمام وزن متعلق به یک آینه اصلی خواهد بود و سایت می تواند جایگاه بالاتری در نتایج جستجو داشته باشد.
می توانید آینه اصلی Yandex را مستقیماً در فایل robots.txt با استفاده از دستورالعمل Host مشخص کنید:
عامل کاربر: Yandex Disallow: /feedback.php غیر مجاز: /cgi-bin/ میزبان: www.site.ruپس از چسباندن، آینه www.site.ru تمام وزن را در اختیار خواهد داشت و در نتایج جستجو جایگاه بالاتری را اشغال می کند. و موتور جستجو به هیچ وجه site.ru را ایندکس نمی کند.
برای سایر موتورهای جستجو، انتخاب آینه اصلی، تغییر مسیر دائمی سمت سرور (کد 301) از آینه های اضافی به آینه اصلی است. این کار با استفاده از فایل htaccess و ماژول mod_rewrite انجام می شود. برای این کار فایل .htaccess را در ریشه سایت قرار دهید و موارد زیر را در آنجا بنویسید:
RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1در نتیجه، تمام درخواست های site.ru به www.site.ru می رود، یعنی site.ru/page1.php به www.site.ru/page1.php هدایت می شود.
روش تغییر مسیر برای همه موتورهای جستجو و مرورگرها کار می کند، اما همچنان توصیه می شود دستورالعمل Host را به فایل robots.txt برای Yandex اضافه کنید.
نظرات در robots.txt
همچنین می توانید نظراتی را به فایل robots.txt اضافه کنید - آنها با علامت # شروع می شوند و با یک خط جدید پایان می یابند. توصیه می شود نظرات را در یک خط جداگانه بنویسید، یا بهتر است به هیچ وجه از آنها استفاده نکنید.
نمونه ای از استفاده از نظرات:
User-agent: StackRambler Disallow: /garbage/ # هیچ چیز مفیدی در این پوشه وجود ندارد Disallow: /doc.xhtml # و در این صفحه نیز # و تمام نظرات این فایل نیز بی فایده است.نمونه هایی از فایل های robots.txt
1. به همه روباتها اجازه دهید تا همه اسناد سایت را فهرست کنند:
عامل کاربر: * غیر مجاز:عامل کاربر: * غیر مجاز: /
3. ما ربات جستجوگر گوگل را از فهرست کردن فایل feedback.php و محتویات دایرکتوری cgi-bin منع می کنیم:
User-agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php4. ما به همه روباتها اجازه میدهیم کل سایت را ایندکس کنند و ربات موتور جستجوی Yandex را از فهرستبندی فایل feedback.php و محتویات دایرکتوری cgi-bin منع میکنیم:
عامل کاربر: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php میزبان: www.site.ru User-agent: * Disallow:5. ما به همه رباتها اجازه میدهیم کل سایت را ایندکس کنند و به ربات Yandex اجازه میدهیم فقط بخشی از سایت را که برای آن در نظر گرفته شده است ایندکس کند:
عامل کاربر: Yandex Allow: /yandex Disallow: / میزبان: www.site.ru User-agent: * Disallow:خطوط خالی محدودیت هایی را برای ربات های مختلف جدا می کند. هر بلوک از محدودیت ها باید با یک خط با قسمت User-Agent شروع شود که نشان دهنده رباتی است که این قوانین نمایه سازی سایت برای آن اعمال می شود.
خطاهای رایج
توجه به این نکته مهم است که یک خط خالی در فایل robots.txt جداکننده بین دو ورودی برای روبات های مختلف است. همچنین نمی توانید چندین دستورالعمل را در یک خط مشخص کنید. هنگام جلوگیری از ایندکس شدن یک فایل، مدیران وب غالباً / قبل از نام فایل را حذف می کنند.
نیازی نیست در robots.txt ممنوعیت ایندکس کردن سایت برای برنامه های مختلفی که برای دانلود کامل سایت طراحی شده اند، به عنوان مثال TeleportPro مشخص کنید. نه برنامه های دانلود و نه مرورگرها هرگز به این فایل نگاه نمی کنند و دستورالعمل های نوشته شده در آنجا را انجام نمی دهند. این به طور انحصاری برای موتورهای جستجو در نظر گرفته شده است. همچنین نباید پنل مدیریت سایت خود را در robots.txt مسدود کنید، زیرا اگر لینکی به آن در جایی وجود نداشته باشد، ایندکس نمی شود. شما فقط مکان ناحیه مدیریت را برای افرادی که نباید در مورد آن بدانند نشان می دهید. همچنین شایان ذکر است که robots.txt که خیلی بزرگ است ممکن است توسط موتور جستجو نادیده گرفته شود. اگر صفحات زیادی دارید که برای نمایه سازی در نظر گرفته نشده اند، بهتر است به سادگی آنها را از سایت حذف کنید یا به یک فهرست جداگانه منتقل کنید و از ایندکس شدن این دایرکتوری جلوگیری کنید.
بررسی فایل robots.txt برای وجود خطا
حتما بررسی کنید که موتورهای جستجو چگونه فایل روبات شما را درک می کنند. برای بررسی گوگل می توانید از گوگل وبمستر تولز استفاده کنید. اگر می خواهید بدانید که فایل robots.txt شما چگونه توسط Yandex درک می شود، می توانید از سرویس Yandex.Webmaster استفاده کنید. این به شما این امکان را می دهد که هر اشتباهی را به موقع اصلاح کنید. همچنین در صفحات این سرویس ها می توانید توصیه هایی برای ایجاد یک فایل robots.txt و بسیاری اطلاعات مفید دیگر بیابید.
کپی مطلب ممنوع
Robots.txt یک فایل ویژه است که در دایرکتوری ریشه سایت قرار دارد. مدیر وب سایت در آن نشان می دهد که کدام صفحات و داده ها را از فهرست بندی توسط موتورهای جستجو حذف کند. این فایل حاوی دستورالعمل هایی است که دسترسی به بخش هایی از سایت (به اصطلاح استاندارد استثنایی ربات) را توضیح می دهد. به عنوان مثال، می توانید از آن برای تنظیم تنظیمات دسترسی مختلف برای روبات های جستجوگر طراحی شده برای دستگاه های تلفن همراه و رایانه های رومیزی استفاده کنید. تنظیم صحیح آن بسیار مهم است.
آیا robots.txt ضروری است؟
با robots.txt می توانید:
- ایندکس کردن صفحات مشابه و غیر ضروری را ممنوع کنید تا محدودیت خزیدن (تعداد URL هایی که یک ربات جستجو می تواند در یک خزیدن می تواند بخزد) هدر نرود. آن ها ربات قادر خواهد بود صفحات مهم تری را ایندکس کند.
- مخفی کردن تصاویر از نتایج جستجو
- اسکریپتهای بیاهمیت، فایلهای سبک و سایر منابع صفحه غیر مهم را از فهرستسازی ببندید.
اگر با این کار خزنده Google یا Yandex از تجزیه و تحلیل صفحات جلوگیری می کند، فایل ها را مسدود نکنید.
فایل Robots.txt در کجا قرار دارد؟
اگر فقط میخواهید ببینید چه چیزی در فایل robots.txt وجود دارد، کافی است در نوار آدرس مرورگر خود وارد کنید: site.ru/robots.txt.
از نظر فیزیکی، فایل robots.txt در پوشه ریشه سایت در هاست قرار دارد. من میزبانی beget.ru دارم، بنابراین مکان فایل robots.txt را در این میزبانی نشان خواهم داد.
نحوه ایجاد robots.txt صحیح
فایل robots.txt از یک یا چند قانون تشکیل شده است. هر قانون نمایه سازی مسیر در سایت را مسدود یا اجازه می دهد.
- در یک ویرایشگر متن، فایلی به نام robots.txt ایجاد کنید و طبق قوانین زیر آن را پر کنید.
- فایل robots.txt باید یک فایل متنی کدگذاری شده ASCII یا UTF-8 باشد. نویسهها در سایر رمزگذاریها مجاز نیستند.
- فقط یک فایل از این قبیل باید در سایت وجود داشته باشد.
- فایل robots.txt باید در آن قرار گیرد دایرکتوری ریشهسایت. به عنوان مثال، برای کنترل نمایه سازی تمام صفحات در سایت http://www.example.com/، فایل robots.txt باید در http://www.example.com/robots.txt قرار گیرد. نباید در یک زیر شاخه باشد(مثلاً در آدرس http://example.com/pages/robots.txt). اگر در دسترسی به دایرکتوری ریشه مشکل دارید، با ارائه دهنده هاست خود تماس بگیرید. اگر به دایرکتوری ریشه سایت دسترسی ندارید، از روش مسدودسازی جایگزین مانند متا تگ استفاده کنید.
- فایل robots.txt را می توان به آدرس های با اضافه کرد زیر دامنه ها(به عنوان مثال http:// سایت اینترنتی.example.com/robots.txt) یا پورت های غیر استاندارد (به عنوان مثال، http://example.com: 8181 /robots.txt).
- فایل را در سرویس Yandex.Webmaster و کنسول جستجوی Google بررسی کنید.
- فایل را در پوشه اصلی سایت خود آپلود کنید.
در اینجا یک نمونه فایل robots.txt با دو قانون آورده شده است. در زیر توضیحات او آمده است.
عامل کاربر: Googlebot غیر مجاز: /nogooglebot/ User-agent: * مجاز: / نقشه سایت: http://www.example.com/sitemap.xml
توضیح
- یک عامل کاربری به نام Googlebot نباید دایرکتوری http://example.com/nogooglebot/ و زیر شاخه های آن را فهرست کند.
- همه عوامل کاربر دیگر به کل سایت دسترسی دارند (می توان حذف کرد، نتیجه یکسان خواهد بود، زیرا دسترسی کامل به طور پیش فرض داده شده است).
- فایل نقشه سایت برای این سایت در http://www.example.com/sitemap.xml قرار دارد.
دستورات غیر مجاز و مجاز
برای جلوگیری از نمایه سازی و دسترسی ربات به سایت یا برخی از بخش های آن، از دستورالعمل Disallow استفاده کنید.
User-agent: Yandex Disallow: / # دسترسی به کل سایت را مسدود می کند. User-agent: Yandex Disallow: /cgi-bin # دسترسی به صفحاتی را که با "/cgi-bin" شروع می شوند مسدود می کند.
طبق استاندارد، توصیه می شود قبل از هر دستورالعمل کاربر-عامل، یک فید خط خالی درج شود.
نماد # برای توصیف نظرات در نظر گرفته شده است. همه چیز بعد از این کاراکتر و قبل از شکست خط اول در نظر گرفته نمی شود.
برای اجازه دسترسی ربات به سایت یا برخی از بخش های آن، از دستورالعمل Allow استفاده کنید
عامل کاربر: Yandex Allow: /cgi-bin Disallow: / # دانلود همه چیز را ممنوع می کند به جز صفحات # که با "/cgi-bin" شروع می شوند
وجود خطوط خالی بین دستورالعمل های User-agent، Disallow و Allow مجاز نیست.
دستورات Allow و Disallow از بلوک User-agent مربوطه بر اساس طول پیشوند URL (از کوچکترین به بزرگترین) مرتب شده و به صورت متوالی اعمال می شوند. اگر چندین دستورالعمل برای یک صفحه سایت خاص مناسب باشد، ربات آخرین مورد را به ترتیب ظاهر در لیست مرتب شده انتخاب می کند. بنابراین، ترتیب دستورات موجود در فایل robots.txt بر نحوه استفاده ربات از آنها تأثیری ندارد. مثال ها:
# robots.txt اصلی: User-agent: Yandex Allow: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # اجازه دانلود فقط صفحاتی را می دهد که با "/catalog" شروع می شوند # اصلی robots.txt: User-agent: Yandex Allow: / Allow: /catalog/auto غیر مجاز: /catalog # مرتبسازیشده robots.txt: User-agent: Yandex Allow: / Disallow: /catalog Allow: /catalog/auto # بارگیری صفحات را ممنوع میکند با "/catalog" # شروع می شود، اما به صفحاتی که با "/catalog/auto" شروع می شوند اجازه دانلود می دهند.
اگر بین دو دستورالعمل با پیشوندهای هم طول تضاد وجود داشته باشد، دستور Allow اولویت دارد.
استفاده از کاراکترهای خاص * و $
هنگام تعیین مسیرهای دستورات Allow و Disallow، می توانید از کاراکترهای ویژه * و $ استفاده کنید، بنابراین عبارات منظم خاصی را مشخص کنید.
کاراکتر ویژه * به معنای هر دنباله (از جمله خالی) کاراکترها است.
کاراکتر ویژه $ به معنای پایان خط است، کاراکتر قبل از آن آخرین مورد است.
عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" # و "/cgi-bin/private/test.aspx" را ممنوع می کند: /*private # نه تنها ممنوع می کند "/private"، # و همچنین "/cgi-bin/private"
دستورالعمل نقشه سایت
اگر از فایل نقشه سایت برای توصیف ساختار سایت استفاده می کنید، مسیر فایل را به عنوان پارامتری برای دستورالعمل نقشه سایت مشخص کنید (اگر چندین فایل وجود دارد، همه را مشخص کنید). مثال:
عامل کاربر: Yandex Allow: / نقشه سایت: https://example.com/site_structure/my_sitemaps1.xml نقشه سایت: https://example.com/site_structure/my_sitemaps2.xml
این دستورالعمل متقاطع است، بنابراین بدون توجه به مکانی در فایل robots.txt که در آن مشخص شده است، توسط ربات استفاده می شود.
ربات مسیر فایل را به خاطر می آورد، داده ها را پردازش می کند و از نتایج در جلسات دانلود بعدی استفاده می کند.
دستورالعمل Crawl-Delay
اگر سرور به شدت بارگذاری شده است و زمان پردازش درخواست های ربات را ندارد، از دستورالعمل Crawl-Delay استفاده کنید. این امکان را به شما می دهد که حداقل بازه زمانی (بر حسب ثانیه) را بین پایان بارگذاری یک صفحه و شروع بارگذاری صفحه بعدی تنظیم کنید.
قبل از تغییر سرعت خزیدن سایت، دریابید که ربات بیشتر به کدام صفحات دسترسی دارد.
- گزارش های سرور را تجزیه و تحلیل کنید. با مسئول سایت یا ارائه دهنده هاست تماس بگیرید.
- به فهرست نشانیهای وب در صفحه فهرستبندی → خزیدن آمار در Yandex.Webmaster نگاه کنید (تغییر را روی همه صفحات قرار دهید).
اگر متوجه شدید که ربات به صفحات سرویس دسترسی دارد، با استفاده از دستور Disallow از ایندکس شدن آنها در فایل robots.txt جلوگیری کنید. این به کاهش تعداد تماس های غیر ضروری از ربات کمک می کند.
بخشنامه Clean-param
این دستورالعمل فقط با ربات Yandex کار می کند.
اگر آدرس های صفحه سایت حاوی پارامترهای پویا هستند که بر محتوای آنها تأثیر نمی گذارد (شناسه های جلسه، کاربران، ارجاع دهندگان و غیره)، می توانید آنها را با استفاده از دستورالعمل Clean-param توصیف کنید.
ربات Yandex، با استفاده از این دستورالعمل، بارها و بارها اطلاعات تکراری را بارگیری نمی کند. این کار باعث افزایش راندمان خزیدن سایت شما و کاهش بار روی سرور می شود.
به عنوان مثال، سایت دارای صفحات:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123
پارامتر ref فقط برای ردیابی اینکه درخواست از کدام منبع انجام شده استفاده می شود و محتوا را تغییر نمی دهد؛ همان صفحه با کتاب book_id=123 در هر سه آدرس نشان داده می شود. سپس، اگر دستورالعمل را به صورت زیر مشخص کنید:
عامل کاربر: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
ربات Yandex تمام آدرس های صفحه را به یک کاهش می دهد:
www.example.com/some_dir/get_book.pl?book_id=123
اگر چنین صفحه ای در سایت موجود باشد، در نتایج جستجو قرار می گیرد.
دستور دستوری
Clean-param: p0[&p1&p2&..&pn]فیلد اول که با & از هم جدا شده است، پارامترهایی را که ربات نیازی به در نظر گرفتن آنها ندارد فهرست می کند. فیلد دوم پیشوند مسیر صفحاتی را که قانون باید برای آنها اعمال شود مشخص می کند.
توجه داشته باشید. دستورالعمل Clean-Param مقطعی است، بنابراین می توان آن را در هر جایی از فایل robots.txt مشخص کرد. اگر چندین دستورالعمل مشخص شود، همه آنها توسط ربات مورد توجه قرار می گیرد.
پیشوند می تواند حاوی یک عبارت منظم در قالبی شبیه به فایل robots.txt باشد، اما با برخی محدودیت ها: فقط از کاراکترهای A-Za-z0-9.-/*_ می توان استفاده کرد. در این مورد، نماد * به همان روشی که در فایل robots.txt تفسیر می شود: نماد * همیشه به طور ضمنی به انتهای پیشوند اضافه می شود. مثلا:
Clean-param: s /forum/showthread.php
مورد در نظر گرفته شده است. محدودیتی در طول قانون وجود دارد - 500 کاراکتر. مثلا:
Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash
دستورالعمل HOST
بر این لحظه Yandex پشتیبانی از این دستورالعمل را متوقف کرده است.
robots.txt صحیح: تنظیم
محتویات فایل robots.txt بسته به نوع سایت (فروشگاه آنلاین، وبلاگ)، CMS مورد استفاده، ویژگی های ساختار و تعدادی از عوامل دیگر متفاوت است. بنابراین ایجاد این فایل برای یک وب سایت تجاری به خصوص اگر پروژه ای پیچیده باشد باید توسط متخصص سئو و با تجربه کافی انجام شود.
یک فرد ناآماده به احتمال زیاد نمی تواند قبول کند تصمیم درستدر مورد اینکه کدام قسمت از محتوا بهتر است از نمایه سازی مسدود شود و کدام قسمت باید در نتایج جستجو ظاهر شود.
مثال صحیح Robots.txt برای وردپرس
عامل کاربر: *# قوانین عمومی برای روبات ها، به جز Yandex و Google، # زیرا برای آنها قوانین زیر Disallow است: /cgi-bin # پوشه در میزبانی غیر مجاز: /؟ # همه پارامترهای درخواست در صفحه اصلی غیر مجاز: /wp- # همه فایلهای WP: /wp-json/، /wp-includes، /wp-content/plugins غیر مجاز: /wp/ # اگر یک زیر شاخه /wp/ وجود دارد که در آن CMS نصب شده است (اگر نه، # قانون را می توان حذف کرد) غیر مجاز: *?s= # جستجو غیرمجاز: *&s= # جستجو غیرمجاز: /search/ # جستجو غیرمجاز: /author/ # بایگانی نویسنده غیر مجاز: /users/ # بایگانی نویسنده غیر مجاز: */ trackback # پسگیریها، اعلانها در نظرات درباره ظاهر یک پیوند باز # به یک مقاله غیرمجاز: */feed # همه فیدها غیرمجاز: */rss # فید rss غیرمجاز: */embed # همه جاسازیها غیرمجاز : */wlwmanifest.xml # فایل xml مانیفست Windows Live Writer (اگر از آن استفاده نمیکنید، # قانون قابل حذف است) غیر مجاز: /xmlrpc.php # فایل API وردپرس غیر مجاز: *utm*= # پیوند با برچسبهای utm غیر مجاز: *openstat= # پیوندها با برچسبهای openstat مجاز: */uploads # باز کردن پوشه با فایلهای آپلود نقشه سایت: http://site.ru/sitemap.xml # آدرس نقشه سایت عامل کاربر: GoogleBot # قوانین برای Google (I نظرات را تکرار نکنید) Disallow: /cgi-bin Disallow: /؟ Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php غیر مجاز: *utm*= غیر مجاز: *openstat= مجاز: */uploads مجاز: /*/*.js # باز کردن اسکریپت های js در داخل / wp - (/*/ - برای اولویت) اجازه: /*/*.css # باز کردن فایلهای css در داخل /wp- (/*/ - برای اولویت) مجاز: /wp-*.png # تصاویر در افزونهها، پوشه کش و غیره. مجاز به: /wp-*.jpg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.jpeg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.gif # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دهید: /wp-admin/admin-ajax.php # مورد استفاده پلاگینها باشد تا JS و CSS مسدود نشود. Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php مجاز: */uploads مجاز: /*/*.js مجاز: /*/*.css مجاز: /wp-*.png مجاز: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex توصیه میکند # را از نمایهسازی مسدود نکنید، اما حذف کنید پارامترهای برچسب، # Google از چنین قوانینی پشتیبانی نمی کند Clean-Param: openstat # مشابهنمونه Robots.txt برای جوملا
عامل کاربر: *
غیر مجاز: /administrator/
غیر مجاز: /cache/
غیر مجاز: /شامل/
غیر مجاز: /نصب/
غیر مجاز: /language/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /media/
غیر مجاز: /modules/
غیر مجاز: /plugins/
غیر مجاز: /templates/
غیر مجاز: /tmp/
غیر مجاز: /xmlrpc/
مثال Robots.txt برای Bitrix
عامل کاربر: *
غیر مجاز: /*index.php$
غیر مجاز: /bitrix/
غیر مجاز: /auth/
غیر مجاز: /شخصی/
غیر مجاز: /upload/
غیر مجاز: /search/
غیر مجاز: /*/جستجو/
غیر مجاز: /*/slide_show/
غیر مجاز: /*/gallery/*order=*
غیر مجاز: /*?print=
غیر مجاز: /*&print=
غیر مجاز: /*register=
غیر مجاز: /*forgot_password=
غیر مجاز: /*change_password=
غیر مجاز: /*login=
غیر مجاز: /*logout=
غیر مجاز: /*auth=
غیر مجاز: /*?action=
غیر مجاز: /*action=ADD_TO_COMPARE_LIST
غیر مجاز: /*action=DELETE_FROM_COMPARE_LIST
غیر مجاز: /*action=ADD2BASKET
غیر مجاز: /*action=BUY
غیر مجاز: /*bitrix_*=
غیر مجاز: /*backurl=*
غیر مجاز: /*BACKURL=*
غیر مجاز: /*back_url=*
غیر مجاز: /*BACK_URL=*
غیر مجاز: /*back_url_admin=*
غیر مجاز: /*print_course=Y
غیر مجاز: /*COURSE_ID=
غیر مجاز: /*?COURSE_ID=
غیر مجاز: /*?PAGEN
غیر مجاز: /*PAGEN_1=
غیر مجاز: /*PAGEN_2=
غیر مجاز: /*PAGEN_3=
غیر مجاز: /*PAGEN_4=
غیر مجاز: /*PAGEN_5=
غیر مجاز: /*PAGEN_6=
غیر مجاز: /*PAGEN_7=
غیر مجاز: /*PAGE_NAME=جستجو
غیر مجاز: /*PAGE_NAME=user_post
غیر مجاز: /*PAGE_NAME=detail_slide_show
غیر مجاز: /*SHOWALL
غیر مجاز: /*show_all=
نقشه سایت: http:// مسیر نقشه فرمت XML شما
مثال Robots.txt برای MODx
عامل کاربر: *
غیر مجاز: /assets/cache/
غیر مجاز: /assets/docs/
غیر مجاز: /assets/export/
غیر مجاز: /assets/import/
غیر مجاز: /assets/modules/
غیر مجاز: /assets/plugins/
غیر مجاز: /assets/snippets/
غیر مجاز: /install/
غیر مجاز: /manager/
نقشه سایت: http://site.ru/sitemap.xml
مثال Robots.txt برای دروپال
عامل کاربر: *
غیر مجاز: /پایگاه داده/
غیر مجاز: /شامل/
غیر مجاز: /misc/
غیر مجاز: /modules/
غیر مجاز: /sites/
غیر مجاز: /themes/
غیر مجاز: /scripts/
غیر مجاز: /به روز رسانی/
غیر مجاز: /پروفایل/
غیر مجاز: /پروفایل
غیر مجاز: /profile/*
غیر مجاز: /xmlrpc.php
غیر مجاز: /cron.php
غیر مجاز: /update.php
غیر مجاز: /install.php
غیر مجاز: /index.php
غیر مجاز: /admin/
عدم اجازه: /comment/reply/
غیر مجاز: /contact/
غیر مجاز: /logout/
غیر مجاز: /search/
غیر مجاز: /user/register/
غیر مجاز: /user/password/
غیر مجاز: *ثبت نام*
غیر مجاز: *ورود*
غیر مجاز: /top-rated-
غیر مجاز: /messages/
غیر مجاز: /book/export/
غیر مجاز: /user2userpoints/
غیر مجاز: /myuserpoints/
غیر مجاز: /tagadelic/
غیر مجاز: /ارجاع/
غیر مجاز: /aggregator/
غیر مجاز: /files/pin/
غیر مجاز: /Your-votes
غیر مجاز: /comments/recent
غیر مجاز: /*/edit/
غیر مجاز: /*/حذف/
غیر مجاز: /*/صادرات/html/
غیر مجاز: /taxonomy/term/*/0$
غیر مجاز: /*/edit$
غیر مجاز: /*/outline$
غیر مجاز: /*/revisions$
غیر مجاز: /*/contact$
غیر مجاز: /*downloadpipe
غیر مجاز: /node$
غیر مجاز: /node/*/track$
غیر مجاز: /*&
غیر مجاز: /*%
غیر مجاز: /*?page=0
غیر مجاز: /*بخش
غیر مجاز: /*سفارش
غیر مجاز: /*?مرتب کردن*
غیر مجاز: /*&مرتب کردن*
غیر مجاز: /*votesupdown
غیر مجاز: /*تقویم
غیر مجاز: /*index.php
مجاز: /*?page=
غیر مجاز: /*؟
نقشه سایت: http:// مسیر نقشه فرمت XML شما
توجه!
CMS به طور مداوم به روز می شود. ممکن است لازم باشد صفحات دیگر را از نمایه سازی مسدود کنید. بسته به هدف، ممنوعیت نمایه سازی را می توان حذف کرد یا برعکس، اضافه کرد.
robots.txt را بررسی کنید
هر موتور جستجو برای طراحی فایل robots.txt الزامات خاص خود را دارد.
به منظور. واسه اینکه. برای اینکه robots.txt را بررسی کنیدبرای بررسی صحت نحو و ساختار فایل می توانید از یکی از سرویس های آنلاین استفاده کنید. به عنوان مثال، Yandex و Google خدمات تجزیه و تحلیل سایت خود را برای وب مسترها ارائه می دهند که شامل تجزیه و تحلیل robots.txt:
بررسی robotx.txt برای ربات جستجوی Yandex
این را می توان با استفاده از یک ابزار ویژه از Yandex - Yandex.Webmaster انجام داد، و همچنین دو گزینه وجود دارد.
انتخاب 1:
لیست کشویی در بالا سمت راست - انتخاب کنید تجزیه و تحلیل Robots.txtیا پیوند http://webmaster.yandex.ru/robots.xml را دنبال کنید
فراموش نکنید که تمام تغییراتی که در فایل robots.txt ایجاد می کنید بلافاصله در دسترس نخواهد بود، اما فقط پس از مدتی.
بررسی robotx.txt برای ربات جستجوگر گوگل
- در کنسول جستجوی گوگل، سایت خود را انتخاب کنید، به ابزار بازرسی بروید و محتوای فایل robots.txt خود را بررسی کنید. نحویو بازی فکریخطاهای موجود در آن برجسته می شود و تعداد آنها در زیر پنجره ویرایش نشان داده می شود.
- در پایین صفحه رابط، URL مورد نظر را در پنجره مربوطه مشخص کنید.
- از منوی کشویی سمت راست، را انتخاب کنید ربات.
- روی دکمه کلیک کنید بررسی.
- وضعیت نمایش داده خواهد شد در دسترسیا در دسترس نیست. در حالت اول، روبات های گوگل می توانند به آدرسی که شما مشخص کرده اید بروند، اما در حالت دوم - نه.
- در صورت لزوم، تغییراتی در منو ایجاد کرده و دوباره تست را انجام دهید. توجه!این اصلاحات به طور خودکار به فایل robots.txt در سایت شما اضافه نمی شود.
- محتوای اصلاح شده را کپی کرده و به فایل robots.txt در سرور وب خود اضافه کنید.
علاوه بر خدمات تأیید از Yandex و Google، بسیاری دیگر به صورت آنلاین وجود دارد اعتبار سنجی robots.txt.
ژنراتورهای Robots.txt
- سرویس از SEOlib.ru با استفاده از این ابزار می توانید به سرعت محدودیت های موجود در فایل Robots.txt را دریافت و بررسی کنید.
- Generator از pr-cy.ru در نتیجه مولد Robots.txt، متنی را دریافت خواهید کرد که باید در فایلی به نام Robots.txt ذخیره شده و در دایرکتوری ریشه سایت خود آپلود شود.
ربات های جستجوگر تمام اطلاعات موجود در اینترنت را اسکن می کنند، اما صاحبان سایت می توانند دسترسی به منابع خود را محدود یا رد کنند. برای انجام این کار، باید سایت را از ایندکس شدن از طریق فایل سرویس robots.txt مسدود کنید.
اگر نیازی به بستن کامل سایت ندارید، نمایه سازی صفحات جداگانه را غیرفعال کنید. کاربران نباید بخشهای خدمات سایت، حسابهای شخصی یا اطلاعات قدیمی از بخش تبلیغات یا تقویم را در جستجو ببینند. علاوه بر این، باید اسکریپت ها، پنجره های پاپ آپ و بنرها و فایل های سنگین را از فهرست بندی مسدود کنید. این به کاهش زمان نمایه سازی و کاهش بار روی سرور کمک می کند.
نحوه بستن کامل سایت
معمولاً منبع در طول یا به طور کامل از نمایه سازی بسته می شود. سایتهایی که مدیران وبسایتها در آنها مطالعه یا آزمایش میکنند نیز بسته هستند.
شما می توانید نمایه سازی سایت را برای همه موتورهای جستجو، برای یک ربات منفرد ممنوع کنید، یا آن را برای همه به جز یکی ممنوع کنید.
نحوه بستن صفحات جداگانه
سایت های کارت ویزیت کوچک معمولاً نیازی به پنهان کردن صفحات جداگانه ندارند. برای منابعی که اطلاعات رسمی زیادی دارند، صفحات و کل بخش ها را ببندید:
- پنل اداری؛
- فهرست خدمات؛
- منطقه شخصی;
- فرم های ثبت نام؛
- فرم های سفارش؛
- مقایسه محصول؛
- موارد دلخواه
- سبد؛
- کپچا
- پاپ آپ ها و بنرها؛
- جستجو در سایت؛
- شناسه های جلسه
توصیه می شود که فهرست سازی به اصطلاح ممنوع شود. صفحات زباله اینها اخبار قدیمی، تبلیغات و پیشنهادات ویژه، رویدادها و رویدادهای تقویم هستند. در سایت های اطلاع رسانی، مقالات را با اطلاعات قدیمی ببندید. در غیر این صورت، منبع نامربوط تلقی می شود. برای اینکه مقالات و مطالب بسته نشود، به طور مرتب داده های موجود در آنها را به روز کنید.
ممنوعیت نمایه سازی
چگونه اطلاعات دیگر را پنهان کنیم
فایل robots.txt به شما امکان می دهد پوشه های سایت، فایل ها، اسکریپت ها و تگ های utm را ببندید. آنها را می توان به طور کامل یا انتخابی پنهان کرد. یک ممنوعیت برای نمایه سازی برای همه روبات ها یا ربات های فردی مشخص کنید.
ممنوعیت نمایه سازی
نحوه بستن سایت با استفاده از متا تگ ها
جایگزینی برای فایل robots.txt متا تگ robots است. آن را در کد منبع سایت در فایل index.html بنویسید. در ظرفی قرار دهید
. مشخص کنید که سایت برای کدام خزنده ها ایندکس نشده است. اگر برای همه، روبات بنویسید. اگر برای یک ربات، نام آن را مشخص کنید. برای Google - Googlebot، برای Yandex - Yandex. دو گزینه برای نوشتن متا تگ وجود دارد.انتخاب 1.
گزینه 2.
ویژگی "محتوا" معانی زیر را دارد:
- هیچ - نمایه سازی ممنوع است، از جمله noindex و nofollow.
- noindex - نمایه سازی محتوا ممنوع است.
- nofollow - نمایه سازی پیوندها ممنوع است.
- دنبال - نمایه سازی پیوندها مجاز است.
- نمایه - نمایه سازی مجاز است.
- همه - نمایه سازی محتوا و لینک ها مجاز است.
اگر سایت خود را از نمایه سازی از طریق متا تگ مسدود می کنید، نیازی به ایجاد robots.txt به طور جداگانه ندارید.
چه خطاهایی وجود دارد؟
بازی فکری- زمانی که قوانین با یکدیگر تضاد دارند. با بررسی فایل robots.txt در Yandex.Webmaster و Google Robots Testing Tool، خطاهای منطقی را شناسایی کنید.
نحوی- زمانی که قوانین موجود در فایل اشتباه نوشته شده باشد.
رایج ترین آنها عبارتند از:
- ورودی غیر حساس به حروف کوچک و بزرگ
- با حروف بزرگ نوشته شده است؛
- فهرست کردن همه قوانین در یک خط؛
- بدون خط خالی بین قوانین.
- مشخص کردن خزنده در دستورالعمل؛
- فهرست کردن یک مجموعه به جای بستن کل بخش یا پوشه.
- عدم وجود بخشنامه عدم اجازه اجباری
گهواره
برای مسدود کردن ایندکس سایت از دو گزینه استفاده کنید. یک فایل robots.txt ایجاد کنید و یک دستور غیر مجاز برای همه خزنده ها مشخص کنید. گزینه دیگر اضافه کردن ممنوعیت از طریق متا تگ robots در فایل index.html داخل تگ است.
اطلاعات سرویس، داده های منسوخ، اسکریپت ها، جلسات و تگ های utm را ببندید. برای هر ممنوعیت یک قانون جداگانه ایجاد کنید. همه روبات های جستجو را از طریق * مسدود کنید یا نام یک خزنده خاص را مشخص کنید. اگر می خواهید فقط به یک ربات اجازه دهید، قانون را با استفاده از Disallow بنویسید.
هنگام ایجاد فایل robots.txt، از Boolean و خطاهای نحوی. فایل را با استفاده از Yandex.Webmaster و Google Robots Testing Tool بررسی کنید.
مواد توسط Svetlana Sirvida-Llorente تهیه شده است.
این مقاله در مورد استفاده عملی از فایل robots.txt در رابطه با حذف صفحات غیر ضروری از . کدام صفحات را حذف کنیم، چگونه آنها را جستجو کنیم، چگونه مطمئن شویم که محتوای مفید مسدود نشده است. در اصل، مقاله در مورد استفاده از یک دستورالعمل است - Disallow. دستورالعمل های جامع برای استفاده از فایل روبات ها و سایر دستورالعمل ها در Yandex Help.
در بیشتر موارد، صفحات غیر ضروری را برای همه روبات های جستجوگر می بندیم، یعنی قوانین Disallow را برای User-agent مشخص می کنیم: *.
عامل کاربر: *
غیر مجاز: /cgi-bin
چه چیزی باید از نمایه سازی مسدود شود؟
با استفاده از دستور Disallow در فایل robots.txt، باید موارد زیر را از نمایه سازی توسط ربات های جستجو مسدود کنید:
- صفحات ورود به پنل مدیریت CMS؛
غیر مجاز: /bitrix
غیر مجاز: /login
غیر مجاز: /admin
غیر مجاز: /administrator
غیر مجاز: /wp-admin - صفحات با شاخص های جلسه؛
غیر مجاز: *session _id =
- نسخه های چاپی و سایر صفحات در وب سایت (فید، rss، چاپ)؛
- صفحاتی با مرتب سازی و فیلترهای مختلف، در صورتی که یک صفحه کامل نداشته باشند. بهینه سازی به معنای داشتن عناوین و تصاویر منحصر به فرد خود در صفحه است.
- صفحات با نتایج جستجوی سایت
چگونه صفحاتی را که باید از فهرست بندی بسته شوند جستجو کنیم؟
ComparseR
سایت را اسکن کنید و یک درخت سایت در سمت راست در برگه "ساختار" بسازید:
مشاهده همه "شاخه های" تو در تو درخت.
صفحاتی را در برگه های "Yandex" و "Google" در فهرست موتور جستجو دریافت کنید. سپس، در آمار اسکن، به «در Yandex یافت شد، در سایت یافت نشد» و «در گوگل یافت شد، در سایت یافت نشد» نگاه کنید.
Yandex.Webmaster
در بخش "شاخص سازی" - "ساختار سایت"، تمام "شاخه های" ساختار را مشاهده کنید.
بررسی کنید که محتوای مفید به طور تصادفی مسدود نشده باشد
robots.txt
محتویات فایل robots.txt را مشاهده کنید.
مقایسه کننده (بسته شدن با متا تگ robots را بررسی کنید)
در تنظیمات Comparser، قبل از اسکن، تیک موارد زیر را بردارید:
تجزیه و تحلیل نتایج اسکن در سمت راست:
کنسول جستجو (بررسی منابع مسدود شده مفید)
مهم است که اطمینان حاصل شود که Googlebot به فایلهای صفحه سبک و تصاویر مورد استفاده برای رندر صفحات دسترسی دارد. برای انجام این کار، باید با کلیک بر روی دکمه «دریافت و نمایش»، صفحات را با ابزار «View Like Googlebot» به صورت انتخابی خزیدن کنید. دو تصویر بهدستآمده «اینگونه است که Googlebot این صفحه را دید» و «اینگونه است که بازدیدکنندگان سایت این صفحه را میبیند» باید تقریباً یکسان به نظر برسند. نمونه ای از صفحه مشکل:
قسمت های مسدود شده صفحه را در جدول زیر مشاهده می کنید:
درباره نتایج اسکن در راهنمای کنسول بیشتر بخوانید. تمام منابع مسدود شده باید در فایل robots.txt با استفاده از دستورالعمل Allow رفع انسداد شوند (باز کردن انسداد فقط منابع خارجی کار نخواهد کرد). در این مورد، شما باید دقیقاً فقط منابع لازم را باز کنید. در مثال بالا، ربات گوگل از دسترسی به پوشه منع شده است /templates/، اما برای برخی از انواع فایل های داخل این پوشه باز است:
عامل کاربر: Googlebot
مجاز: /templates/*.css
مجاز: /templates/*.js
مجاز: /templates/*.png
مجاز: /templates/*.jpg
مجاز: /templates/*.woff
مجاز: /templates/*.ttf
مجاز: /templates/*.svg
غیر مجاز: /templates/