ساختار فایل Robots.txt


سارا اسلامیان
فایل Robots.txt چیست

فایل Robots.txt یک فایل متنی است که وبمستر ها برای دستور دادن به بات های موتور های جستجو می سازند. این فایل بخشی از robots exclusion protocol (REP) بوده و شامل چند استاندارد مختلف درباره نحوه کراول کردن بات های موتور جستجو است. REP همچنین شامل هدایتگر های متا روبوت، سابدایراکتوری ها(Sub Directory)، دستور هایی مبتنی بر نحوه رفتار بات با لینک های (Follow یا Nofollow) است.

در حقیقت این فایل تعیین می کند که آیا بات ها می توانند بخش یا بخش هایی از وب سایت را کروال کنند یا نه. تعیین کردن این امر نیز با دستور های allowing و disallowing انجام می شود.

فرمت فایل Robots.txt

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

ساختار کلی فایل های robots به این شکل است. البته به این مثال ساده می توان خطوط دیگری نیز به ان اضافه کرد. درون این فایل هر کدام از هدایتگر ها در خطوط جداگانه ای نوشته می شوند. دستور های داده شده نیز تنها برای بخش مشخص شده در ان خط اعمال می شوند.

Robots.txt چگونه کار می کند ؟

برای کراول کردن صفحه از لینک ها پیروی می کنند و الگوی کار کردن بات ها نیز به الگوی عنکبوتی شناخته می شود. هنگامی که بات ها به یک صفحه می رسند پیش از کروال کردن آن دستور های داده شده در فایل Robots.txt را می خوانند و طبق آن عمل می کنند. اگر این فایل وجود نداشته باشد و یا هیچ دستوری در آن نوشته نشده باشد بات های گوگل، همه بخش های سایت را می خوانند.

کاربرد این فایل چیست؟

در هر سایت صفحات مختلفی وجود دارد که اهمیت و ارزش این صفحات با یکدیگر متفاوت است. متخصصین سئو از راه های گوناگونی استفاده می کنند تا ورود ربات ها به سایت را کنترل کنند چرا که آن ها دوست ندارند بعضی از صفحات کم اهمیت توسط ربات های گوگل Crawl شده و مورد ارزیابی قرار گیرد. به همین دلیل ما از Robots.txt استفاده کرده و مشخص می کنیم چه صفحاتی باید مورد بررسی قرار گیرند.

فایل Robots.txt کجاست؟

اگر تمایل به مشاهده فایل Robots.txt سایت خود دارید، آدرس سایت را در مرورگر وارد کرده و در انتهای آن robots.txt/ اضافه کنید.

فایل robots.txt

برای ویرایش این فایل به هاست مراجعه کرده و سپس در قسمت Root آن را مشاهده خواهید کرد.

نوشتن فایل Robots.txt

برای ساخت این فایل در ابتدا Note Pad یا یک ویرایشگر متن که فرمت خروجی آن txt است را باز کنید. همچنین فرمت encoding نیز باید UTF-8 باشد.

۴ دستور مهم

  • User-agent : جهت مشخص کردن موتور جستجورگر ( Google , Bing و … )
  • Disallow : بخش‌های غیر مجاز
  • Allow : بخش‌های مجاز
  • Sitemap : جهت مشخص کردن آدرس نقشه سایت

دلایل اهمیت Robots.txt

  • مدیریت ترافیک مصرف شده توسط ربات ها
  • امکان مشخص کردن دسترسی یا عدم دسترسی ربات ها به صفحات وب سایت
  • مدیریت Crawl Budget
بودجه خزش یا Crawl Budget چیست و چه تاثیری در رتبه های سایت دارد؟

نکات مهم در مورد این فایل

  • برای پیدا شدن باید در بالاترین دایرکتوری سایت قرار داده شود.
  • نام فایل نباید کوچکترین تغییری کند و دقیقا robots.txt می باشد.
  • برخی بات ها ممکن است این فایل را در کل نادیده بگیرند.
  • این فایل عمومی است کافیست در انتهای هر دامینی آن را با اسلش وارد کنید
  • هر روت دامین و ساب دامین باید فایل مخصوص به خود را داشته باشند و نمی توان از یک فایل برای هر دو استفاده کرد.
priority_high سوالات متداول
  • keyboard_arrow_down فایل Robots.txt چیست؟
    این فایل برای ایجاد دسترسی و محدود کردن ربات های گوگل و سایر موتورهای جستجوگر به کار می رود.
  • keyboard_arrow_down چرا از فایل Robots استفاده می کنیم؟
    بعضی از صفحات سایت ما هستند که به دلایل مختلف تمایل به ثبت آنها در موتورهای جستجو نداریم. با کمک این فایل این موضوع را برای ربات های گوگل مشخص می کنیم.
  • keyboard_arrow_down چرا این فایل اهمیت زیادی دارد؟
    با کمک این فایل ما امکان مدیریت Crawl Budget را داریم، همچنین می توانیم ترافیک مصرفی ربات ها را کنترل کرده و مهمتر از همه دسترسی یا عدم دسترسی ربات ها را به صفحات وب مشخص می کنیم.
نویسنده سارا اسلامیان
۰۵ مرداد ۱۴۰۰
question_answer پرسش و پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.