فایل Robots.txt یک فایل متنی است که وبمستر ها برای دستور دادن به بات های موتور های جستجو می سازند. این فایل بخشی از robots exclusion protocol (REP) بوده و شامل چند استاندارد مختلف درباره نحوه کراول کردن بات های موتور جستجو است. REP همچنین شامل هدایتگر های متا روبوت، سابدایراکتوری ها(Sub Directory)، دستور هایی مبتنی بر نحوه رفتار بات با لینک های (Follow یا Nofollow) است.
در حقیقت این فایل تعیین می کند که آیا بات ها می توانند بخش یا بخش هایی از وب سایت را کروال کنند یا نه. تعیین کردن این امر نیز با دستور های allowing و disallowing انجام می شود.
فرمت فایل Robots.txt
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
ساختار کلی فایل های robots به این شکل است. البته به این مثال ساده می توان خطوط دیگری نیز به ان اضافه کرد. درون این فایل هر کدام از هدایتگر ها در خطوط جداگانه ای نوشته می شوند. دستور های داده شده نیز تنها برای بخش مشخص شده در ان خط اعمال می شوند.
Robots.txt چگونه کار می کند ؟
برای کراول کردن صفحه از لینک ها پیروی می کنند و الگوی کار کردن بات ها نیز به الگوی عنکبوتی شناخته می شود. هنگامی که بات ها به یک صفحه می رسند پیش از کروال کردن آن دستور های داده شده در فایل Robots.txt را می خوانند و طبق آن عمل می کنند. اگر این فایل وجود نداشته باشد و یا هیچ دستوری در آن نوشته نشده باشد بات های گوگل، همه بخش های سایت را می خوانند.
کاربرد این فایل چیست؟
در هر سایت صفحات مختلفی وجود دارد که اهمیت و ارزش این صفحات با یکدیگر متفاوت است. متخصصین سئو از راه های گوناگونی استفاده می کنند تا ورود ربات ها به سایت را کنترل کنند چرا که آن ها دوست ندارند بعضی از صفحات کم اهمیت توسط ربات های گوگل Crawl شده و مورد ارزیابی قرار گیرد. به همین دلیل ما از Robots.txt استفاده کرده و مشخص می کنیم چه صفحاتی باید مورد بررسی قرار گیرند.
فایل Robots.txt کجاست؟
اگر تمایل به مشاهده فایل Robots.txt سایت خود دارید، آدرس سایت را در مرورگر وارد کرده و در انتهای آن robots.txt/ اضافه کنید.
برای ویرایش این فایل به هاست مراجعه کرده و سپس در قسمت Root آن را مشاهده خواهید کرد.
نوشتن فایل Robots.txt
برای ساخت این فایل در ابتدا Note Pad یا یک ویرایشگر متن که فرمت خروجی آن txt است را باز کنید. همچنین فرمت encoding نیز باید UTF-8 باشد.
۴ دستور مهم
- User-agent : جهت مشخص کردن موتور جستجورگر ( Google , Bing و … )
- Disallow : بخشهای غیر مجاز
- Allow : بخشهای مجاز
- Sitemap : جهت مشخص کردن آدرس نقشه سایت
دلایل اهمیت Robots.txt
- مدیریت ترافیک مصرف شده توسط ربات ها
- امکان مشخص کردن دسترسی یا عدم دسترسی ربات ها به صفحات وب سایت
- مدیریت Crawl Budget
نکات مهم در مورد این فایل
- برای پیدا شدن باید در بالاترین دایرکتوری سایت قرار داده شود.
- نام فایل نباید کوچکترین تغییری کند و دقیقا robots.txt می باشد.
- برخی بات ها ممکن است این فایل را در کل نادیده بگیرند.
- این فایل عمومی است کافیست در انتهای هر دامینی آن را با اسلش وارد کنید
- هر روت دامین و ساب دامین باید فایل مخصوص به خود را داشته باشند و نمی توان از یک فایل برای هر دو استفاده کرد.