سایت شما بی فایده است اگر توسط موتورهای جستجو ایندکس نشود. اگر می خواهید آن را در نتایج جستجو نشان دهید، باید مطمئن شوید که از طریق موتورهای جستجو قابل دسترسی است. با این حال، گاهی اوقات می خواهید دسترسی به قسمت های خاصی از سایت خود را محدود کنید، شاید شما مایل به پنهان کردن صفحات نامناسب یا اسناد خصوصی هستید. در این مقاله شما نحوه مدیریت دسترسی سایت خود برای موتورهای جستجو را از طریق فایل robots.txt یا متا تگ robots یاد خواهید گرفت.
قبل از اینکه به جزئیات نحوه ایجاد یک فایل robots.txt یا متا تگ robots بپردازیم، باید به مزایای آنها نگاهی بیندازیم:
محتوای تکراری تلاشهای SEO شما را رد می کند، زیرا موتورهای جستجو به سختی تصمیم می گیرند کدام نسخه برای پرس و جو جستجو کاربران مناسب تر باشد. با مسدود کردن صفحات تکراری از طریق یک فایل یا برچسب ربات، می توان از این مشکل جلوگیری کرد. راه دیگری برای مدیریت محتوای تکراری وجود دارد، اما بعدا بحث خواهیم کرد.
بهتر است اگر صفحه ای ناقص است آنرا موقتا مسدود کنید تا توسط خزنده ها ایندکس نشوند. بعضی وقتها شما صفحات محرمانه ای دارید که می توانید با فایل یا متا تگ robots آنرا از موتورهای جستجو مخفی کنید.
هنگامی که یک خزنده از وبسایت شما بازدید می کند، با فایل robots.txt یک دستورالعمل به موتورهای جستجو میدهد که کدام صفحات باید نمایه شوند و چه چیزی باید نادیده گرفته شود. با ایجاد یک فایل robots.txt می توانید خزنده ها را از دسترسی به بخش های خاص وب سایت خود منع کنید.
فایل robots.txt باید در root دامنه شما قرار گیرد(www.domain.com/robots.txt).
نکته مهم:در استفاده از این فایل بسیار دقت کنید چون ممکن است صفحات مهم شما را برای موتورهای جستجو مسدود کند.
robots.txt یک فایل متنی ساده است با تعدادی رکورد که دارای دو عنصر می باشد: user-agent و disallow. عنصر user-agent می گوید که کدام خزنده ها باید از اطلاعات غیر مجاز استفاده کنند. Disallow به خزنده ها می گوید که بخشی از وب سایت نمیتواند نمایه شود.
User-agent: * Disallow:
رکورد بالا به موتورهای جستجو دسترسی به تمام صفحات را می دهد. ما از ستاره (*) برای هدفگیری همه خزنده ها استفاده کنیم و به این دلیل که صفحه ای غیر مجاز را مشخص نکرده ایم، می توانیم همه صفحات را فهرست کنیم. با اضافه کردن یک / می توانیم تمام صفحات وب خود را مسدود کنیم:
User-agent: * Disallow:/
همچنین می توانیم یک مسیر را هدف گیری کنید:
User-agent: Googlebot Disallow: /private-directory/
این رکوردها به Google می گوید که چه فهرستهایی را ایندکس کند و کدامها را نکند. Googlebot توسط Google برای جستجوهای محتویات وب مورد استفاده قرار می گیرد. اگر بخواهید چندین دایرکتوری را مسدود کنید:
User-agent: Bingbot Disallow: /sample-directory/ Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg
ما می توانیم از regular expressions در فایل robots.txt استفاده کنید. برای مثال برای جستجوی محتوای یک وب سایت از آدرس زیر استفاده می کنیم که query متغیر است:
http://domain.com/؟s=searchquery
حال در فایل robots.txt به شکل زیر نمایش می دهیم:
User-agent: * Disallow: /?s=
شما همچنین می توانید فایلها را با پسوندهای خاص مسدود کنید. کد زیر تمام تصاویر .png را مسدود می کند:
User-agent: * Disallow: /*.png$
علامت $ را فراموش نکنید این علامت به موتورهای جستجو آخر یک رشته را اعلام می کند:
شما در Google Webmaster Tools می توانید فایل robots.txt خود را تست نمایید.
متا تگ robots در تگ head قرار می گیرد و به موتورهای جستجو می گوید این صفحه ایندکس شوند یا نشوند:
<head>
<meta name=”robots” content=”noindex” />
</head>
ویژگیهای زیر را می توان برای متا تگ robots استفاده کنید:
ویژگی های چندگانه را می توان در یک متا تگ robots استفاده کرد، مثلا:
<head>
<meta name=”robots” content=”noindex,, nofollow” />
</head>