جمعه 12 خرداد 1396 - ساعت: 21:38
0
1

یکی از ابزارهایی که همیشه از آن برای پیدا کردن محتوا بهره می بریم، موتورهای جستجو هستند. مدیران و طراحان وب سایت با استفاده از تکنیک های سئو تمامی صفحات سایت خود را به موتور جستجو معرفی می کنند. اما در یک سایت صفحاتی نیز وجود دارد که باید از چشم موتورهای جستجو مخفی بمانند.

برای مخفی کردن قسمت هایی از وب سایت می توانیم از robots به دو شکل فایل یا متا (meta) تگ استفاده کنیم.

 

مزایای استفاده از robots

قبل از اینکه با نحوه ایجاد robots و مشخصات آن آشنا شویم، بد نیست برخی از کاربردهای این فایل (یا تگ) را مرور کنیم:

- حذف محتوای تکراری در موتورهای جستجو (مانند نسخه مخصوص چاپ صفحات یا مخصوص موبایل که البته بهتر است نسخه های متعدد نداشته باشیم) 
- حذف صفحاتی که در حال تکمیل هستند 
- حذف صفحات یا فایل های خصوصی و محرمانه

وجود صفحات تکراری کار موتورهای جستجو را برای پیدا کردن بهترین نسخه سخت می کند (راه حل دیگری هم برای حذف محتوای تکراری وجود دارد که در نوشته های آینده بررسی خواهیم کرد). اگر صفحات جدیدی دارید که در حال به روز رسانی هستند، بهتر است به کمک robots آن ها را موقتا در لیست موتورهای جستجو قرار ندهیم. همچنین در بعضی از وب سایت ها صفحات یا فایل هایی وجود دارند که خارج از محدوده حساب کاربری اعضا و فرم لاگین قرار دارند و نباید در لیست جستجو نمایش داده شوند.

در ادامه نحوه ایجاد فایل robots.txt و متا تگ robots را مرور خواهیم کرد.

 

فایل robots.txt

خزنده های موتورهای جستجو بسیار کنجکاو هستند. کافی است یک ورودی به وب سایت ببینند تا تمامی صفحات را استخراج کنند. همین خزنده ها به اندازه کافی نجیب هم هستند. ابتدا دنبال فایلی به نام robots.txt در شاخه اصلی وب سایت می گردند. اگر این فایل وجود داشته باشد، تنظیمات داخل آن را می خوانند تا بدانند اجازه ورود به چه قسمت هایی از وب سایت را ندارند.

نکته: نام فایل به حروف بزرگ و کوچک حساس است (case sensitive).

 

تنظیمات robots.txt

پس از ایجاد یک فایل متنی ساده در شاخه اصلی وب سایت (به عنوان مثالwww.domain.com/robots.txt) به مرحله تنظیمات آن می رسیم.این فایل شامل تعداد دلخواه ردیف اطلاعات (رکورد) است که هر رکورد از دو قسمت تشکیل شده است.

user-agent مشخص کننده شناسه موتور جستجو و disallow شامل آدرس قسمت هایی از وب سایت که نباید لیست بشوند است. 

* :User-agent

:Disallow

کدهای فوق بدین معنا است که تمامی موتورهای جستجو می توانند به همه قسمت های وب سایت دسترسی داشته باشند. اما با قرار دادن / در مقابل Disallow، دسترسی تمام خزنده ها را به کل وب سایت مسدود می کنیم.

* :User-agent

/ :Disallow

این امکان نیز وجود دارد که یک موتور جستجوی خاص را هدف قرار بدهیم. دستورات زیر، بدین معنا است که گوگل اجازه دسترسی به فولدر private-directory را نخواهد داشت.

 

User-agent: Googlebot

/Disallow: /private-directory

Googlebot همان روبات نرم افزاری گوگل است که وظیفه جمع آوری اطلاعات برای جستجوگر گوگل را بر عهده دارد. لیست کامل روبات های وب را می توانید در این آدرس مشاهده نمایید.

برای صرفه جویی در زمان و کوتاه کردن کدنویسی می توانیم از چند Disallow برای یک User-agent استفاده کنیم.

User-agent: Bingbot

/Disallow: /sample-directory

Disallow: /an-uninteresting-page.html

Disallow: /pictures/logo.jpg

دستورات فوق باعث می شود جستجوگر بینگ محتویات یک فولدر، یک فایل و یک تصویر را در لیست نتایج خود نمایش ندهد.

تصور کنید برای وب سایت خود یک صفحه جستجوی اختصاصی طراحی کرده اید و آدرس آن به همراه کلمه کلیدی چیزی شبیه http://domain.com/?s=searchquery است. اگر بخواهید این صفحه را در موتورهای جستجو مخفی کنید، می توانید از کدهای زیر استفاده کنید:

* :User-agent

=Disallow: /?s

با استفاده از * می توانیم تعداد زیادی فایل یا فولدر را انتخاب کنیم.

* :User-agent

$Disallow: /*.png

کدهای فوق تمامی تصاویر png که در شاخه اصلی وب سایت قرار دارند را هدف قرار داده است. علامت $ به معنای انتهای رشته است.

برای آزمایش صحت تنظیمات فایل robots.txt می توانید با مراجعه به ابزارهای گوگل وبمسترزدر قسمت health لیست آدرس های تعریف شده را مشاهده نمایید. امکان آزمایش تنظیمات قبل از آپلود کردن هم وجود دارد.

 

متا تگ robots

متا تگ robots کاری مشابه با فایل robots.txt انجام می دهد. البته با تفاوت اینکه متا تگ فقط مربوط به یک صفحه است ولی در فایل robots.txt با یک تنظیم ساده می توانیم تعداد زیادی فایل را انتخاب کنیم.

<head>

<"meta name=”robots” content=”noindex, nofollow>

</head>

کدهای فوق، فایل را در تمامی موتورهای جستجو مخفی می کند. عبارات زیر را در قسمت content می توانیم قرار دهیم:

index: لیست کردن این صفحه مجاز است. 

noindex: لیست کردن این صفحه مجاز نیست. 
follow: لینک های این صفحه می توانند توسط موتورهای جستجو دنبال شوند. 
nofollow: لینک های این صفحه نباید توسط موتورهای جستجو دنبال شوند. 
archive: نسخه کش شده این صفحه می تواند در موتورهای جستجو وجود داشته باشد 
noarchive: نسخه کش شده این صفحه نباید در موتورهای جستجو وجود داشته باشد 

سرویس دهنده های مختلف متا تگ های مخصوص خود تعریف کرده اند.اما با توجه به اینکه ارتباطی با robots ندارند در آینده بررسی خواهند شد.

 

<"meta name="googlebot" content="noindex>

<"meta name="googlebot-news" content="nosnippet>

تو هم اگر حرفی داری بزن
ایمیلت منتشر نمیشه، فقط برای داشتن اطلاعات بیشتره
پاسخ به
#
#