همانطور که میدانیم رباتهای موتورهای جستوجو مهمترین نقش در معرفی یک سایت به موتورهای جستوجو را ایفا میکنند. گوگل به عنوان بزرگترین و گستردهترین شبکه در این زمینه رباتهای زیادی را گسترش داده است. وبمسترهای موفق همواره عملکرد و تغییرات این رباتها را دنبال و مطابق با استاندارهای آن پیش میروند. اما سوالی که در اینجا پیش میآید این است که این رباتها چگونه به این سایتها دسترسی پیدا میکنند؟ چگونه میتوان دسترسی آنها به برخی از صفحاتمان را محدود کنیم؟ برای این کار تکنیکی ساده ولی مهم و فوق العاده را میخواهیم به شما معرفی کنیم. این تکنیک استفاده از فایلی متنی به نام robot.txt است که با کمک آن میتوان دسترسی و یا محدودسازی را برای رباتهای گوگل انجام دهیم. اهمیت و بهینهسازی آن میتواند نقش مهمی در پیشرفت سایت شما به همراه داشته باشد و بیتوجهی و بیدقتی به آن به راحتی رتبه سایت شما را پایین بیاورد. حال به این سوال میپردازیم که فایل robot.txt چیست؟ همراه ما در دیجیتالیکس باشید.
فایل robot.txt چیست؟
یکی از موارد مهم در سئو تکنیکال که به وسیله آن میتوانیم نرخ بودجه سایت را تنظیم کنیم robot.txt است. پیش از توضیح درباره آن، اول به این سوال میپردازیم که سئو تکنیکال چیست؟
به روند بهینهسازی وبسایت برای مرحله خزش و ایندکس توسط موتورهای جستوجو مثل گوگل سئو تکنیکال گفته میشود، در واقع سئو تکنیکال یک بخش بسیار مهم از مراحل سئو است که بیشتر به استاندارد بودن ایندکس صفحات برای موتورهای جستوجو اشاره دارد. این قسمت از سئو، کاری به محتوا ندارد و هدف آن بررسی زیر ساختهای وبسایت است به همین دلیل به آن تکنیکال یا فنی میگویند.
برای بهینه کردن ایندکس صفحات سایت یکی از موارد فنی که میتوانیم از آن استفاده کنیم robot.txt است. robot.txt یک فایل متنی ساده است که برای هدایت موتورهای جستوجو و ایندکس شدن صفحات وبسایت مورد استفاده قرار میگیرد. نحوه استفاده و تنظیم این فایل بسیار مهم است. برای جلوگیری از ایندکس شدن صفحات میتوانید از روش تگ noindex استفاده کرد ولی زمانی که بخواهید فقط یک دسته از صفحات ایندکس نشوند، نمیتوانید به صورت جداگانه در هرصفحه از تگ noindex استفاده کنیم. برای این کار robot.txt به شما کمک میکند.
فایل robot.txt در واقع در مسیر اصلی فضای سایت شما یا روت دایرکتوری قرارگرفته است. در حقیقت این فایل وظیفه دارد بخشهای قابل دسترسی و یا محدود شده برای دسترسی رباتها را با تعریف دقیقی برای خزندگان سطح وب که از طرف موتورهای جستوجو با هدف بررسی و ثبت اطلاعات سایت ایجاد شده اند معرفی کند.
با درج کردن دستوراتی خاص در فایل robot.txt به موتورهای جستوجو میگویید کدام بخشها و صفحات را ایندکس و کدام را نادیده بگیرند. اولین چیزی که رباتهای جستوجو با آن برخورد میکنند همین فایل robot.txt است که به محض مواجه شدن با آن خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخشهای قابل دسترس را پیدا کنند. اگر یک فایل robot.txt اشتباه تنظیم کنید، باعث اشتباه در ایندکس شدن صفحات میکند. بنابراین با هربار شروع کمپین سئو فایل robot.txt خود را با ابزارهای نوشتاری رباتهای گوگل بررسی و تحلیل کنید. نکتهای که در این جا وجود دارد این است که این فایل باید در روت اصلی هاست شما قرار بگیرد، تا آدرس سایت به این صورت مشاهده شود:
www.YourWebsite.com/robots.txt
از ایندکس شدن چه صفحاتی باید جلوگیری شود؟
- صفحاتی که دارای محتوای تکراری هستند
- تگ و برچسبهایی که باعث ایجاد محتواهای تکراری یا اضافی در سایت شوند
- فیلتربندی صفحات محصول مثل فیلتر قیمت، رنگ و…
- صفحاتی که با سرچ در وبسایت شما ایجاد میشود (در صورتی که صفحات اصلی و مهم توسط کاربر در سایت سرچ نشود.)
- صفحات ادمین و پنل سایت
- صفحات پروفایل کاربران سایت
- صفحات چت
- برخی از فایلهای قالب که نیاز به دیده شدن توسط گوگل را ندارند
در مواردی که در بالا ذکر شده به ربات گوگل پیشنهاد میدهیم که از خزیدن و ایندکس کردن این صفحات جلوگیری کند.
اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی میافتد؟
اگر این فایل در هاست وبسایت شما آپلود نشده باشد، امکان بررسی تمام صفحات وبسایت خود را به رباتهای موتور جستوجو میدهید و قادر خواهند بود تمام محتوای شما را ایندکس کنند.
اگر فایل robots.txt به درستی تهیه و آپلود نشود چه میشود؟
اگر فایل به درستی و با فرمت استاندارد و صحیح و در محل مناسب آن آپلود نشود و یا اطلاعات و دستورات آن توسط موتورهای جستوجو قابل شناسایی نباشند، باز هم این رباتها به اطلاعات سایت شما دسترسی دارند و میتوانند آنها را ایندکس کنند. پس تنها زمانی رباتها رفتار خود را تغییر میدهند که دستور دقیق را از داخل متون فایل robot.txt دریافت کرده در غیر این صورت رفتار طبیعی خود را انجام داده و به ایندکس کردن تمام قسمتهای سایت ادامه میدهند.
نکات مهم فایل robots.txt در رابطه با سئو
همانطوری که استفاده از robots.txt میتواند به بهبود عملکرد سئو شما و تاثیر مناسبی روی سایت شما داشته باشد، زیادهروی و اشتباه در آن میتواند نتیجه برعکس داشته باشد. به همین منظور نکات زیر را به طور دقیق مطالعه و با توجه به آنها robots.txt مناسب و منطبق با استانداردهای سئو را تهیه کنید:
- فایل robots.txt خود را تست کنید تا مطمئن شوید بخشهای مهم سایت مسدود نشده باشد.
- فایلها و پوشههای CSS و JS مسدود نکنید. رباتها سایت شما را از نگاه یک کاربر مشاهده میکنند در نتیجه اگر این فایلها را مسدود کنید سایت به صورت مناسب بارگذاری نشده و باعث ایجاد خطا و ایندکس شدن دیگر صفحات شما میشوند.
- اگر از WordPress استفاده میکنید، نیاز به مسدود کردن مسیرهایی مثل wp-admin و پوشه wp-include نیست، وردپرس به صورت اتوماتیک این کار را از طریق تگهای متا انجام میدهد.
در آخر
بحث robots.txt چیزی نیست که بخواهید وقت و زمان زیادی را برای آن صرف کنید یا به صورت مستمر بخواهید آزمون و خطا انجام دهید. برای بهرهمندی بیشتر از این قابلیت بهترین کار استفاده از Google Search Console است که به کمک آن خیلی راحت میتوانید فایل robots.txt خود را مدیریت و اشکال زدایی و بروز رسانی کنید. پیشنهاد میشود به طور مداوم و پشت سر هم از بروزرسانی این فایل خودداری کنید، بهترین کار این است که بعد از ساخت وبسایت یک فایل کامل و نهایی از robots.txt تهیه کنید. به روزرسانی پیاپی این فایل شاید در روند فعالیت سایت شما تاثیر زیادی نخواهد داشت، اما منجر به پیچیده شدن دسترسی رباتها میشوند.