العنكبوت
Googlebot
إن Googlebot هو برنامج تتبع زحف الويب من Google (ويطلق عليه في بعض الأحيان أيضًا اسم "العنكبوت"). الزحف هو عملية يكتشف Googlebot من خلالها الصفحات الجديدة أو التي يتم تحديثها ليضيفها إلى فهرس Google.
ونحن نستخدم في ذلك مجموعة ضخمة من أجهزة الكمبيوتر للبحث عن (أو "الزحف إلى") مليارات الصفحات على الويب وجلبها.
ويستخدم Googlebot خوارزمية: حيث تحدد برامج الكمبيوتر المواقع التي يتم الزحف إليها وعدد مرات عملية الزحف وعدد الصفحات التي يتم جلبها من كل موقع.
وتبدأ عملية زحف Googlebot من خلال قائمة من عناوين URL لصفحات ويب، تم إنشاؤها من عمليات زحف سابقة، وتم دمجها مع بيانات ملفات Sitemap التي يقدمها مشرفو المواقع. وعندما يزور Googlebot كل موقع من مواقع الويب هذه، فإنه يكتشف روابط (SRC وHREF) في كل صفحة ويضيفها إلى قائمة الصفحات التي سيتم الزحف إليها. كما تتم ملاحظة المواقع الجديدة والتغييرات التي تمت على المواقع الحالية وكذلك الروابط المعطلة واستخدامها في تحديث فهرس Google.
لمشرفي المواقع: Googlebot وموقعك
كيفية دخول Googlebot إلى موقعك
بالنسبة إلى معظم المواقع، لن يدخل Googlebot إلى موقعك أكثر من مرة كل بضع ثوانٍ في المتوسط. ومع ذلك، ونتيجة للتأخيرات بسبب الشبكة، من المحتمل ظهور المعدل بشكل أعلى قليلاً على مدى فترات قصيرة.
تم تصميم Googlebot ليتم توزيعه على أجهزة عديدة لتحسين الأداء وتطويره مع نمو الويب. ولتقليل استخدام النطاق الترددي أيضًا، نشغّل العديد من برامج الزحف على الأجهزة بجوار المواقع التي تتم فهرستها في الشبكة. لذلك، ربما تعرض سجلاتك الزيارات من أجهزة مختلفة ضمن النطاق google.com، وجميعها باستخدام وكيل المستخدم Googlebot. ويتمثل هدفنا في الزحف إلى أكبر عدد ممكن من صفحات موقعك عند كل زيارة بدون الإسراف في استهلاك سعة النطاق الترددي للخادم. طلب تغيير معدل الزحف.
منع Googlebot من محتوى موقعك
يستحيل تقريبًا الحفاظ على سرية خادم الويب من خلال عدم نشر روابط إليه. عقب تتبع شخص ما لرابط من خادمك "السري" إلى خادم ويب آخر، قد يظهر عنوان URL "السري" في علامة الإحالة ويمكن تخزينه ونشره من خلال خادم الويب الآخر في سجل الإحالة. وبالمثل، يحتوي الويب على العديد من الروابط القديمة والمعطلة. حينما ينشر شخص ما رابطًا غير صحيح إلى موقعك أو يخفق في تحديث الروابط لإظهار التغييرات في خادمك، سيحاول Googlebot تنزيل رابط غير صحيح من موقعك.
إذا كنت تريد منع Googlebot من الزحف إلى محتويات موقعك، فهناك عدد من الخيارات، بما في ذلك استخدام ملف robots.txt لمنع الدخول إلى الملفات والأدلة على الخادم.
بعد إنشاء ملف robots.txt، ربما يكون هناك تأخير قليل قبل اكتشاف Googlebot للتغييرات. إذا استمر Googlebot في الزحف إلى المحتوى الذي منعته في ملف robots.txt، فتحقق من وجود ملف robots.txt في المكان الصحيح. ويجب وضعه في أعلى دليل في الخادم (على سبيل المثال، www.example.com/robots.txt)، لأن وضع الملف في دليل فرعي لن يحدِث أي تأثير.
إذا كنت تريد منع رسائل الخطأ "لم يتم العثور على الملف" في سجل خادم الويب، فيمكنك إنشاء ملف فارغ باسم robots.txt. إذا كنت تريد منع Googlebot من تتبع أي روابط في صفحة بموقعك، فيمكنك استخدام علامة nofollow meta. لمنع Googlebot من متابعة رابط فردي، يمكنك إضافة السمة rel="nofollow" إلى الرابط نفسه.
إليك بعض النصائح الإضافية:
اختبر عمل ملف robots.txt على النحو المتوقع. تتيح لك أداة اختبار robots.txt على صفحة عناوين URL المحظورة إمكانية الاطلاع بدقة على كيفية تفسير Googlebot لمحتويات ملف robots.txt. تأكد تمامًا أن وكيل مستخدم Google هو Googlebot.
تساعدك أداة الجلب مثل Google في Search Console على استيعاب كيفية ظهور موقعك تحديدًا لأداة Googlebot. يعد ذلك مفيدًا للغاية عند تحرّي المشكلات المتعلقة بمحتوى موقعك أو قابلية الاكتشاف في نتائج البحث وإصلاحها.
التأكد من أن الموقع قابل للزحف
يكتشف Googlebot المواقع عن طريق تتبع الروابط من صفحة لأخرى. في صفحة أخطاء الزحف على Search Console، يتم إدراج أية مشكلات تظهر لأداة Googlebot عند الزحف إلى موقعك. نوصي بمراجعة أخطاء الزحف هذه بانتظام لتحديد أية مشكلات بموقعك.
إذا كان ملف robots.txt يعمل بالشكل المتوقع، ولكن مع عدم وجود حركة زيارات بموقعك، فإليك بعض الأسباب المحتملة لعدم أداء المحتوى بشكل جيد خلال البحث.
مشكلات مع مرسلي المحتوى غير المرغوب فيه ووكلاء المستخدم الآخرين
تتغير عناوين IP التي يستخدمها Googlebot بين الحين والآخر. وأفضل طريقة لتحديد عمليات الدخول من خلال Googlebot هي استخدام وكيل المستخدم (Googlebot). يمكنك التحقق من أن برنامج التتبع الذي يدخل إلى الخادم هو Googlebot حقًا من خلال استخدام بحث عكسي عن نظام أسماء النطاقات.
يراعي Googlebot وجميع برامج تتبع محركات البحث حسنة السمعة الأوامر المضمنة في ملف robots.txt، ولكن بعض الأشخاص السيئين ومرسلي المحتوى غير المرغوب فيه لا يلتزمون بذلك. إبلاغ Google عن المحتوى غير المرغوب فيه.
تمتلك Google العديد من وكلاء المستخدم الآخرين، بما في ذلك Feedfetcher (user-agent Feedfetcher-Google). ونظرًا لأن طلبات Feedfetcher تكون نتيجة إجراءات صريحة من مستخدمين بشريين أضافوا الخلاصات إلى صفحة Google الرئيسية وليست نتيجة برامج الزحف التلقائية، فإن Feedfetcher لا يتبع إرشادات robots.txt. يمكنك منع Feedfetcher من الزحف إلى موقعك من خلال تهيئة خادمك لعرض رسالة 404 أو 410 أو رسالة حالة خطأ أخرى إلى وكيل المستخدم Feedfetcher-Google. مزيد من المعلومات حول Feedfetcher.
source
| 1 |