في منشور جديد تمّ نشره على مدوّنة مجموعة خدمات بحث جوجل بعنوان "الزحف في شهر ديسمبر: كيفية وسبب زحف برنامج جوجل بوت"، حيث ستبدأ جوجل في الإشارة إلى بعض التّفاصيل التي لا يتمّ الحديث عنها كثيرا حول الزّحف وكيفيّته بوتيرة أسبوعيّة.
وفي ما يلي نصّ المنشور الأصلي:
ربما سمعت أن بحث جوجل يحتاج إلى القيام ببعض العمل قبل أن تظهر صفحة الويب في نتائج بحث جوجل. إحدى هذه الخطوات تسمى الزحف. تتم عملية الزحف لبحث جوجل بواسطة جوجل بوت، وهو برنامج يعمل على خوادم جوجل يسترد عنوان يو ار ال ويتعامل مع أشياء مثل أخطاء الشبكة وإعادة التوجيه والمضاعفات الصغيرة الأخرى التي قد يواجهها أثناء شق طريقه عبر الويب. ولكن هناك بعض التفاصيل التي لا يتم التحدث عنها كثيرا. سنستكشف كل أسبوع هذا الشهر بعض هذه التفاصيل لأنها قد يكون لها تأثير كبير على كيفية زحف مواقعك.
العودة للخلف قليلا: ما هو الزحف؟
الزحف هو عملية اكتشاف صفحات ويب جديدة وإعادة زيارتها وتنزيلها. باختصار، يحصل برنامج جوجل بوت على عنوان يو ار ال، ويرسل طلب HTTP إلى الخادم الذي يستضيفه ثم يتعامل مع الاستجابة من ذلك الخادم، وربما يتبع عمليات إعادة التوجيه، ويتعامل مع الأخطاء، ويمرر محتوى الصفحة إلى نظام الفهرسة الخاص بجوجل.
ولكن صفحات الويب الحديثة ليست مجرد HTML، فماذا عن الموارد الأخرى التي تشكل الصفحة؟ كيف يؤثر الزحف على هذه الموارد على "ميزانية الزحف"؟ هل يمكن تخزين هذه الموارد مؤقتًا من جانب جوجل؟ وهل هناك فرق بين عناوين يو ار ال التي لم يتم الزحف إليها من قبل وتلك التي تمت فهرستها بالفعل؟ في هذا المنشور، سنجيب على هذه الأسئلة، وأكثر من ذلك!
موارد جوجل بوت وصفحات الزحف
إلى جانب HTML، تستخدم مواقع الويب الحديثة مجموعة من التقنيات المختلفة مثل JavaScript وCSS لتقديم تجارب نابضة بالحياة ووظائف مفيدة للمستخدمين. عند الوصول إلى مثل هذه الصفحات باستخدام متصفح، يقوم المتصفح أولا بتنزيل عنوان يو ار ال الرئيسي الذي يستضيف البيانات اللازمة لبدء بناء الصفحة للمستخدم - HTML للصفحة. قد تحتوي هذه البيانات الأولية على مراجع لموارد مثل JavaScript وCSS، ولكن أيضا صور ومقاطع فيديو سيقوم المتصفح بتنزيلها مرة أخرى لإنشاء الصفحة النهائية التي يتم تقديمها بعد ذلك للمستخدم.
تقوم جوجل بنفس الشيء تماما، وإن كان بطريقة مختلفة قليلا:
- يقوم زاحف جوجل بتنزيل البيانات الأولية من عنوان يو ار ال الرئيسي — HTML للصفحة.
- يقوم زاحف جوجل بتمرير البيانات التي تم جلبها إلى خدمة عرض الويب (WRS).
- باستخدام زاحف جوجل، يقوم WRS بتنزيل الموارد المشار إليها في البيانات الأصلية.
- يقوم WRS بإنشاء الصفحة باستخدام جميع الموارد التي تم تنزيلها كما يفعل متصفح المستخدم.
بالمقارنة بالمتصفح، قد يكون الوقت بين كل خطوة أطول بشكل ملحوظ بسبب قيود الجدولة مثل الحمل المتصور للخادم الذي يستضيف الموارد اللازمة لعرض الصفحة. وهنا يأتي دور ميزانية الزحف في المحادثة.
سيؤدي زحف الموارد المطلوبة لعرض صفحة ما إلى تقليص ميزانية الزحف لاسم المضيف الذي يستضيف المورد. لتحسين هذا، يحاول WRS تخزين كل الموارد (JavaScript وCSS) المشار إليها في الصفحات التي يعرضها. لا يتأثر وقت بقاء ذاكرة التخزين المؤقت لـ WRS بتوجيهات التخزين المؤقت لـ HTTP؛ بدلا من ذلك، يخزن WRS كل شيء لمدة تصل إلى 30 يوما، مما يساعد في الحفاظ على ميزانية الزحف للموقع لمهام الزحف الأخرى.
من وجهة نظر مالكي المواقع، فإن إدارة كيفية الزحف والموارد التي يتم الزحف إليها يمكن أن تؤثر على ميزانية الزحف الخاصة بالموقع؛ نوصي بما يلي:
- استخدم أقل عدد ممكن من الموارد لتقديم تجربة رائعة للمستخدمين؛ فكلما قل عدد الموارد المطلوبة لعرض الصفحة، قل إنفاق ميزانية الزحف أثناء العرض.
- استضيف الموارد على اسم مضيف مختلف عن اسم المضيف الرئيسي، على سبيل المثال عن طريق استخدام شبكة توصيل المحتوى أو مجرد استضافة الموارد على نطاق فرعي مختلف. سيؤدي هذا إلى تحويل مخاوف ميزانية الزحف إلى المضيف الذي يخدم الموارد.
- استخدم معلمات كسر ذاكرة التخزين المؤقت بحذر: إذا تغيرت عناوين URL للموارد، فقد تحتاج Google إلى الزحف إلى الموارد مرة أخرى، حتى إذا لم يتغير محتواها. سيؤدي هذا بالطبع إلى استهلاك ميزانية الزحف.
تنطبق كل هذه النقاط على موارد الوسائط أيضا. إذا قام برنامج جوجل بوت (أو على وجه التحديد برنامج Googlebot-Image وبرنامج Googlebot-Video على التوالي) بجلبها، فسوف يستهلك ميزانية الزحف للموقع.
من المغري إضافة ملف robots.txt إلى القائمة أيضا، ولكن من منظور العرض، فإن منع الزحف إلى الموارد عادةً ما يسبب مشكلات. إذا لم يتمكن برنامج WRS من جلب مورد مهم للعرض، فقد يواجه بحث جوجل مشكلة في استخراج محتوى الصفحة والسماح للصفحة بالترتيب في البحث.
ما هو الزحف الذي يقوم به Googlebot؟
أفضل مصدر لتحليل الموارد التي يتتبعها محرك بحث جوجل هو سجلات الوصول الخام للموقع والتي تحتوي على إدخال لكل عنوان URL تم طلبه بواسطة المتصفحات وأدوات الزحف على حد سواء. لتحديد أدوات الزحف الخاصة بجوجل في سجل الوصول، ننشر نطاقات IP الخاصة بنا في وثائق المطورين الخاصة بنا.
إن المصدر الثاني الأفضل هو بالطبع تقرير إحصائيات الزحف في سيرش كونسول، والذي يفصل كل نوع من الموارد لكل أداة زحف:
أخيرا، إذا كنت مهتما حقا بالزحف والعرض وترغب في الدردشة حول هذا الأمر مع الآخرين، فإن مجتمع سيرش سينترال هو المكان المناسب للذهاب إليه، ولكن يمكنك أيضًا العثور علينا على لينكد ان.
وفي حال كان لديك استفسار أو كنت بحاجة إلى مزيد من المساعدة، يُمكنك مشاركته في التّعليقات، طرح سؤال في منتدى مساعدة مجموعة خدمات بحث جوجل أو بدء مناقشة في منتدى الدّعم العربي.