كيف تعمل محركات البحث: 2- الزحف

كيف تعمل محركات البحث: 2- الزحف

يعد الزحف إلى محرك البحث عملية أساسية تعزز اتساع وكفاءة الإنترنت. إنه العمود الفقري لكيفية اكتشاف محركات البحث وفهرستها وإتاحة الوصول إليها لعدد لا يحصى من صفحات الويب الموجودة على الإنترنت. بدون زحف محرك البحث، سيكون الإنترنت عبارة عن متاهة من المعلومات غير المتصلة، مما يجعل محركات البحث غير قادرة على تقديم النتائج ذات الصلة للمستخدمين.

الآن بعد أن حصلت على معرفة جيدة حول كيفية عمل محركات البحث في الدرس الأول من سلسلة كيف تعمل محركات البحث ، دعنا نتعمق في العمليات التي يستخدمها محرك البحث لفهم الويب.
ولنبدأ بعملية الزحف.

{tocify} $title={ محتويات المقال }

ما هي عملية الزحف؟

الزحف هي العملية التي تستخدمها برامج زحف الويب لمحركات البحث (الروبوتات أو العناكب) لزيارة الصفحة وتنزيلها واستخراج روابطها لاكتشاف صفحات إضافية.

يتم الزحف إلى الصفحات المعروفة لمحرك البحث بشكل دوري لتحديد ما إذا كان قد تم إجراء أية تغييرات على محتوى الصفحة منذ آخر مرة تم الزحف إليها. إذا اكتشف محرك البحث تغييرات في إحدى الصفحات بعد الزحف إلى الصفحة ، فسيقوم بتحديث فهرسها استجابة لهذه التغييرات المكتشفة.

ما هي زواحف محركات البحث؟

زواحف محركات البحث (Search engine crawlers)، والتي تسمى أيضًا العناكب أو الروبوتات (spiders, robots, bots) ، هي برامج أو نصوص برمجية تتصفح بشكل منهجي وتلقائي الصفحات على الويب.

تستخدم محركات البحث ، مثل (Google)، برامج زحف الويب لقراءة صفحات الويب وتخزين قائمة بالكلمات الموجودة في الصفحة ومكان تلك الكلمات.
كما يقومون بجمع بيانات الاستخدام مثل السرعة وحالات خطأ HTTP التي تتم مواجهتها. يتم تخزين هذه البيانات في فهرس محركات البحث (وهي في الأساس قواعد بيانات ضخمة لصفحات الويب).

عندما تجري بحثًا على Google ، فأنت في الواقع تبحث في فهرس Google ، وليس على الويب الفعلي. ثم يعرض Google الصفحات المفهرسة ذات الصلة بالاستعلام ويوفر روابط للصفحات الفعلية.

نظرًا لأن الويب الحديث يحتوي على عدة أنواع مختلفة من المحتوى، فمحركات البحث لديها طرق للبحث تحديدًا عن هذا النوع من المحتوى، فمحركات البحث الكبرى لديها برامج زحف مخصصة للزحف إلى أنواع معينة من الصفحات أو الملفات.

كيف تعمل زواحف محركات البحث؟

تخيل محركات البحث على أنها عناكب عملاقة ذات شهية نهمة للحصول على المعلومات. تبدأ رحلتهم باتباع الروابط من صفحة ويب إلى أخرى. تعمل هذه الروابط كخيوط تنسج الشبكة المعقدة للمحتوى المترابط على الإنترنت. عندما ينتقل زاحف الويب من صفحة إلى أخرى، فإنه يحلل المحتوى والبيانات الوصفية والمعلومات الأخرى ذات الصلة، والتي يتم تخزينها بعد ذلك في فهرس محرك البحث.

تبدأ غالب زواحف محركات البحث في اكتشاف موقع ويب ما عن طريق تنزيل ملف (robots.txt) الخاص بالموقع، والذي يحتوي على قواعد حول الصفحات التي يجب على محركات البحث الزحف إليها أو لا يجب أن تزحف إليها على موقع الويب.
تستخدم زواحف محركات البحث عددًا من الخوارزميات والقواعد لتحديد عدد مرات إعادة الزحف إلى الصفحة وعدد الصفحات التي يجب فهرستها على الموقع.
على سبيل المثال، قد يتم الزحف إلى الصفحة التي تغير أساسًا بشكل أكثر تكرارًا من الصفحة التي نادرًا ما يتم تعديلها.

يتلقى الزاحفون عناوين URL الخاصة بموقع ما إما عن طريق التحقق من خريطة الموقع (SiteMap) أو باتباع الروابط التي يعثر عليها في صفحة أخرى.
تلعب خريطة الموقع (Sitemap)  دورًا مهمًا في هذه الخطوة لأنها تزود برامج الزحف بقائمة لطيفة ومنظمة من عناوين URL للوصول إليها. كما أنها توفر تفاصيل تؤثر في الطريقة التي تقرر بها Google الزحف إلى كل صفحة.

ما هي خريطة الموقع (Sitemap)

هو ملف يستخدم لتفصيل جميع عناوين URL على موقع الويب.
يمكن أن يتضمن معلومات إضافية (بيانات وصفية) على كل عنوان URL ، مع تفاصيل عن تاريخ آخر تحديث لها ، ومدى أهميتها وما إذا كانت هناك أي إصدارات أخرى من عنوان URL تم إنشاؤها بلغات أخرى.
يتم كل ذلك لمساعدة محركات البحث في الزحف إلى موقعك على الويب بكفاءة أكبر ، مما يسمح بإدخال أي تغييرات عليها مباشرةً ، بما في ذلك عند إضافة صفحة جديدة أو إزالة صفحة قديمة.

ما المقصود بميزانية الزحف (Crawling Budget)؟

بالطبع ، حتى Google لديها موارد محدودة (بغض النظر عن مدى ارتفاع هذا الحد). لذلك ، يعمل (Googlebot)  مع ما يعرف باسم "ميزانية الزحف (Crawling Budget)".

ميزانية الزحف  (Crawling Budget)

هي ببساطة عدد عناوين URL على موقع الويب الذي تريد محركات البحث اكتشافها، ويمكنها الزحف إليها. تعتبر ميزانية الزحف أكثر أهمية في المواقع الكبيرة جدًا التي تحتوي على عشرات الآلاف من عناوين URL، ولكن ليس من الجيد أبدًا منع برامج الزحف من الوصول إلى المحتوى الذي لا تهتم لأمره بالتأكيد. فقط تأكد من عدم حظر وصول الزاحف إلى الصفحات التي أضفت توجيهات أخرى إليها، مثل العلامات الأساسية أو noindex. إذا تم حظر Googlebot من إحدى الصفحات، فلن يتمكن من رؤية الإرشادات الواردة في تلك الصفحة. وهناك عنصران يدخلان في ميزانية Google للزحف لأحد مواقع الويب وهي:

حد معدل الزحف (Crawl rate limit)

لا تريد Google التأثير على تجربة مستخدم موقع الويب أثناء الزحف إليه ، لذا فهي تحد من عدد الصفحات التي يمكن للزاحف جلبها مرة واحدة.

طلب الزحف (Crawl demand)

والمقصود هنا، ما الفائدة المحققة من الزحف ضمن موقع ما؟ الحصول على معلومات تفيد مستخدميها وتجيب عن استفسارتهم عندما يبحثون عن شيء ما.
لذلك، لا تهتم Google بالزحف إلى عناوين URL التي لا تبدو وكأنها تضيف قيمة للمستخدمين (معلمات URL والتنقل الوجهي ومعرفات الجلسات وما إلى ذلك). لذلك حتى إذا لم يصل Googlebot إلى حد معدل الزحف الخاص به ، فلن يضيع موارده الخاصة التي يزحف إلى هذه الصفحات.

ما العوامل التي توثر على ميزانية الزحف إلى موقعك؟

إن حد معدل الزحف والطلب على الزحف يمكن أن يتغير اعتمادًا على ما يعثر عليه محرك البحث Google على موقعك على الويب. ووفقاً لعدد من العوامل، أهمها:


سرعة الموقع (Site speed)

لا يحب Google الانتظار ، لذلك ستجذبه الصفحات السريعة للزحف إلى المزيد من الصفحات. بالإضافة إلى ذلك ، تعد السرعة علامة على موقع ويب صحي ، لذلك ستتمكن Google من وضع المزيد من الموارد في الزحف.

صفحات الخطأ (Error pages)

إذا كان الخادم يستجيب للعديد من الطلبات من Google برموز خطأ ، فإن ذلك سيثني Google عن محاولة الزحف إلى الصفحات لأن ذلك سيبدو كموقع ويب به الكثير من المشاكل.

الشهرة (Popularity)

كلما اعتقدت Google أن صفحتك أكثر شيوعًا ، كلما زحفت إليها كثيرًا لتحديثها في فهرسها.

النضارة والتجديد (Freshness)

ليس سراً أن Google تحب المحتوى الجديد (المتجدد والمحدث). سيؤدي نشر محتوى جديد إلى إعلام Google بأن موقعك على الويب يحتوي على صفحات جديدة للزحف إليها بشكل منتظم. فالمحتوى الأكثر حداثة يعني المزيد من عمليات الزحف.

كيفية تهيئة المواقع لزواحف محركات البحث و الحصول على ترتيب في نتائج البحث

يجب أولاً فهرسة الصفحة. ولفهرسة الصفحة، يجب الزحف إليها أولاً.
لذلك ، فإن للزحف (أو عدمه) تأثير كبير على تحسين محركات البحث.
هناك ثلاث أدوات رئيسية للمساعدة في التحكم في وقت وأين وكيف يقوم Google بالزحف إلى صفحاتك.
إنها ليست مطلقة، ولكنها ستساعد في ضمان العثور على صفحاتك الأكثر أهمية بواسطة الزواحف.

ملف (Robots.txt)

أول شيء يفعله الزاحف عند وصوله إلى الصفحة هو فتح ملف ( robots.txt) الخاص بالموقع . وهذا يجعل ملف (robots.txt)  هو الفرصة الأولى لتوجيه برامج الزحف بعيدًا عما يعتبرونه عناوين URL منخفضة القيمة.
يمكنك استخدام أمر عدم السماح في ملف (robots.txt)  لإبقاء برامج الزحف بعيدة عن الصفحات التي لا تهتم بالضرورة بالظهور في نتائج البحث.

لا تستخدم ملف robots.txt الخاص بك لعدم السماح بعناوين URL المضمنة مثل JavaScript أو CSS.
Google يحتاج أن يكون قادرًا على عرض صفحة بالكامل لفهمها بشكل صحيح.
سيؤدي حظر ملفات CSS و JS إلى زحف وفهرسة غير دقيقين أو غير مكتملين ، مما قد يؤدي إلى رؤية Google للصفحة بشكل مختلف عن البشر ، مما يؤدي الحصول على ترتيب أقل.

خريطة الموقع (Sitemap)

خريطة الموقع (Sitemap) تخبر محركات البحث بالصفحات التي يجب أن يزحفوا إليها.
وعلى الرغم من أن Google غير ملزم بالزحف إلى جميع عناوين URL الموجودة في ملف Sitemap (بخلاف robots.txt، فهي إلزامية)،فإن ملف (Sitemap) الخاص بموقعك أيضًا مهمًا للغاية في التأكد من أن Google يمكنه العثور على صفحات على موقعك ، وتسهيل عمل زواحف محركات البحث.

استخدام علامات (nofollow)

تذكر أن برامج الزحف تنتقل من صفحة إلى أخرى باتباع الروابط. ومع ذلك ، يمكنك إضافة السمة (rel = nofollow)  لإخبار برامج الزحف بعدم اتباع الروابط. فعندما يصادف محرك البحث رابط nofollow ، فسيتم تجاهله.

أخطاء الزحف

تحدث أخطاء الزحف عندما يحاول Google جلب صفحة ولكن يتعذر عليه الوصول إلى عنوان URL لسبب ما.
يمكن أن تحدث أخطاء الزحف على مستوى الموقع بأكمله (DNS ، أو تعطل الخادم أو مشكلات في ملف robots.txt) ، أو على مستوى الصفحة ( 404 ، غير موجود ، إلخ.).


تكرار الزحف وتحديد الأولويات

المشهد الرقمي شاسع، ولا يتم إنشاء جميع صفحات الويب على قدم المساواة. لضمان الكفاءة، تستخدم محركات البحث نظامًا لتكرار الزحف وتحديد الأولويات. يتم الزحف إلى مواقع الويب الشائعة والتي يتم تحديثها بشكل متكرر، مما يضمن بقاء محتواها حديثًا في نتائج البحث. هذا مهم بشكل خاص للمواقع الإخبارية والمدونات ومنصات المحتوى الديناميكي الأخرى. من ناحية أخرى، قد يتم الزحف إلى المواقع الأقل تكرارًا بشكل أقل.

تعطي محركات البحث أيضًا الأولوية للصفحات بناءً على صلتها بالموضوع وأهميتها. غالبًا ما يتم إعطاء الأولوية للصفحات ذات المحتوى عالي الجودة والعديد من الروابط الداخلية والتحديثات المنتظمة أثناء عملية الزحف. يضمن تحديد الأولويات هذا تزويد المستخدمين بأكثر المعلومات قيمة وذات صلة عند إجراء عمليات البحث.

في الختام

يلعب الزحف في محرك البحث دورًا حيويًا في إمكانية الوصول إلى المعلومات على الإنترنت. إنها الآلية التي من خلالها تكتشف محركات البحث صفحات الويب وتفهرسها، مما يتيح للمستخدمين العثور على المحتوى ذي الصلة بسرعة وكفاءة. من خلال فهم تعقيدات زحف محرك البحث وتنفيذ أفضل الممارسات، يمكن لمالكي مواقع الويب والمسوقين الرقميين تحسين تواجدهم عبر الإنترنت وتحسين ظهورهم في نتائج محرك البحث. مع استمرار تطور الإنترنت، ستكون مواكبة أحدث الاتجاهات والتقنيات في الزحف عبر محرك البحث أمرًا بالغ الأهمية لتحقيق أقصى قدر من النجاح عبر الإنترنت.

$ads={1}

الأسئلة الشائعة

كيف تكتشف محركات البحث مواقع جديدة؟

تجد محركات البحث مواقع ويب جديدة من خلال روابط من الصفحات المفهرسة الحالية وخرائط المواقع والوسائط الاجتماعية ومصادر أخرى عبر الإنترنت.

كيف تتفاعل برامج الزحف مع مواقع الويب؟

ترسل برامج الزحف طلبات إلى خوادم الويب، وتسترد بيانات صفحات الويب، وتتبع الروابط إلى الصفحات الأخرى، وبالتالي تجمع المعلومات للفهرسة.

كيف يؤثر الذكاء الاصطناعي على مستقبل الزحف؟

من المرجح أن تعمل الخوارزميات التي تعتمد على الذكاء الاصطناعي على تحسين كفاءة ودقة الزحف، مما يؤدي إلى نتائج بحث أفضل.

ما الوقت الذي تستغرقه محركات البحث للزحف إلى الصفحات الجديدة وفهرستها؟

يمكن أن يختلف الوقت الذي تستغرقه محركات البحث في الزحف إلى الصفحات الجديدة وفهرستها. يمكن أن تتراوح من بضع ساعات إلى عدة أسابيع، اعتمادًا على عوامل مثل سلطة الموقع، وتكرار التحديث، وأولويات الزحف.

كيف يمكنني مراقبة نشاط الزحف لمحرك البحث على موقع الويب الخاص بي؟

يمكنك مراقبة نشاط الزحف لمحرك البحث من خلال أدوات مشرفي المواقع التي توفرها محركات البحث. توفر هذه الأدوات رؤى حول إحصائيات الزحف والأخطاء وحالة الفهرسة لموقعك على الويب.

هل ترغب بتعلم المزيد عن محركات البحث؟


المصادر



Kotayba Bouzian

استشاري تسويق بالمحتوى، وتحسين محركات البحث SEO، والتسويق عبر محركات البحث SEM. لدي خبرة بأفضل الوسائل والأساليب لبناء تواجدك الرقمي وتحسين ظهورك في صفحات محركات البحث، وبناء خطة لمحتواك الرقمي لجذب عملائك، وبناء الثقة بعلامتك التجارية.

إرسال تعليق (0)
أحدث أقدم