كيف تعمل محركات البحث: 2- الزحف

الآن بعد أن حصلت على معرفة جيدة حول كيفية عمل محركات البحث في الدرس الأول من سلسلة كيف تعمل محركات البحث ، دعنا نتعمق في العمليات التي يستخدمها محرك البحث لفهم الويب.
ولنبدأ بعملية الزحف.

ما هي زواحف محركات البحث؟

زواحف محركات البحث (Search engine crawlers)، والتي تسمى أيضًا العناكب أو الروبوتات (spiders, robots, bots) ، هي برامج أو نصوص برمجية تتصفح بشكل منهجي وتلقائي الصفحات على الويب.

تستخدم محركات البحث ، مثل (Google)، برامج زحف الويب لقراءة صفحات الويب وتخزين قائمة بالكلمات الموجودة في الصفحة ومكان تلك الكلمات.
كما يقومون بجمع بيانات الاستخدام مثل السرعة وحالات خطأ HTTP التي تتم مواجهتها. يتم تخزين هذه البيانات في فهرس محركات البحث (وهي في الأساس قواعد بيانات ضخمة لصفحات الويب).

عندما تجري بحثًا على Google ، فأنت في الواقع تبحث في فهرس Google ، وليس على الويب الفعلي. ثم يعرض Google الصفحات المفهرسة ذات الصلة بالاستعلام ويوفر روابط للصفحات الفعلية.

نظرًا لأن الويب الحديث يحتوي على عدة أنواع مختلفة من المحتوى، فمحركات البحث لديها طرق للبحث تحديدًا عن هذا النوع من المحتوى، فمحركات البحث الكبرى لديها برامج زحف مخصصة للزحف إلى أنواع معينة من الصفحات أو الملفات.

كيف تعمل زواحف محركات البحث؟

الزحف هو العملية التي يستخدمها زواحف الويب في محرك البحث (الروبوتات أو العناكب) لزيارة وتنزيل صفحة واستخراج روابطها لاكتشاف صفحات إضافية.
تبدأ غالب زواحف محركات البحث في اكتشاف موقع ويب ما عن طريق تنزيل ملف (robots.txt) الخاص بالموقع، والذي يحتوي على قواعد حول الصفحات التي يجب على محركات البحث الزحف إليها أو لا يجب أن تزحف إليها على موقع الويب.
تستخدم زواحف محركات البحث عددًا من الخوارزميات والقواعد لتحديد عدد مرات إعادة الزحف إلى الصفحة وعدد الصفحات التي يجب فهرستها على الموقع.
على سبيل المثال، قد يتم الزحف إلى الصفحة التي تغير أساسًا بشكل أكثر تكرارًا من الصفحة التي نادرًا ما يتم تعديلها.

يتلقى الزاحفون عناوين URL الخاصة بموقع ما إما عن طريق التحقق من خريطة الموقع (SiteMap) أو باتباع الروابط التي يعثر عليها في صفحة أخرى.
تلعب خريطة الموقع (Sitemap)  دورًا مهمًا في هذه الخطوة لأنها تزود برامج الزحف بقائمة لطيفة ومنظمة من عناوين URL للوصول إليها. كما أنها توفر تفاصيل تؤثر في الطريقة التي تقرر بها Google الزحف إلى كل صفحة.

ما هي خريطة الموقع (Sitemap):
هو ملف يستخدم لتفصيل جميع عناوين URL على موقع الويب.
يمكن أن يتضمن معلومات إضافية (بيانات وصفية) على كل عنوان URL ، مع تفاصيل عن تاريخ آخر تحديث لها ، ومدى أهميتها وما إذا كانت هناك أي إصدارات أخرى من عنوان URL تم إنشاؤها بلغات أخرى.
يتم كل ذلك لمساعدة محركات البحث في الزحف إلى موقعك على الويب بكفاءة أكبر ، مما يسمح بإدخال أي تغييرات عليها مباشرةً ، بما في ذلك عند إضافة صفحة جديدة أو إزالة صفحة قديمة.

ما المقصود بميزانية الزحف (Crawling Budget)؟

بالطبع ، حتى Google لديها موارد محدودة (بغض النظر عن مدى ارتفاع هذا الحد). لذلك ، يعمل (Googlebot)  مع ما يعرف باسم "ميزانية الزحف (Crawling Budget)".

ميزانية الزحف  (Crawling Budget): هي ببساطة عدد عناوين URL على موقع الويب الذي تريد محركات البحث اكتشافها، ويمكنها الزحف إليها. و هناك عنصران يدخلان في ميزانية Google للزحف لأحد مواقع الويب وهي:

حد معدل الزحف (Crawl rate limit):

لا تريد Google التأثير على تجربة مستخدم موقع الويب أثناء الزحف إليه ، لذا فهي تحد من عدد الصفحات التي يمكن للزاحف جلبها مرة واحدة.

طلب الزحف (Crawl demand):

والمقصود هنا، ما الفائدة المحققة من الزحف ضمن موقع ما؟ الحصول على معلومات تفيد مستخدميها وتجيب عن استفسارتهم عندما يبحثون عن شيء ما.
لذلك، لا تهتم Google بالزحف إلى عناوين URL التي لا تبدو وكأنها تضيف قيمة للمستخدمين (معلمات URL والتنقل الوجهي ومعرفات الجلسات وما إلى ذلك). لذلك حتى إذا لم يصل Googlebot إلى حد معدل الزحف الخاص به ، فلن يضيع موارده الخاصة التي يزحف إلى هذه الصفحات.

ما العوامل التي توثر على ميزانية الزحف إلى موقعك؟

إن حد معدل الزحف والطلب على الزحف يمكن أن يتغير اعتمادًا على ما يعثر عليه محرك البحث Google على موقعك على الويب. ووفقاً لعدد من العوامل، أهمها:


سرعة الموقع (Site speed):

لا يحب Google الانتظار ، لذلك ستجذبه الصفحات السريعة للزحف إلى المزيد من الصفحات. بالإضافة إلى ذلك ، تعد السرعة علامة على موقع ويب صحي ، لذلك ستتمكن Google من وضع المزيد من الموارد في الزحف.

صفحات الخطأ (Error pages):

إذا كان الخادم يستجيب للعديد من الطلبات من Google برموز خطأ ، فإن ذلك سيثني Google عن محاولة الزحف إلى الصفحات لأن ذلك سيبدو كموقع ويب به الكثير من المشاكل.

الشهرة (Popularity):

كلما اعتقدت Google أن صفحتك أكثر شيوعًا ، كلما زحفت إليها كثيرًا لتحديثها في فهرسها.

النضارة والتجديد (Freshness):

ليس سراً أن Google تحب المحتوى الجديد (المتجدد والمحدث). سيؤدي نشر محتوى جديد إلى إعلام Google بأن موقعك على الويب يحتوي على صفحات جديدة للزحف إليها بشكل منتظم. فالمحتوى الأكثر حداثة يعني المزيد من عمليات الزحف.

كيفية تهيئة المواقع لزواحف محركات البحث و الحصول على ترتيب في نتائج البحث

يجب أولاً فهرسة الصفحة. ولفهرسة الصفحة، يجب الزحف إليها أولاً.
لذلك ، فإن للزحف (أو عدمه) تأثير كبير على تحسين محركات البحث.
هناك ثلاث أدوات رئيسية للمساعدة في التحكم في وقت وأين وكيف يقوم Google بالزحف إلى صفحاتك.
إنها ليست مطلقة، ولكنها ستساعد في ضمان العثور على صفحاتك الأكثر أهمية بواسطة الزواحف.

ملف (Robots.txt):

أول شيء يفعله الزاحف عند وصوله إلى الصفحة هو فتح ملف ( robots.txt) الخاص بالموقع . وهذا يجعل ملف (robots.txt)  هو الفرصة الأولى لتوجيه برامج الزحف بعيدًا عما يعتبرونه عناوين URL منخفضة القيمة.
يمكنك استخدام أمر عدم السماح في ملف (robots.txt)  لإبقاء برامج الزحف بعيدة عن الصفحات التي لا تهتم بالضرورة بالظهور في نتائج البحث.

لا تستخدم ملف robots.txt الخاص بك لعدم السماح بعناوين URL المضمنة مثل JavaScript أو CSS.
Google يحتاج أن يكون قادرًا على عرض صفحة بالكامل لفهمها بشكل صحيح.
سيؤدي حظر ملفات CSS و JS إلى زحف وفهرسة غير دقيقين أو غير مكتملين ، مما قد يؤدي إلى رؤية Google للصفحة بشكل مختلف عن البشر ، مما يؤدي الحصول على ترتيب أقل.

خريطة الموقع (Sitemap):

خريطة الموقع (Sitemap) تخبر محركات البحث بالصفحات التي يجب أن يزحفوا إليها.
وعلى الرغم من أن Google غير ملزم بالزحف إلى جميع عناوين URL الموجودة في ملف Sitemap (بخلاف robots.txt، فهي إلزامية)،فإن ملف (Sitemap) الخاص بموقعك أيضًا مهمًا للغاية في التأكد من أن Google يمكنه العثور على صفحات على موقعك ، وتسهيل عمل زواحف محركات البحث.

استخدام علامات (nofollow):

تذكر أن برامج الزحف تنتقل من صفحة إلى أخرى باتباع الروابط. ومع ذلك ، يمكنك إضافة السمة (rel = nofollow)  لإخبار برامج الزحف بعدم اتباع الروابط. فعندما يصادف محرك البحث رابط nofollow ، فسيتم تجاهله.

أخطاء الزحف

تحدث أخطاء الزحف عندما يحاول Google جلب صفحة ولكن يتعذر عليه الوصول إلى عنوان URL لسبب ما.
يمكن أن تحدث أخطاء الزحف على مستوى الموقع بأكمله (DNS ، أو تعطل الخادم أو مشكلات في ملف robots.txt) ، أو على مستوى الصفحة ( 404 ، غير موجود ، إلخ.).

هل ترغب بتعلم المزيد عن محركات البحث؟

اترك تعليقاً

أحدث أقدم