ما هو ملف Robots.txt: الدليل المختصر

لربما سمعت كثيرًا عن ما يسمى ملف Robots.txt. لكنك لم تجد إجابة مفصلة أو معرفة تامة حول ماهية عمل هذا الملف وضرورته لمواقع الويب. وهل إنشاء هذا الملف هو مهمة المبرمج أو يستطيع أي شخص يملك موقع الكتروني إنشاء واحد؟

حسنًا، يعد ملف Robots.txt ملفًا حيويًا يُستخدم في إدارة مواقع الويب للتحكم في سلوك برامج زحف الويب أو روبوتات محركات البحث. من خلال إنشاء ملف robots.txt، يمكن لمالكي مواقع الويب التحكم في رؤية وفهرسة المحتوى الخاص بهم، مما يضمن عدم الزحف إلى الصفحات الحساسة أو غير ذات الصلة أو فهرستها بواسطة محركات البحث.

تابع القراءة للنهاية لتعرف تفاصيل أكثر عن هذا الملف.

{tocify} $title={ محتويات المقال }

ما هو ملف Robots.txt

ملف Robots.txt هو ملف نصي يتم إنشاؤه في مواقع الويب لتوصيل الإرشادات إلى برامج زحف الويب (أو برامج الروبوت) حول الصفحات أو الأقسام التي يجب الزحف إليها وفهرستها ضمن الموقع. إنه بمثابة مجموعة من الإرشادات أو التوجيهات التي تُعلم روبوتات محرك البحث وبرامج زحف الويب الأخرى بقواعد إمكانية الوصول إلى موقع الويب. يساعد ملف Robots.txt مالكي مواقع الويب على التحكم في كيفية تفاعل برامج زحف محركات البحث مع مواقعهم، مما يسمح لهم بتحديد الأجزاء التي يجب الزحف إليها وأيها يجب استبعاده. سيتضمن إنشاء ملف robots.txt باستخدام HTML أو معالج نصوص التعليمات البرمجية التي ستتجاهلها برامج زحف محركات البحث إذا لم تتمكن من قراءتها.

تاريخ تطوير ملف Robots.txt

طور Martijn Koster لأول مرة ملف Robots.txt في عام 1994. كان Koster يعمل على محرك بحث يسمى “WebCrawler” وأراد تطوير طريقة لمالكي مواقع الويب للتحكم في سلوك برامج زحف الويب وتجنب التحميل الزائد على خوادمهم.

اقترح كوستر فكرة "معيار استبعاد برامج الروبوت" وأنشأ تنسيق ملف Robots.txt كوسيلة لمشرفي المواقع للتواصل مع برامج زحف الويب. نشر النسخة الأولية من المعيار، والمعروفة باسم " A Standard for Robot Exclusion "، والتي كانت بمثابة أساس لمزيد من التطوير.

سرعان ما اكتسب ملف Robots.txt شعبية بين مشرفي المواقع ومحركات البحث. سمح لمالكي مواقع الويب بتحديد قواعد لبرامج زحف الويب، وتحديد أي أجزاء من مواقعهم يجب الزحف إليها وأيها يجب استبعاده. أصبح ملف Robots.txt معيارًا غير رسمي وتم اعتماده من قبل العديد من محركات البحث وبرامج زحف الويب.

في عام 1996، تم الاعتراف رسميًا بملف Robots.txt بواسطة فريق هندسة الإنترنت (IETF) كمعيار مسودة. جلبت عملية التوحيد القياسي مزيدًا من الاهتمام لملف Robots.txt، وانتشر استخدامه على نطاق واسع.

بمرور الوقت، نفذت محركات البحث وبرامج زحف الويب دعمًا لملف Robots.txt وصقلوا خوارزميات الزحف الخاصة بهم لمراعاة التوجيهات المحددة داخله. سمح هذا لمالكي مواقع الويب بمزيد من التحكم في كيفية الوصول إلى مواقعهم وفهرستها بواسطة محركات البحث.

آلية عمل ملف Robots.txt

محركات البحث لها وظيفتان رئيسيتان:

1. الزحف على الويب لاكتشاف المحتوى.

2. فهرسة هذا المحتوى بحيث يمكن تقديمه للباحثين الذين يبحثون عن معلومات.

للزحف إلى المواقع، تتبع محركات البحث الروابط للانتقال من موقع إلى آخر. يُعرف سلوك الزحف هذا أحيانًا باسم "العنكبوت" أو "الروبوتات".

يعمل ملف Robots.txt من خلال توفير إرشادات لبرامج زحف الويب وتوجيه سلوكها عند الزحف إلى موقع ويب وفهرسته. فيما يلي نظرة عامة حول كيفية حدوث عملية الزحف:

1. يزور زاحف الويب موقع الويب

عندما يصل زاحف الويب (مثل روبوت محرك البحث) إلى موقع ويب، فإنه يتحقق أولاً من وجود ملف Robots.txt

2. تحديد موقع ملف Robots.txt

يبحث الزاحف عن ملف Robots.txt في الدليل الجذر لموقع الويب. يسترجع ويقرأ محتوى الملف.

3. تحليل التعليمات

يوزع زاحف الويب التعليمات الموجودة في ملف Robots.txt. تحدد هذه الأوامر أجزاء الموقع التي يجب السماح بالزحف إليها أو منعها.

4. اتباع الإرشادات

استنادًا إلى التوجيهات، يعدل زاحف الويب سلوك الزحف الخاص به. قد يختار استبعاد أدلة معينة أو عناوين URL محددة مذكورة في التوجيه Disallow. على العكس من ذلك، قد يتبع توجيه السماح بالوصول إلى مناطق محددة قد تكون غير مسموح بها.

5. احترام قواعد الزحف

يواصل زاحف الويب الزحف إلى موقع الويب، ولكنه يلتزم الآن بالقواعد والقيود الموضحة في ملف Robots.txt. يساعد هذا في ضمان احترام الزاحف لتفضيلات مالك موقع الويب فيما يتعلق برؤية المحتوى وإمكانية الوصول إليه.

نضع بين يديك في هذه المدونة قائمة بالمقالات عن آلية عمل زواحف محركات البحث.
استمتع برحلة المعرفة هذه من خلال قراءة مايلي:
كيف تعمل محركات البحث: 1- نظرة عامة
كيف تعمل محركات البحث: 2- الزحف
كيف تعمل محركات البحث: 3-الفهرسة
مشكلات الزحف

ما هي صيغة ملف Robots.txt

يحتوي ملف Robots.txt على صيغة يمكن كتابتها لتوجيه الزواحف بزيارة صفحات الموقع أو حظر صفحات ما. هناك عدة مصطلحات موجودة في هذا الملف، لابد من معرفتها لتحديد ما تريد الوصول إليه من قبل العناكب في موقعك والتعامل مع المعلومات التي تريد حجبها، أهم هذه المصطلحات، أو صيغة ملف Robots.txt:

1. User-agent

زاحف الويب المحدد. تستخدم هذه الصيغة في بداية الملف أو بداية كل سطر ضمن الملف. وظيفتها تحديد الروبوتات التي تستطيع الوصول والزحف إلى صفحات الموقع، أو التي تريد حظرها. على سبيل المثال:

User-agent: Googlebot

حددنا في هذه الصيغة روبوتات أو زواحف محرك البحث Google.

لكن إذا وضعنا (*) بدل من تحديد أو تخصيص زاحف معين. فإن الأمر يتغير، بمعنى:

User-agent: *

تدل النجمة * على تحديد جميع الزواحف. عند وضعها بهذه الطريقة، كأنك توجه جميع الزواحف بدون استثناء للزحف إلى جميع صفحات الموقع أو المدونة لديك.

2. Allow

تُشير هذه الصيغة أو الأمر إلى أنه مسموح الزحف لجميع أنواع الزواحف من محركات البحث والإعلانات والصور والأخبار...الخ، بالزحف إلى موقعك، وتكتب بهذا الشكل: Allow: /. مثال:

User-agent: Googlebot

Allow: /

استخدام هذا الأمر يعني السماح لعناكب غوغل بالزحف إلى جميع صفحات الموقع.

3. Disallow

هذا الأمر يخبر الروبوتات أنه غير مسموح بالزحف إلى الصفحات أو المقالات أو الأقسام وغيرها من الخيارات التي تعطيه أو توجهها له. وبالتالي لن تؤرشف في محركات البحث. مثال:

User-agent: Googlebot

Disallow: /

في هذه الصيغة أنت تخبر الروبوتات أنه ممنوع لزواحف غوغل بالزحف إلى الموقع. وأما باقي أنواع الروبوتات فستزحف إلى موقعك بشكل افتراضي لطالما أنك لم تستثنيها.

لكن لكل قاعدة شواذ. إذا كتبنا الأمر على النحو التالي:

User-agent: Googlebot

Disallow:

فهذا يعني أنه مسموح لروبوتات غوغل بالزحف إلى كامل الموقع. بمعنى آخر، عند كتابة Disallow: بدون شرطة مائلة (/) فإنها تساوي بالمعنى والأمر Allow.

4. خريطة الموقع sitemap

يمكنك استخدام ملف robots.txt لإخبار محركات البحث بمكان العثور على ملف Sitemap الخاص بك عن طريق إضافة ملف Sitemap: سطر في أي مكان بالملف. هذا التوجيه مستقل عن وكيل المستخدم، لذا ستكون برامج الروبوت قادرة على تفسيره أينما وضعته، ولكن من الأفضل وضعه في النهاية لتسهيل الأمور على نفسك. قم بإنشاء خط خريطة موقع جديد لكل ملف Sitemap لديك، بما في ذلك ملفات Sitemap للصور والفيديو أو ملف فهرس Sitemap الخاص بك

. https://www.example.com/sitemap.xml

أمثلة عن ملف Robots.txt

هذه أمثلة توضيحية أكثر عن طريقة كتابة الأوامر في ملف Robots.txt الخاص بمواقع الويب والمدونات.

لو كتبنا الأمر التالي:

User-agent: GoogleAds

Disallow:

بإمكان زاحف غوغل أدسنس الزحف إلى موقعك بالكامل. كما شرحت أنفًا، أن وجود فراغ بجانب Disallow يعني مسموح ويكون بمثابة استخدام Allow: /

نستطيع تخصيص بعض الصفحات أو الأقسام غير المهمة للأرشفة، بعدم الزحف إليها، إذا استخدمنا الأمر التالي:

User-agent: *

Disallow: /aboutus/

ذكرنا أن * النجمة تعني السماح لكل أنواع الزواحف. في هذا الأمر سمحنا لجميع الزواحف بالزحف إلى الموقع باستثناء صفحة من نحن (about us) لأنها لا تحتوي على معلومات يبحث عنها الجميع وعدم أرشفتها لن يؤثر في ظهور الموقع في نتائج صفحات البحث.

إليك هذا المثال، لنفترض أنه يوجد في الموقع عدة أقسام من المقالات وسياسة الخصوصية والأسئلة وغيرها من التصنيفات التي تختلف بناءً على رغبة كل شخص بتخصيصها ضمن موقعه. نحن نعلم أن داخل كل قسم من هذه الأقسام يوجد عدة صفحات، ونريد هنا حظر صفحات معينة. لنكتب الأمر التالي:

User-agent: *

Disallow: /label/faq

في هذه الحالة نحن نسمح لجميع العناكب والروبوتات بالزحف إلى موقعنا باستثناء صفحة الأسئلة الشائعة FAQ على سبيل المثال.

تكون روابط الصفحات في بلوجر Blogger في هذا الشكل https://digitalage.blog/p

p/ هي اختصار لكلمة page (صفحة). لو كتبنا الأمر التالي:

User-agent: *

Disallow: /p

كل رابط يحتوي على /p سيتم حظر العناكب أو الزواحف من الوصول إليه وأرشفته.

بنفس الأمر تستطيع تحديد صفحة واحدة من بين جميع الصفحات وحظرها أو حجبها عن العناكب.

User-agent: *

Disallow: /p/seo.html

وبالتالي حظرنا صفحة واحدة من خلال تخصيص الحجب.

في الأمر أدناه، نمنع جميع الزواحف من الزحف إلى الموقع باستثناء قسم أو صفحة:

User-agent: *

Disallow: /

Allow: /images/

طريقة إنشاء ملف Robots.txt

هناك عدة طرق لإنشاء ملف Robots.txt. فيما يلي بعض الطرق الشائعة:

1. الإنشاء اليدوي

يمكنك إنشاء ملف Robots.txt يدويًا باستخدام محرر نصوص. ما عليك سوى فتح ملف نصي جديد وإضافة التوجيهات والأوامر باتباع التنسيق المناسب وحفظه باسم robots.txt تأكد من تحميل الملف إلى الدليل الجذر لموقعك على الويب.

2. إعدادات نظام إدارة المحتوى (CMS)

توفر العديد من أنظمة إدارة المحتوى الشائعة، مثل WordPress، إعدادات مضمنة لإنشاء ملف Robots.txt تحقق من وثائق CMS أو قسم الإعدادات للعثور على خيار إنشاء ملف Robots.txt أو تخصيصه.

3. مواقع لتوليد ملف Robots.txt

هناك العديد من المواقع التي تولد ملفات Robots.txt المتاحة عبر الإنترنت والتي يمكن أن تساعدك في إنشاء الملف بناءً على تفضيلاتك (robots.txt generator). توفر عادةً واجهة سهلة الاستخدام حيث يمكنك تحديد أذونات الزحف والاستثناءات، ثم تنشئ الأداة ملف Robots.txt لتنزيله وتحميله إلى موقع الويب الخاص بك.

4. إضافات تحسين محركات البحث (SEO)

إذا كنت تستخدم مكونًا إضافيًا لتحسين محركات البحث أو أداة تركز على تحسين محركات البحث لموقعك على الويب، فقد تتضمن خيارات لإنشاء ملف Robots.txt وإدارته. غالبًا ما تحتوي هذه المكونات الإضافية على واجهات سهلة الاستخدام تتيح لك تخصيص قواعد الزحف وإنشاء ملف Robots.txt بدون تشفير يدوي.

كيفية إنشاء ملف Robots.txt في بلوجر (Blogger)

لإنشاء ملف Robots.txt لموقع Blogger، اتبع الخطوات التالية:

قم بتسجيل الدخول إلى حساب Blogger الخاص بك.
انتقل إلى قسم "الإعدادات" في مدونتك.
انقر فوق "تفضيلات البحث".
ضمن قسم "برامج الزحف والفهرسة"، انقر على "ملف robots.txt مخصص".
اختر "نعم" لتمكين محتوى ملف robots.txt المخصص.
أضف الأوامر والتوجيهات التي تريدها في مربع النص.
احفظ التغييرات.

ملاحظة: يقوم Blogger تلقائيًا بإنشاء ملف Robots.txt بناءً على تفضيلاتك. إذا كنت ترغب في إضافة قواعد وأوامر مخصصة، فتأكد من تمكين خيار ملف robots.txt المخصص وتقديم توجيهاتك المحددة.

المشكلات الشائعة في ملف robots.txt

للتحقق مما إذا كانت لديك مشكلة في ملف robots.txt الخاص بك، افتح Google Search Console. تحقق من تقرير إحصائيات الزحف لمعرفة ما إذا كان هناك انخفاض كبير في عدد الصفحات التي يتم الزحف إليها يوميًا؛ قد يشير هذا إلى وجود مشكلة في ملف robots.txt الخاص بك.

أهم المشكلات الشائعة المتعلقة بملفات robots.txt هي:

1. إضافة خطوط/ شرطة مائلة للأمام بطريق الخطأ في نهاية أسماء الملفات. على الرغم من أن عنوان URL الأساسي الخاص بك قد يتضمن الشرطة المائلة اللاحقة، فإن إضافة هذا إلى نهاية السطر في ملف robots.txt سيؤدي إلى قيام الروبوتات بتفسيره كدليل للحظر من الزحف وليس كملف، مما يحظر كل صفحة في المجلد. تحقق مرة أخرى من خطوط عدم السماح الخاصة بك بحثًا عن خطوط مائلة يجب ألا تكون موجودة.

2. حظر الموارد مثل رموز CSS وجافا سكريبت باستخدام ملف robots.txt. ومع ذلك، سيؤثر هذا على طريقة رؤية محركات البحث لصفحتك. صرحت Google منذ فترة أن عدم السماح بـ CSS و Javascript سيحسب ضد مُحسّنات محرّكات البحث. يمكن لـ Google قراءة كود CSS وJS الخاصين بك واستخدامهما لاستخلاص استنتاجات حول موقعك. عندما ترى موارد محظورة مثل هذه، لا يمكنها عرض صفحتك بشكل صحيح مما يمنعك من الترتيب بأعلى مستوى ممكن.

3. استخدام أكثر من توجيه واحد من User-agent لكل سطر. ستتجاهل محركات البحث التوجيهات التي تتضمن أكثر من وكيل مستخدم في سطر واحد، مما قد يتسبب في زحفها بشكل غير صحيح إلى موقعك.

4. كتابة التوجيهات والأوامر وأسماء الملفات الرئيسية والفرعية بأحرف كبيرة. ترى محركات البحث Disallow: page.html و Disallow: Page.html و Disallow: page.HTML كثلاثة ملفات منفصلة. إذا كان ملف robots.txt الخاص بك يتضمن توجيهات لـ " Page.html" ولكن عنوان URL الأساسي الخاص بك مكتوب بأحرف صغيرة، فسيتم الزحف إلى هذه الصفحة.

5. أخطاء الزحف في Google Search Console. تحقق من أي عناوين URL تعرض رمز خطأ 500 مقابل توجيهات عدم السماح في ملف robots.txt.

6. تناقض خريطة الموقع في ملف robots.txt الخاص بك. من المرجح أن يحدث هذا إذا كنت تستخدم أدوات مختلفة لإنشاء ملف Sitemap وملفات robots.txt. إن مناقضة نفسك أمام محركات البحث فكرة سيئة دائمًا. لحسن الحظ، من السهل جدًا العثور على هذا وإصلاحه. إرسال خريطة الموقع والزحف إليها عبر GSC. سيوفر لك قائمة بالأخطاء التي يمكنك التحقق منها بعد ذلك بمقارنتها بملف robots.txt لمعرفة ما إذا كنت قد قمت باستبعاده هناك.

7. أخيرًا، استخدام أمر noindex . لا يدعم Google ولا Bing استخدام noindex في ملفات robots.txt.

في الختام

يلعب ملف Robots.txt دورًا مهمًا في إدارة التفاعل بين مواقع الويب وبرامج زحف الويب. من خلال تحديد توجيهات الزحف، يمكن لمالكي مواقع الويب تحديد المحتوى المتاح لمحركات البحث وأي المحتوى يجب استبعاده. يتيح هذا الملف إمكانية الزحف الفعال، ويحمي المعلومات الحساسة، ويضمن تركيز محركات البحث على المحتوى ذي الصلة. ومع ذلك، من المهم ملاحظة أنه على الرغم من أن ملف Robots.txt يوفر إرشادات، فإن اتباعها متروك في النهاية لتقدير زاحف الويب. يعد الاختبار المنتظم والمراقبة والبقاء على اطلاع بأحدث الممارسات أمرًا ضروريًا لضمان تنفيذ ملف Robots.txt بشكل صحيح ويخدم الغرض منه بشكل فعال في التحكم في سلوك متتبع ارتباطات الويب.

$ads={1}

الأسئلة الشائعة

ما أهمية استخدام ملف Robots.txt؟

يمكن لمالكي مواقع الويب استخدام ملف Robots.txt للتحكم في الصفحات التي تتم فهرستها بواسطة محركات البحث، ومنع الزحف إلى المعلومات الحساسة، وإدارة ميزانية الزحف عن طريق توجيه برامج الزحف للتركيز على المحتوى الأساسي. ومع ذلك، من المهم توخي الحذر عند استخدام ملف Robots.txt، لأن التكوين غير الصحيح قد يقيد الوصول عن غير قصد إلى المحتوى المطلوب أو يتسبب في عواقب غير مقصودة لتحسين محرك البحث.

هل من الضروري التحقق من ملف Robots.txt؟

يمكن أن يساعد الاختبار والتحقق المنتظم من ملف Robots.txt، جنبًا إلى جنب مع مراقبة سلوك الزحف لمحرك البحث، في ضمان عمل الملف على النحو المنشود ويتوافق مع أهداف مالك موقع الويب للزحف والفهرسة. تستطيع القيام بذلك إما عن طريق Google Search Console أو التحقق عن طريق مواقع على الانترنت robots.txt validator

كيف أتحقق من وجود robots.txt لموقع الويب أو المدونة؟

ببساطة، كل ما عليك فعله هو كتابة رابط الدومين الخاص بك في مربع البحث في محركات البحث. وإضافة /robots.txt في نهاية الرابط. تظهر لك صفحة تدل إما على وجود هذا الملف وما يحتوي بداخله أو صفحة فارغة.

https://www.example.com/robots.txt

هل إنشاء ملف robots.txt مهمة المبرمج؟

إنشاء ملف Robots.txt ليست مهمة مخصصة للمبرمجين فقط، بل يمكن لأي شخص إنشاؤه. يمكن لأصحاب المواقع ومديري المحتوى وحتى المبتدئين في مجال تطوير الويب إنشاء ملف Robots.txt بسهولة. لا يتطلب إنشاء هذا الملف معرفة عميقة في البرمجة، بل يتطلب فهمًا أساسيًا لقواعد وصيغ الملف.

من المهم أن يكون لدى الشخص الذي يقوم بإنشاء ملف Robots.txt معرفة بكتابة الأوامر والتوجيهات المشتركة في تصميم هذا الملف. هناك قواعد وتنسيقات معتمدة على البروتوكولات القياسية التي يجب اتباعها للتأكد من أن الملف يعمل بشكل صحيح وفقًا للتوقعات.

بصفة عامة، إنشاء ملف Robots.txt يمكن أن يكون مهمة قابلة للتنفيذ بواسطة أي شخص يمتلك فهمًا جيدًا لهدفه ويعرف كيفية تنسيق القواعد والتوجيهات المرغوبة. وفي الحالات التي تتطلب مطالب متقدمة أو تعقيدات أكثر، قد يكون من المفيد الاستعانة بمساعدة مبرمج محترف لضمان تنفيذ الإعدادات المناسبة وتحقيق النتائج المطلوبة.

ماذا يحدث إذا حظرت Googlebots في ملف robots.txt؟

عند حظر Googlebots من الزحف إلى موقع الويب الخاص بك. سيتم على الأرجح إزالة الموقع من فهرس google. حاول أن تستخدم هذا الملف بذكاء وقم بحجب الصفحات التي تأخذ بيانات كبيرة وليست مفيدة بشكل عام لمحركات البحث وتؤثر في ميزانية البحث.

المصادر

https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=ar
https://moz.com/learn/seo/robotstxt

https://www.woorank.com/en/edu/seo-guides/robots-txt

ما هو ملف Robots.txt: الدليل المختصر

ما هو ملف Robots.txt

تاريخ تطوير ملف Robots.txt

آلية عمل ملف Robots.txt

1. يزور زاحف الويب موقع الويب

2. تحديد موقع ملف Robots.txt

3. تحليل التعليمات

4. اتباع الإرشادات

5. احترام قواعد الزحف

ما هي صيغة ملف Robots.txt

1. User-agent

2. Allow

3. Disallow

4. خريطة الموقع sitemap

أمثلة عن ملف Robots.txt

طريقة إنشاء ملف Robots.txt

1. الإنشاء اليدوي

2. إعدادات نظام إدارة المحتوى (CMS)

3. مواقع لتوليد ملف Robots.txt

4. إضافات تحسين محركات البحث (SEO)

كيفية إنشاء ملف Robots.txt في بلوجر (Blogger)

المشكلات الشائعة في ملف robots.txt

في الختام

$ads={1}

الأسئلة الشائعة

ما أهمية استخدام ملف Robots.txt؟

هل من الضروري التحقق من ملف Robots.txt؟

كيف أتحقق من وجود robots.txt لموقع الويب أو المدونة؟

هل إنشاء ملف robots.txt مهمة المبرمج؟

ماذا يحدث إذا حظرت Googlebots في ملف robots.txt؟

المصادر

نموذج الاتصال