Rate this post

عملية الزحف (Crawl) تعني استطلاع الإنترنت لاكتشاف المحتوى وتحليل المعلومات الموجودة في كل عنوان URL. يتم تنفيذ هذه العملية بواسطة فرق من الروبوتات المعروفة باسم برامج الزحف أو العناكب (Crawlers) التابعة لمحركات البحث.

عملية الزحف تعتبر استكشافًا للإنترنت للبحث عن المحتوى واستخلاص المعلومات من الصفحات الويب وتنظيمها في قاعدة بيانات تسمى الفهرس. ويعتمد تحديث هذا الفهرس على استمرارية عملية الزحف وتحديث الروابط والمحتوى المكتشف.

هل يمكن لمحركات البحث العثور على موقعك؟

إذا كان لديك موقع ويب، فإن التأكد من أن محركات البحث تقوم بزيارة موقعك وفهرسته هو أمر أساسي لظهور موقعك في نتائج البحث SERPs.

إذا كنت ترغب في التحقق من صفحاتك التي تمت فهرستها بواسطة Google، يمكنك استخدام مشغل البحث المتقدم “site:yourdomain.com”. قم بزيارة محرك البحث Google واكتب “site:yourdomain.com” في شريط البحث، حيث ستقوم بتبديل “yourdomain.com” برابط موقعك. ستظهر الروابط التي تمت فهرستها على محرك البحث Google.

ومن أجل الحصول على نتائج أكثر دقة وتفصيلية، يُنصح باستخدام تقرير تغطية الفهرس في Google Search Console. يمكنك التسجيل للحصول على حساب مجاني على Google Search Console إذا لم يكن لديك حساب حاليًا. باستخدام هذه الأداة، يمكنك إرسال ملفات Sitemap لموقعك ومراقبة عدد الصفحات المرسلة والتي تمت إضافتها بالفعل إلى فهرس Google، بالإضافة إلى العديد من المعلومات الأخرى المفيدة.

باستخدام هذه الطرق، يمكنك التحقق من زيارة محركات البحث وفهرسة صفحات موقعك، مما يساعدك في فهم مدى وجود محتوى موقعك في نتائج البحث والعمل على تحسينه إذا لزم الأمر.

لماذا لا يظهر موقعي في محرك البحث؟

إذا لم يظهر موقعك في نتائج البحث، يمكن أن تكون هناك عدة أسباب محتملة لذلك:

  1. قد يكون موقعك جديدًا ولم يتم زيارته بواسطة روبوتات الزحف بعد. يحتاج الأمر في هذه الحالة إلى الوقت حتى يتم استكشاف موقعك وفهرسته في قاعدة بيانات محركات البحث.
  2. قد يكون موقعك جديدًا وليس لديه العديد من الروابط الخلفية (باك لينكس) من مواقع أخرى. الروابط الخلفية تلعب دورًا مهمًا في إشارة أهمية الموقع وموثوقيته لمحركات البحث.
  3. قد يكون التنقل في موقعك صعبًا بالنسبة لروبوتات الزحف، مما يجعلها تواجه صعوبة في الوصول إلى جميع صفحات الموقع. يجب التأكد من أن ترتيب هيكل الموقع وروابطه الداخلية تسهل على روبوتات الزحف الوصول إلى كل صفحة بكفاءة.
  4. قد يحتوي موقعك على بعض الأكواد البرمجية الأساسية التي تمنع روبوتات محركات البحث من الوصول وفهرسته. يجب التأكد من أن التكويد والتهيئة الخاصة بموقعك تسمح لروبوتات الزحف بالوصول وتحليل المحتوى بشكل صحيح.
  5. قد تكون موقعك قد تعرض لعقوبة من جوجل بسبب استخدام تكتيكات السبام (Spam) غير مقبولة. يجب التأكد من عدم استخدام أي تقنيات غير مشروعة أو مخالفة لسياسات محركات البحث.

إذا واجهت هذه المشاكل، يمكنك اتخاذ خطوات للتعامل معها، مثل تحسين هيكل الموقع وتجنب التقنيات المخالفة، وزيادة روابط الباك لينكس الصادرة إلى موقعك. أيضًا، يمكنك استخدام أدوات مثل Google Search Console لمراقبة وتحسين ظهور موقعك في نتائج البحث.

كيف يتم زحف محركات البحث إلى موقعك 2023

يمكنك استخدام أدوات مثل Google Search Console أو استخدام عامل البحث المتقدم “site:domain.com”. إذا لاحظت أن بعض الصفحات المهمة في موقعك غير موجودة في الفهرس أو أن بعض الصفحات غير المهمة تمت فهرستها، يمكنك تنفيذ بعض التحسينات لتوجيه Googlebot بشكل أفضل لمحتوى موقعك.

تذكر أنه ليس من الضروري أن ترغب في أن يجد Googlebot بعض الصفحات المحتملة. يمكن أن تشمل هذه الصفحات العناوين URL القديمة التي تحتوي على محتوى مهمش، والعناوين URL المكررة (مثل معلمات الفرز والتصفية في التجارة الإلكترونية)، وصفحات الشفرة الترويجية الخاصة، وصفحات التدريج أو الاختبار، وما إلى ذلك.

لتوجيه Googlebot بعيدًا عن صفحات وأقسام معينة في موقعك، يمكنك استخدام ملف robots.txt. يتيح لك هذا الملف تحديد الصفحات والمجلدات التي لا ترغب في زيارتها من قبل روبوتات الزحف. يجب استخدام هذا الملف بحذر وفهم تأثيره على زحف موقعك بواسطة محركات البحث.

يرجى ملاحظة أن استخدام ملف robots.txt لن يمنع Googlebot من معرفة وجود الصفحات، ولكنه سيمنعها من الوصول إليها وفهرستها. يجب أيضًا أن تكون حذرًا عند تعديل هذا الملف لتجنب حظر الصفحات الهامة التي ترغب في أن يتم زحفها وفهرستها من قبل محركات البحث.

ملف robots.txt

ملف robots.txt هو ملف موجود في الدليل الجذري لموقع الويب مثل: yourdomain.com/robots.txt))، ويقوم بإعلام محركات البحث بالأجزاء التي يجب على الروبوت الزحف إليها في موقعك والأجزاء التي يجب تجنبها. كما يساعد في تحديد سرعة زحف محركات البحث إلى موقعك.

عندما يطلب المحرك البحث ملف robots.txt من موقعك، فإنه يقرأ محتويات الملف لمعرفة التوجيهات والتعليمات المعطاة. يستخدم الملف لتحديد المجلدات والصفحات التي يجب الزحف إليها والتي لا يجب الزحف إليها. يمكن أيضًا تحديد سرعة الزحف المفضلة للمحركات.

ماذا يحدث عند تعامل Googlebot مع ملفات robots.txt؟

  1. إذا كان Googlebot لا يستطيع العثور على ملف robots.txt لموقع ما، فسيقوم بالمضي قدمًا في عملية الزحف إلى الموقع دون توجيهات محددة.
  2. إذا وجد Googlebot ملف robots.txt لموقع ما، فعادةً ما يلتزم بالتوجيهات المذكورة في الملف ويستمر في الزحف إلى الموقع وفقًا لتلك التوجيهات.
  3. في حالة وجود خطأ يمنع Googlebot من الوصول إلى ملف robots.txt لموقع ما، وبالتالي لا يستطيع تحديد ما إذا كان الملف موجودًا أو لا، فإن Googlebot لن يزحف إلى الموقع وسيتوقف عند هذه النقطة.

كم يكلف الزحف 2023؟

تكلفة الزحف أو الميزانية الزمنية للزحف هي عبارة عن عدد العناوين URL التي سيقوم Googlebot بزيارتها على موقعك قبل المغادرة. تهدف ميزانية الزحف إلى ضمان أن Googlebot لا يهدر وقته في زيارة صفحات غير هامة ويضمن اهتمامه بالصفحات الهامة. تكون ميزانية الزحف ذات أهمية خاصة في المواقع الكبيرة التي تحتوي على العديد من الروابط URL، ولكن من المهم أيضًا عدم منع الزحف إلى المحتوى الذي لا يهمك بالتأكيد.

يجب عليك فقط التأكد من عدم منع وصول الزحف إلى الصفحات التي تحتوي على التوجيهات الخاصة ببرامج الزحف، ويمكنك ذلك عن طريق إضافة علامات canonical أو noindex. إذا تم منع Googlebot من الوصول إلى صفحات تحتوي على تلك التوجيهات، فلن يتمكن برامج الزحف من رؤية هذه التوجيهات على تلك الصفحات.

لا يتبع جميع روبوتات الويب ملف robots.txt. يستغل الأشخاص ذوي النوايا السيئة بعض برامج الروبوت التي لا تلتزم بهذا البروتوكول. في الواقع، يستخدم بعض الهاكرز ملفات robots.txt للعثور على المواقع التي يمكن سرقة محتوياتها.

على الرغم من أنه قد يكون من المنطقي حظر برامج الزحف من الصفحات الحساسة مثل صفحات تسجيل الدخول والإدارة لكي لا تظهر في الفهرس، إلا أن وضع عناوين URL لتلك الصفحات المهمة في ملف robots.txt يمكن لعناكب البحث من الوصول إليها بشكل عام، وبالتالي يتسنى للأشخاص ذوي النوايا السيئة العثور عليها بسهولة. لذا، من الأفضل وضع علامة NoIndex على تلك الصفحات وإخفائها وراء نموذج تسجيل الدخول بدلاً من وضعها في ملف robots.txt الخاص بك.

تحديد معلمات URL في Google Search Console

تسمح بعض المواقع، وخاصة مواقع التجارة الإلكترونية، بعرض نفس المحتوى على عناوين URL مختلفة من خلال إضافة معلمات محددة إلى الروابط. عند التسوق عبر الإنترنت، قد تقوم بتحديد الفلاتر لتضييق نطاق البحث داخل المتاجر، وهذا يؤدي إلى تغيير عنوان URL قليلًا، مثل:

https://www.example.com/products/women/dresses/green.htm

https://www.example.com/products/women?category=dresses&color=green

https://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

كيف يعرف جوجل أي نسخة من العنوان URL يفضلها الباحثون؟

عادةً ما يقوم جوجل بتحديد “العنوان URL التمثيلي” الذي يعتبره التمثيل الأفضل للصفحة، ولكن يمكنك استخدام ميزة “معلمات URL” في أدوات Google لمشرفي المواقع (Google Search Console) لإبلاغ جوجل عن الطريقة التي تفضل أن تتعامل بها مع صفحات موقعك.

باستخدام هذه الميزة، يمكنك إخبار Googlebot أنه لا يجب الزحف إلى عناوين URL التي تحتوي على المعلمة “__”، وبذلك تطلب بشكل أساسي إخفاء هذا المحتوى عن جوجل، وهذا قد يؤدي إلى عدم ظهور هذه الصفحات في نتائج البحث. يمكن أن تكون هذه الخطوة مفيدة إذا كانت تلك المعلمات تؤدي إلى صفحات مكررة غير مفيدة للمستخدمين. ولكن يجب مراعاة أن هذا الأمر ليس مثاليًا إذا كنت ترغب في ضمان فهرسة هذه الصفحات.

بعد التعرف على بعض الطرق لتحسين تجربة زحف محركات البحث وضمان بقاء محتواك المهم، دعنا نناقش التحسينات التي يمكن أن تساعد Googlebot على اكتشاف صفحاتك المهمة.

هل يمكن لبرامج الزحف العثور على جميع الصفحات المهمة على موقعك 2023؟

هذا يعتمد على عدة عوامل، وفي بعض الأحيان قد تواجه بعض التحديات في تحقيق ذلك. من المهم أن تتأكد من قدرة محركات البحث على اكتشاف كل المحتوى الذي ترغب في فهرسته، وليس فقط صفحتك الرئيسية.

إليك بعض الأسئلة التي يجب أن تطرحها لنفسك للتحقق من قدرة محركات البحث على اكتشاف محتوى موقعك:

  1. هل يمكن لعناكب الزحف الدخول إلى جميع صفحات موقعك؟

قد تكون هناك بعض الصفحات المحمية بكلمات مرور أو نماذج تسجيل الدخول التي لا يمكن للزاحف الوصول إليها. في هذه الحالة، قد تكون تلك الصفحات مخفية عن محركات البحث.

  1. هل تعتمد على نماذج البحث؟

إذا كانت صفحاتك تحتوي على نماذج بحثية غير نصية (مثل الصور أو الفيديو)، فقد يصعب على محركات البحث فهم محتوى تلك الصفحات.

  1. هل النص مخفي داخل محتوى غير نصي؟

إذا استخدمت عناصر وسائط غير نصية لعرض نص مهم، فقد يكون من الصعب على محركات البحث تحديد وفهم هذا النص.

  1. هل يمكن لمحركات البحث متابعة التنقل في موقعك؟

يحتاج الزاحف إلى مسار روابط داخل موقعك ليتمكن من التنقل بين صفحاته. إذا كانت هناك صفحات لا تحتوي على روابط من وإلى الصفحات الأخرى، فقد لا تكون محركات البحث قادرة على اكتشافها.

  1. هل لديك بنية معلومات منظمة؟

يجب أن يكون لموقعك بنية معلومات منظمة وسهلة التنقل. يجب أن تتبع الروابط المنطقية والتسميات الصحيحة للصفحات لتسهيل وصول محركات البحث إلى محتواك.

  1. هل تستخدم ملفات Sitemap؟

يعتبر إنشاء ملف Sitemap وإرساله إلى محركات البحث واحدة من الطرق الفعالة لمساعدتها على اكتشاف صفحات موقعك. يمكنك إنشاء ملف Sitemap يحتوي على قائمة بجميع الروابط الهامة على موقعك وتقديمه إلى محركات البحث.

  1. هل تحصل برامج الزحف على أخطاء عند محاولة الوصول إلى عناوين URL الخاصة بك؟

قد تواجه برامج الزحف أخطاء أثناء محاولة الوصول إلى عناوين URL على موقعك. يمكنك التحقق من تقرير “أخطاء الزحف” في Google Search Console لاكتشاف العناوين URL التي قد تسبب مشاكل. يعرض هذا التقرير أخطاء الخادم (مثل أخطاء الخادم server errors) والصفحات التي لا يمكن العثور عليها (not found errors). يمكن أن توفر ملفات سجل الخادم (server log files) معلومات إضافية مثل تردد الزحف (crawl frequency)، ولكن هذا يتطلب معرفة متقدمة.

أخطاء الزحف (Crawl Errors)

  1. أخطاء 4xx:

تحدث عندما يواجه برنامج زحف محرك البحث صعوبة في الوصول إلى المحتوى بسبب خطأ يرتبط بالمستخدم. تشمل أمثلة على ذلك الخطأ “404 – غير موجود” الذي يحدث عندما يتعذر العثور على الصفحة المطلوبة. يمكن أن يحدث هذا الخطأ بسبب أخطاء في كتابة الروابط، حذف الصفحة، أو عدم وجود إعادة توجيه صحيح. عندما يصادف محرك البحث رابطًا غير موجود (404)، فإنه لا يمكنه الوصول إلى عنوان URL المحدد. وعندما يصادف المستخدم رابطًا غير موجود (404)، فإنه يجد صفحة فارغة ومن المرجح أن يغادر الموقع.

  1. أخطاء 5xx:

تحدث عندما يواجه برنامج زحف محرك البحث صعوبة في الوصول إلى المحتوى بسبب خطأ في الخادم. تشمل أمثلة على ذلك الأخطاء التي تحدث بسبب فشل الخادم في عرض الصفحة المطلوبة لتلبية طلب المستخدم. يوجد علامة تبويب مخصصة في تقرير أخطاء الزحف في Google Search Console لهذه الأخطاء. تحدث هذه الأخطاء عادةً بسبب انتهاء مهلة طلب عنوان URL، وبالتالي يتجاهل محرك البحث هذه الروابط.

لإصلاح هذه الأخطاء، يمكن استخدام إعادة التوجيه 301 لإعلام المستخدمين ومحركات البحث أن الصفحة قد انتقلت بشكل دائم إلى عنوان URL جديد يعمل. يجب استخدام إعادة التوجيه 301 بحذر وفقًا للعناوين URL ذات الصلة. يمكن أيضًا استخدام إعادة التوجيه 302 للتحويلات المؤقتة، ولكن يجب استخدامها فقط في الحالات المؤقتة وعندما لا يكون نقل قوة الرابط مهمًا.

إعادة التوجيه 301 لها تأثير قوي، ولكن يجب التعامل مع عناوين URL بحذر وتجنب إعادة التوجيه إلى صفحات غير ذات صلة.

redirect chains إعادة التوجيه 

كن حذرًا من وجود سلاسل إعادة التوجيه (redirect chains) وحاول تقليلها قدر الإمكان. إذا كانت هناك عمليات إعادة توجيه متعددة لصفحتك، فقد يكون من الصعب على Googlebot الوصول إليها. لذا، يُفضل التخلص من الوسيط (redirect intermediary) وإعادة توجيه الصفحة مباشرة.

على سبيل المثال: إذا كنت تقوم بإعادة توجيه example.com/1 إلى example.com/2 ثم قمت بإعادة توجيه example.com/2 إلى example.com/3، فمن الأفضل التخلص من الوسيط وإعادة توجيه example.com/1 مباشرة إلى example.com/3.

بعد ضمان قدرة موقعك على التعامل مع عملية الزحف بشكل جيد، يجب التأكد من أنه قابل للفهرسة. يعني ذلك أن محتوى موقعك يمكن أن يتم فهرسته من قبل محركات البحث، وبالتالي يظهر في نتائج البحث.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *