الاثنين، 21 مايو 2012

ما هو الـ Robots

من طرف Mohammed Al-kenani  |  نشر في :  2:49 ص 0 تعليقات


في بادئ الامر انا شخصياً لا اعرف معنى الريبورت وبفضل الله وجدته في احدى المنتديات وحبيت ان انقله لكم لتعم الفائدة .
المصدر
معنى كلمة robots :
المعنى الحرفى لكلمة robots هى " الرجل الالى" وهذا ادق معنى للrobots الخاصه بمحركات البحث ولكنها ايضا يطلق عليها فى بعض الاحيان Wanderers بمعنى "المتجولون" او spiders " بمعنى عناكب ....الان بدأنا نعرف عن ماذا اتحدث عندما ذكرت كلمة عناكب اليس كذلك؟
حسنا نستخلص من هذا ان ال robots هى عناكب محركات البحث وبالتالى سيكون ملف robots.txt هو المسؤول عن توجيه هذه العناكب

ما هى العناكب وما هى وظيفتها:

عناكب محركات البحث عباره عن برامج تتصفح المواقع تلقائيا . محركات البحث مثل Google تستخدم العناكب فى أرشفة محتويات المواقع لكى تبنى بها محرك بحث Google الشهير .كما ان بعض ال spammers -وهم الذين يهتمون بجمع الايميلات ومراسلتها بغرض الدعايا- يقومون بعمل عناكب بهدف جمع الايميلات من المواقع

حتى الان عرفنا ماهى العناكب ووظيفتها وما هو ملف الـ robots.txt ووظيفته ولكن سنتعلم فى النقاط التاليه المزيد من وظائف ملف الـ robots.txt وكيفية كتابتة واعداده


بأختصار:

اى صاحب موقع يجب عليه ان يقوم بعمل ملف robots.txt لكى يقوم بتوجيه عناكب محركات البحث القادمة الى موقعة وهذا يسمى ببروتوكول استثناء العناكب The Robots Exclusion Protocol , وهذا مثال لكيفية عمل ملف robots.txt:

سنفترض ان احد عناكب محركات البحث جاء الى الصفحة التالية
http://www.example.com/welcome.html قبل ان يقوم بالتعامل مع الصفحة يتحقق اولا من وجود هذا الملف http://www.example.com/robots.txt, وسنفترض مثلا انه وجد به الكود التالى
CODE:
0001
0002
0003
0004

User-agent: *
Disallow: /
هذا الكود يعنى ان الموقع يوافق على دخول جميع عناكب محركات البحث
CODE:
0001
User-agent: *
وهذا الكود يعنى انه غير مسموح لعناكب محركات البحث بزيارة اى صفحه بداخل هذا المجلد

لاحظ النقاط التالية:
<ol style="list-style-type: decimal;">بعض العناكب تتجاهل ملف الـ robots.txt مثل العناكب التى تدخل الموقع لتبحث عن الثغرات الامنية والايميلات
ملف الـ robots.txt متاح لأى زائر ويستطيع الكل قراءته لذلك لا تستخدمه لأخفاء معلومات لأنك فى هذه الحاله تفضح المعلومات ولا تخفيها
</ol>سننتقل الان الى الجزء الاهم فى هذا الشرح فرجاء التركيز
كيف يمكنك عمل ملف الـ robots.txt ؟
وهذا السؤال ينقسم الى عدة نقاط
اولا : اين يوضع ملف الـ robots.txt ؟
الاجابة المختصره على هذا السؤال:
يوضع فى مجلد الموقع الرئيسى , بمعنى ان رابط الملف بعد تركيبه سيكون بهذا الشكل http://www.example.com/robots.txt
الاجابة المفصله لهذا السؤال :
ان عناكب محركات البحث عندما تقوم بالتحقق من وجود ملف الـrobots.txt فهى تقوم بحذف جزء من الرابط هذا الجزء هو من اول slash "/"حتى نهاية الرابط وتضع مكان هذا الجزء "/robots.txt"

[RIGHT]مثال على ذلك بالنسبة لهذا الرابط
http://www.example.com/shop/index.html ستقوم العناكب بحذف /shop/index.html وستضع مكانه "/robots.txt" اى انها ستبحث عن ملف ال robots.txt على هذا الرابط http://www.example.com/robots.txt
وتذكر دائما ان تكتب اسم الملف بالحروف الصغيره اى ان اسمه robots.txt ووليس Robots.TXT

ماذا سأضع بداخل ملف الـ robots.txt ؟

ملف الـ robots ملف نصى "text" وظيفته الاساسية هى الاستثناء كما سنرى
الامر ابسط مما تتخيلون
سنشرح عن طريق امثله لمحتويات ملف الـrobots.txt وتفسيرها
CODE:
0001
0002
0003
0004
0005
0006

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

بواسطتة هذا الكود قمنا بالسماح لجميع محركات البحث بزيارة الموقع عن طريق السطر الاول وقمنا بأستثناء هذه المجدلدت cgi-bin ,tmp من الارشفه اى منعنا عناكب محركات البحث من زيارت هذه المجلدات وكامل محتوياتها

لاحظ انك يجب ان تضع امر "Disallow" فى سطر منفصل كل مره تحجب فيها مجلد او رابط معين ولا يمكنك حجب مجلدين فى نفس الوقت عن طريق امر واحد بل ضع لكل مجلد امر "Disallow" بمفرده

CODE:
0001
0002
0003
0004
0005

User-agent: *
Disallow: /

بواسطة هذا الكود نمنع كل عناكب محركات البحث من ارشفة كل محتويات الموقع



CODE:
0001
0002
0003
0004

User-agent: *
Disallow:
هذا الكود يسمح لجميع العناكب بالدخول وارشفة جميع محتويات الموقع ويمكنك الاستغناء عن هذا الكود برفع ملف robots.txt فارغ او عدم عمل الملف نهائيا
CODE:
0001
0002
0003
0004
0005
0006

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
بواسطة هذا الكود منعنا جميع العناكب من زيارة اقسام معينه من الموقع

CODE:
0001
0002
0003

User-agent: BadBot
Disallow: /
يستخدم هذا الكود لمنع عناكب احد محركات البحث


CODE:
0001
0002
0003
0004
0005
0006
0007

User-agent: Google
Disallow:

User-agent: *
Disallow: /
هذا الكود يستخدم للسماح لعناكب احد محركات البحث بالزيارة واستثناء الاخرون


CODE:
0001
0002
0003
0004
0005
0006

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
وبالطبع هذا الكود لأستثناء الملفات كما هو ظاهر

_________________

الدرس القادم سيشرح بعض الاوامر الاخرى المميزه مع اجابة للأسئله الشائعة التى تدور بذهن اى صاحب موقع عن بطلنا ملف الـ robots.txt

انتهى الموضوع بحمد الله وارجو ان اكون وفقت فى الاعداد


هذا الشرح فقط سأقوم بوضعه بثلاث مواقع "تراينت و سوالف سوفت و
ارابيا فور سيرف"
عند النقل يرجى ذكر المصدر الاصلى
http://forum.arabia4serv.com/t16810.html

===========

اضافات الاخ MohDesign

احب ان اضيف بعض الخواص وخصوصا Allow



وهي :


كيف اجعل العناكب لا تقرأ ملفات معينه مثل ملفات الفلاش ؟


باستخدام هذا الكود

CODE:
0001
0002
0003
0004

User-agent: *
Disallow: /*.swf$
وطبعا يمكن اضافة اي لاحقه مثل ال php و html و js كما يرد صاحب الموقع



ايضا


ماذا ان كنت اريد منع مسار معين وفي نفس الوقت اريد ارشفة ملف هذا المسار؟


مثال :

CODE:
0001
0002
0003
0004
0005

User-agent: *
Disallow: /dir/
Allow: /dir/file.html
في هذه الحاله سوف تمنع العناكب من ارشفة اي شي بـ dir

لكن ملف file.html يسمح بارشفته




وايضا ان استخدمنا الامر هكذا

CODE:
0001
0002
0003
0004
0005

User-agent: *
Disallow: /dir/
Allow: /dir/*.html$
اي امنع العناكب من ارشفة اي شي داخل مجلد dir ولكن اجعلها تأرشف اي ملفات html داخل هذا المجلد

وهنا يأتي دور ان هذا المجلد يحتوي على ملفات php و html او حتى swf


فيتم منع اي لاحقه ماعادا html





ماذا ان كنت اريد منع ملفات معينه ولكن اسمائها مختلفه لكنها مرتبه


نستخدم في هذه الحاله العلامه *


مثلا لديك ملفات بهذه الاسماء


file_1.html حتى file_500.html
هل من المعقول ان تضع الاسماء من 1 الى 500 !!

لا طبعا تستخدم هذا الامر فقط

CODE:
0001
0002
0003
0004

User-agent: *
Disallow: /file_*
او
CODE:
0001
0002
0003
0004

User-agent: *
Disallow: /file_*.html

ايضا يمكن اضافة اخر الملف مسار خريطة الموقع مثل :
CODE:
0001
0002
0003

Sitemap: http://www.site.com/anyname.xml

 
CODE:
0001
0002
0003

Sitemap: http://www.site.com/anyname.xml
 
 
 

التسميات :
Mohammed Al-kenani

كاتب مختص في مدونة مفكر التقنية

اشتراك

الحصول على كل المشاركات لدينا مباشرة في صندوق البريد الإلكتروني

شارك الموضوع

مواضيع ذات صلة

0 التعليقات:

back to top