عملکرد موتور های جستجو چگونه است؟نحوه خزش یا Crawl موتورهای جستجو
هانیه خرم زاده 1400-12-18

تا به حال به این فکر کرده‌اید که گوگل، یاهو یا بینگ چگونه سایت شما را پیدا می‌کنند و در نتایج جستجوی خود به کاربران نمایش می‌دهند؟

اگر کمی با سئو آشنا باشید، حتماً جواب این سوال را می‌دانید اما برای افرادی که در ابتدای راه هستند، شاید پاسخ این سوال کمی مبهم باشد. به هر حال باید بدانید که این موتور های جستجو از طریق ارسال خزنده یا Crawler به سایت شما، آن را شناسایی و بررسی می‌کنند. در واقع شروع مسیر بهینه سازی سایت بدون اطلاع از نحوه عملکرد موتور های جستجو، مانند این است که قصد داشته باشید یک کتاب منتشر کنید، بدون آن که با حروف الفبا آشنا باشید!

در این مقاله از نژودا، با الفبای بهینه سازی سایت یا به عبارت دیگر، نحوه عملکرد موتور های جستجو آشنا خواهیم شد.

موتور های جستجو چگونه کار می‌کنند؟

موتور های جستجو سه عملکرد اصلی دارند:

  1. خزش: موتور جستجو خزنده‌ها را به سرتاسر اینترنت می‌فرستد تا به دنبال محتوا بگردند. آنها کد یا محتوای هر URL را جستجو و خزش می‌کنند. به این خزنده‌ها اصطلاحاً ربات‌های وب یا عنکبوت وب (Web Spider) هم گفته می‌شود.
  2. ایندکس کردن: ذخیره و سازماندهی کردن محتوای یافت شده در طی خزش، ایندکسینگ یا ایندکس کردن نامیده می‌شود. زمانی که یک صفحه ایندکس می‌شود، در واقع آماده نمایش به سایر کاربران در نتایج جستجو است.
  3. رنکینگ یا رتبه‌‌بندی: در این مرحله موتور های جستجو محتواهای خزش و ایندکس شده را بر اساس میزان مفید و مرتبط بودن با عبارات جستجو شده توسط کاربران یا همان کوئری‌ها رتبه‌بندی کرده و نمایش می‌دهند.

در طی این سه مرحله، آنها محتواهای تازه منتشر شده را پیدا می‌کنند، اطلاعات را روی سرورهای خود ذخیره می‌کنند و آنها را مطابق نیاز کاربر آماده نمایش می‌کنند.

درمورد نحوه عملکرد موتور های جستجو باید بدانید که آنها برای پیدا کردن، دسته‌بندی و رتبه‌بندی میلیاردها وب‌سایت موجود در اینترنت، از الگوریتم‌های پیچیده‌ای استفاده می‌کنند تا در نهایت نتایج باکیفیتی به کاربران ارائه دهند. هر موتور جستجو از الگوریتم مخصوص به خود استفاده می‌کند؛ به عنوان مثال الگوریتم رنک برین برای گوگل و یوتیوب استفاده می‌شود، در حالی که موتور جستجوی بینگ از الگوریتم SPTAG یا Space Partition Tree And Graph استفاده می‌کند.

علاوه بر کرال (خزش)، ایندکس و الگوریتم‌ها موارد دیگری مانند ماشین لرنینگ (یادگیری ماشین) و تجربه کاربری نیز به بهبود عملکرد موتور های جستجو کمک می‌کند و آن را بهبود می‌دهد. بسیاری از این الگوریتم ها مانند الگوریتم برت گوگل،بر پایه هوش مصنوعی و یادگیری ماشین عمل می‌کنند.

در ادامه مراحل عملکرد موتور های جستجو را بررسی می‌کنیم.

نحوه خزش یا Crawl وب سایت توسط موتور جستجو

نحوه خزش یا Crawl وب سایت توسط موتور جستجو

موتورهای جستجو، ربات‌های خود را دائماً برای کرال کردن سایت شما ارسال می‌کنند، اما این خزش تنها یک بار اتفاق نمی‌افتد! بلکه سایت شما تا زمانی که در آن محتوایی قرار دارد یا بارگذاری می‌شود، به صورت مکرر خزش می‌شود. این روند برای یافتن محتواهای جدید یا هرگونه به‌روزرسانی در محتوا و کدهای سایت‌ها انجام می‌شود.

روند خزش در ربات‌های گوگل، ابتدا با واکشی (Fetching) چند صفحه وب شروع می‌شود، سپس ربات‌ها لینک‌های موجود در این صفحات را دنبال می‌کنند تا به محتواها و URLهای جدید دست پیدا کنند. خزنده‌ها اطلاعات به دست آمده را در دیتابیس (پایگاه داده) عظیمی از URLها ذخیره می‌کنند تا به محض این که یک کاربر اطلاعاتی مرتبط با آن را سرچ کرد، URL مربوطه را در صفحه نتایج به او نمایش دهند.

این فرایند طبق قوانین و ساختارهای مشخصی، با استفاده از فایل Robots.txt انجام می‌شود که از نقشه سایت پیروی می‌کند. زمانی که یک ربات وارد سایت شما می‌شود، اولین کاری که انجام می‌دهد این است که فایل Robots.txt شما را بررسی می‌کند. این فایل مشخص می‌کند که کدام صفحات باید خزش شوند و کدام یک باید نادیده گرفته شوند.

زمانی که خزنده، لینک‌های مجاز و غیرمجاز برای خزش را شناسایی کرد، خزش سایت شما شروع می‌شود. برای این که این فرایند به صورت بهینه انجام شود، کرالرها نقشه سایت شما را بررسی می‌کنند. نقشه سایت که به آن XML Sitemap هم گفته می‌شود، کلیه لینک‌های وب‌سایت شما را لیست می‌کند و یک نمای ساختاربندی شده از هر صفحه ارائه می‌دهد. این کار روند خزش ربات‌ها در سایت را بسیار سریع‌تر و بهینه‌تر می‌کند. به کمک سایت مپ می‌توانید به کرالرها بگویید کدام صفحات سایت شما از اهمیت بیشتری برخوردار هستند تا ابتدا آنها را بررسی و کرال کند.

زمانی که ربات‌های خزنده اطلاعات کافی را جمع‌آوری کردند، آنها را برای ایندکس کردن به گوگل یا موتور جستجوی مربوط به خود منتقل می‌کنند. این فرایند بارها تکرار می‌شود تا زمانی که محتواها ایندکس شوند.

ممکن است بخواهید برخی از URLهای شما توسط خزنده‌های گوگل بررسی و خزش نشوند؛ در این صورت باید از تگ nofollow استفاده کنید. کلیه صفحات وب‌سایت به صورت پیش‌فرض خزش می‌شوند یا به عبارتی follow هستند؛ بنابراین استفاده از این تگ ضرورتی ندارد.

ایندکس شدن محتوا در موتور های جستجو

ایندکس کردن یکی از اصلی‌ترین مراحل عملکرد موتور های جستجو است که در مراحل بعدی کار مانند سئو و بهینه‌سازی نیز اهمیت زیادی دارد.

موتورهای جستجو اطلاعات به دست آمده از ربات‌ها را پردازش و ذخیره می‌کنند تا هنگام جستجو توسط کاربر، محتوای مربوطه را به او نمایش دهند. ایندکس شدن محتوا در موتور های جستجو با آنالیز داده‌های وب‌سایت‌ها شروع می‌شود؛ این داده‌ها عبارت‌اند از محتوای متنی، تصاویر، ویدئوها و ساختار تکنیکال سایت.

عملکرد موتور های جستجو به این صورت است که زمانی که صفحات توسط ربات خزش می‌شوند، موتور جستجو محتویات آن صفحه را آنالیز و بررسی می‌کند؛ از کلمات کلیدی گرفته تا به‌روز بودن و تازگی محتوا. کلیه این اطلاعات در ایندکس ذخیره می‌شوند. به عبارت دیگر، ایندکس مانند کتابخانه‌ای است که هر خزنده بعد از خزش صفحات، اطلاعات جدیدی را به آن اضافه می‌کند.

دقت کنید که کرال شدن سایت به این معنا نیست که ربات‌ها آن را برای ایندکس شدن به موتور جستجو معرفی کرده و اکنون صفحات سایت آماده نمایش به کاربران در نتایج جستجو هستند! در حقیقت متا تگ‌های index/noindex تعیین می‌کنند که صفحات خزش شده، باید به کاربر نمایش داده شوند یا نه.برای اموزش کامل حذف صفحات ایندکس شده به این مقاله مراجعه کنید.

اگر از تگ noindex برای یکی از صفحات خود استفاده کنید، به این معنا است که نمی‌خواهید خزنده‌های وب پس از خزش، آن صفحه را در نتایج جستجو به کاربر نمایش دهند. به صورت پیش‌فرض، کلیه صفحات وب‌سایت از تگ index پیروی می‌کنند؛ بنابراین استفاده از تگ index در صفحات غیرضروری است.

تگ noindex اغلب همراه با تگ nofollow استفاده می‌شود تا هم خزنده، صفحه مورد نظر را خزش نکند و هم صفحه ایندکس نشود.

پس از این مرحله گوگل به کمک الگوریتم‌های ماشین لرنینگ مانند RankBrain و گراف دانش خود اطلاعات به دست آمده را دسته‌بندی و سازماندهی می‌کند تا مرتبط‌ترین نتایج را به کاربران نمایش دهد. با اتمام این مرحله، نوبت مرحله سرنوشت‌ساز رتبه‌بندی یا Ranking فرامی‌رسد که یکی از اصلی‌ترین مراحل عملکرد موتور های جستجو است.

رتبه بندی نتایج جستجو چگونه انجام می‌شود؟

رتبه بندی نتایج جستجو چگونه انجام می‌شود؟

همانطور که در قسمت قبل اشاره کردیم، موتور جستجو به کمک گراف دانش خود، سعی می‌کند از جستجو تنها براساس تطبیق کلمه کلیدی فراتر برود، منظور عبارات جستجوشده توسط آنها را درک کند و مرتبط‌ترین نتایج را به کاربران نمایش دهد. برای انجام این کار، موتور های جستجو ، صفحات را به ترتیب مرتبط‌ترین و غیرمرتبط‌ترین نتایج با عبارت جستجوشده مرتب می‌کنند.

برای تعیین میزان مرتبط بودن نتایج با عبارت سرچ شده، موتور های جستجو از الگوریتم‌ها و ساختارهایی استفاده می‌کنند که توسط آن اطلاعات ذخیره شده، به صورت هوشمند فراخوانی و مرتب می‌شوند.

این الگوریتم‌ها از ابتدا تا کنون روند رو به رشدی داشته و دائماً در حال ارتقا هستند. برخی از این الگوریتم‌ها و به‌روزرسانی‌ها برای ایجاد تغییرات جزئی در جهت بهبود کیفیت نتایج هستند، در حالی که برخی دیگر، به‌روزرسانی‌ها و الگوریتم‌های گسترده و پیچیده‌تری هستند که برای رفع یک مشکل خاص طراحی و پیاده‌سازی می‌شوند؛ به عنوان مثال الگوریتم پاندا برای مبارزه با محتواهای بی‌کیفیت، کپی و اسپم ایجاد شد و پس از آن کیفیت محتواها موجود در نتایج جستجوی گوگل به طرز شگفت‌انگیزی افزایش یافت!

در فرایند رتبه‌بندی صفحات وب توسط الگوریتم‌ها، 5 عامل اساسی وجود دارد که هنگام انجام سرچ توسط کاربر اتفاق می‌افتد:

  • درک معنای کوئری (عبارت جستجو شده): برای درک هدف نهایی کاربر از جستجو، گوگل به کمک الگوریتم‌های خود تلاش می‌کند معنای عبارت جستجو شده را درک کند. این کار معمولا از طریق ماشین لرنینگ و آنالیز رفتار کاربر پس از نمایش نتایج صورت می‌گیرد.
  • ارتباط صفحات وب: زمانی که گوگل یا هر موتور جستجوی دیگری، هدف نهایی کاربر از جستجو را تشخیص داد، محتوای صفحات وب را بررسی می‌کند تا مرتبط‌ترین صفحات با هدف کاربر را پیدا کند. در این مرحله است که کلمات کلیدی صفحات وب نقش مهمی پیدا می‌کنند. موتور جستجو با آنالیز کلمات کلیدی صفحات، مرتبط‌ترین آنها را تشخیص می‌هد.
  • کیفیت محتوای صفحات: با تطبیق کلمات کلیدی و درک هدف کاربر از جستجو، موتور های جستجو بیشتر پیش می‌روند و کیفیت صفحات و محتوای آنها را آنالیز می‌کنند. برای این کار، موتور جستجو اعتبار وب‌سایت یا Site Authority، رتبه صفحه و تازگی و به‌روز بودن محتوا را مورد بررسی قرار می‌هد و مرتبط‌ترین نتایج به دست آمده را بر اساس کیفیت مرتب می‌کند.
  • مفید و کاربردی بودن صفحه: یکی از اولویت‌های گوگل برای رتبه‌بندی سایت‌ها، تجربه کاربر در آنها است. در واقع سایت‌هایی که سرعت بالاتر، کاربری آسان‌تر و ساختاری جذاب‌تر در اختیار کاربر می‌گذارند، برای گوگل هم جذاب‌تر هستند. ریسپانسیو یا واکنش‌گرا بودن سایت، یکی دیگر از فاکتورهای مورد توجه گوگل است که رضایت کاربران را هم به دنبال خواهد داشت.
  • بررسی واکنش قبلی کاربران: در این مرحله، موتور جستجو بر اساس رفتار قبلی کاربران و تعامل آنها با نتایج، صفحات را رتبه‌بندی می‌کند.

بعد از تمام این مراحل، گوگل صفحه نتایج را به شما نمایش می‌دهد.

سوالات متداول شما

از کجا بفهمیم خزش صفحات سایت با موفقیت انجام شده است؟

در فرایند خزش، ممکن است ربات با ارورهایی مانند 500 یا 404 مواجه شود. این خطاها در قسمت Crawl Errors در گوگل سرچ کنسول قابل مشاهده است.

آیا می‌توانیم ببینیم خزنده‌ها سایت ما را چگونه می‌بینند؟

بله نسخه کش (cached) صفحات سایت شما به صورت تصویری از آخرین باری که ربات گوگل آن را خزش کرده قابل مشاهده است. در صفحه نتای جستجو، صفحه مربوط به سایت خود را پیدا کنید و روی فلش کشویی کنار URL کلیک کنید. گزینه Cached را انتخاب کنید تا صفحه خود از دید گوگل را ببینید.

آیا صفحات از ایندکس حذف می‌شوند؟

بله! صفحات از ایندکس قابل حذف شدن هستند. در دامه به برخی از دلایل حذف صفحه از ایندکس اشاره کرده‌ایم : _ 1: URL صفحه دارای خطای “Not found” یا خطا سرور است. در چنین حالتی، در صورت برطرف نشدن خطا، ممکن است صفحه از ایندکس حذف شود._ 2: URL صفحه دارای متاتگ noindex است._ 3: URL صفحه به طور دستی به دلیل نقض دستورالعمل‌های وبمستر موتور جستجو از ایندکس حذف شده است.

امتیاز به مطلب

برچسب ها :

نظرات

نشانی ایمیل شما منتشر نخواهد شد.

نام
کپچا code

دیگران را با نوشتن نظرات خود، برای انتخاب این محصول راهنمایی کنید

لطفا پیش از ارسال نظر، خلاصه قوانین زیر را مطالعه کنید فارسی بنویسید و از کیبورد فارسی استفاده کنید. بهتر است از فضای خالی بیش‌از‌حدِ معمول، شکلک یا ایموجی استفاده نکنید و از کشیدن حروف یا کلمات با صفحه‌کلید بپرهیزید نظرات خود را براساس تجربه و استفاده‌ی عملی و با دقت به نکات فنی ارسال کنید؛ بدون تعصب به محصول خاص، مزایا و معایب را بازگو کنید و بهتر است از ارسال نظرات چندکلمه‌‌ای خودداری کنید بهتر است در نظرات خود از تمرکز روی عناصر متغیر مثل قیمت، پرهیز کنید