تا به حال به این فکر کردهاید که گوگل، یاهو یا بینگ چگونه سایت شما را پیدا میکنند و در نتایج جستجوی خود به کاربران نمایش میدهند؟
اگر کمی با سئو آشنا باشید، حتماً جواب این سوال را میدانید اما برای افرادی که در ابتدای راه هستند، شاید پاسخ این سوال کمی مبهم باشد. به هر حال باید بدانید که این موتور های جستجو از طریق ارسال خزنده یا Crawler به سایت شما، آن را شناسایی و بررسی میکنند. در واقع شروع مسیر بهینه سازی سایت بدون اطلاع از نحوه عملکرد موتور های جستجو، مانند این است که قصد داشته باشید یک کتاب منتشر کنید، بدون آن که با حروف الفبا آشنا باشید!
در این مقاله از نژودا، با الفبای بهینه سازی سایت یا به عبارت دیگر، نحوه عملکرد موتور های جستجو آشنا خواهیم شد.
فهرست مطلب:
موتور های جستجو چگونه کار میکنند؟
موتور های جستجو سه عملکرد اصلی دارند:
- خزش: موتور جستجو خزندهها را به سرتاسر اینترنت میفرستد تا به دنبال محتوا بگردند. آنها کد یا محتوای هر URL را جستجو و خزش میکنند. به این خزندهها اصطلاحاً رباتهای وب یا عنکبوت وب (Web Spider) هم گفته میشود.
- ایندکس کردن: ذخیره و سازماندهی کردن محتوای یافت شده در طی خزش، ایندکسینگ یا ایندکس کردن نامیده میشود. زمانی که یک صفحه ایندکس میشود، در واقع آماده نمایش به سایر کاربران در نتایج جستجو است.
- رنکینگ یا رتبهبندی: در این مرحله موتور های جستجو محتواهای خزش و ایندکس شده را بر اساس میزان مفید و مرتبط بودن با عبارات جستجو شده توسط کاربران یا همان کوئریها رتبهبندی کرده و نمایش میدهند.
در طی این سه مرحله، آنها محتواهای تازه منتشر شده را پیدا میکنند، اطلاعات را روی سرورهای خود ذخیره میکنند و آنها را مطابق نیاز کاربر آماده نمایش میکنند.
درمورد نحوه عملکرد موتور های جستجو باید بدانید که آنها برای پیدا کردن، دستهبندی و رتبهبندی میلیاردها وبسایت موجود در اینترنت، از الگوریتمهای پیچیدهای استفاده میکنند تا در نهایت نتایج باکیفیتی به کاربران ارائه دهند. هر موتور جستجو از الگوریتم مخصوص به خود استفاده میکند؛ به عنوان مثال الگوریتم رنک برین برای گوگل و یوتیوب استفاده میشود، در حالی که موتور جستجوی بینگ از الگوریتم SPTAG یا Space Partition Tree And Graph استفاده میکند.
علاوه بر کرال (خزش)، ایندکس و الگوریتمها موارد دیگری مانند ماشین لرنینگ (یادگیری ماشین) و تجربه کاربری نیز به بهبود عملکرد موتور های جستجو کمک میکند و آن را بهبود میدهد. بسیاری از این الگوریتم ها مانند الگوریتم برت گوگل،بر پایه هوش مصنوعی و یادگیری ماشین عمل میکنند.
در ادامه مراحل عملکرد موتور های جستجو را بررسی میکنیم.
نحوه خزش یا Crawl وب سایت توسط موتور جستجو
موتورهای جستجو، رباتهای خود را دائماً برای کرال کردن سایت شما ارسال میکنند، اما این خزش تنها یک بار اتفاق نمیافتد! بلکه سایت شما تا زمانی که در آن محتوایی قرار دارد یا بارگذاری میشود، به صورت مکرر خزش میشود. این روند برای یافتن محتواهای جدید یا هرگونه بهروزرسانی در محتوا و کدهای سایتها انجام میشود.
روند خزش در رباتهای گوگل، ابتدا با واکشی (Fetching) چند صفحه وب شروع میشود، سپس رباتها لینکهای موجود در این صفحات را دنبال میکنند تا به محتواها و URLهای جدید دست پیدا کنند. خزندهها اطلاعات به دست آمده را در دیتابیس (پایگاه داده) عظیمی از URLها ذخیره میکنند تا به محض این که یک کاربر اطلاعاتی مرتبط با آن را سرچ کرد، URL مربوطه را در صفحه نتایج به او نمایش دهند.
این فرایند طبق قوانین و ساختارهای مشخصی، با استفاده از فایل Robots.txt انجام میشود که از نقشه سایت پیروی میکند. زمانی که یک ربات وارد سایت شما میشود، اولین کاری که انجام میدهد این است که فایل Robots.txt شما را بررسی میکند. این فایل مشخص میکند که کدام صفحات باید خزش شوند و کدام یک باید نادیده گرفته شوند.
زمانی که خزنده، لینکهای مجاز و غیرمجاز برای خزش را شناسایی کرد، خزش سایت شما شروع میشود. برای این که این فرایند به صورت بهینه انجام شود، کرالرها نقشه سایت شما را بررسی میکنند. نقشه سایت که به آن XML Sitemap هم گفته میشود، کلیه لینکهای وبسایت شما را لیست میکند و یک نمای ساختاربندی شده از هر صفحه ارائه میدهد. این کار روند خزش رباتها در سایت را بسیار سریعتر و بهینهتر میکند. به کمک سایت مپ میتوانید به کرالرها بگویید کدام صفحات سایت شما از اهمیت بیشتری برخوردار هستند تا ابتدا آنها را بررسی و کرال کند.
زمانی که رباتهای خزنده اطلاعات کافی را جمعآوری کردند، آنها را برای ایندکس کردن به گوگل یا موتور جستجوی مربوط به خود منتقل میکنند. این فرایند بارها تکرار میشود تا زمانی که محتواها ایندکس شوند.
ممکن است بخواهید برخی از URLهای شما توسط خزندههای گوگل بررسی و خزش نشوند؛ در این صورت باید از تگ nofollow استفاده کنید. کلیه صفحات وبسایت به صورت پیشفرض خزش میشوند یا به عبارتی follow هستند؛ بنابراین استفاده از این تگ ضرورتی ندارد.
ایندکس شدن محتوا در موتور های جستجو
ایندکس کردن یکی از اصلیترین مراحل عملکرد موتور های جستجو است که در مراحل بعدی کار مانند سئو و بهینهسازی نیز اهمیت زیادی دارد.
موتورهای جستجو اطلاعات به دست آمده از رباتها را پردازش و ذخیره میکنند تا هنگام جستجو توسط کاربر، محتوای مربوطه را به او نمایش دهند. ایندکس شدن محتوا در موتور های جستجو با آنالیز دادههای وبسایتها شروع میشود؛ این دادهها عبارتاند از محتوای متنی، تصاویر، ویدئوها و ساختار تکنیکال سایت.
عملکرد موتور های جستجو به این صورت است که زمانی که صفحات توسط ربات خزش میشوند، موتور جستجو محتویات آن صفحه را آنالیز و بررسی میکند؛ از کلمات کلیدی گرفته تا بهروز بودن و تازگی محتوا. کلیه این اطلاعات در ایندکس ذخیره میشوند. به عبارت دیگر، ایندکس مانند کتابخانهای است که هر خزنده بعد از خزش صفحات، اطلاعات جدیدی را به آن اضافه میکند.
دقت کنید که کرال شدن سایت به این معنا نیست که رباتها آن را برای ایندکس شدن به موتور جستجو معرفی کرده و اکنون صفحات سایت آماده نمایش به کاربران در نتایج جستجو هستند! در حقیقت متا تگهای index/noindex تعیین میکنند که صفحات خزش شده، باید به کاربر نمایش داده شوند یا نه.برای اموزش کامل حذف صفحات ایندکس شده به این مقاله مراجعه کنید.
اگر از تگ noindex برای یکی از صفحات خود استفاده کنید، به این معنا است که نمیخواهید خزندههای وب پس از خزش، آن صفحه را در نتایج جستجو به کاربر نمایش دهند. به صورت پیشفرض، کلیه صفحات وبسایت از تگ index پیروی میکنند؛ بنابراین استفاده از تگ index در صفحات غیرضروری است.
تگ noindex اغلب همراه با تگ nofollow استفاده میشود تا هم خزنده، صفحه مورد نظر را خزش نکند و هم صفحه ایندکس نشود.
پس از این مرحله گوگل به کمک الگوریتمهای ماشین لرنینگ مانند RankBrain و گراف دانش خود اطلاعات به دست آمده را دستهبندی و سازماندهی میکند تا مرتبطترین نتایج را به کاربران نمایش دهد. با اتمام این مرحله، نوبت مرحله سرنوشتساز رتبهبندی یا Ranking فرامیرسد که یکی از اصلیترین مراحل عملکرد موتور های جستجو است.
رتبه بندی نتایج جستجو چگونه انجام میشود؟
همانطور که در قسمت قبل اشاره کردیم، موتور جستجو به کمک گراف دانش خود، سعی میکند از جستجو تنها براساس تطبیق کلمه کلیدی فراتر برود، منظور عبارات جستجوشده توسط آنها را درک کند و مرتبطترین نتایج را به کاربران نمایش دهد. برای انجام این کار، موتور های جستجو ، صفحات را به ترتیب مرتبطترین و غیرمرتبطترین نتایج با عبارت جستجوشده مرتب میکنند.
برای تعیین میزان مرتبط بودن نتایج با عبارت سرچ شده، موتور های جستجو از الگوریتمها و ساختارهایی استفاده میکنند که توسط آن اطلاعات ذخیره شده، به صورت هوشمند فراخوانی و مرتب میشوند.
این الگوریتمها از ابتدا تا کنون روند رو به رشدی داشته و دائماً در حال ارتقا هستند. برخی از این الگوریتمها و بهروزرسانیها برای ایجاد تغییرات جزئی در جهت بهبود کیفیت نتایج هستند، در حالی که برخی دیگر، بهروزرسانیها و الگوریتمهای گسترده و پیچیدهتری هستند که برای رفع یک مشکل خاص طراحی و پیادهسازی میشوند؛ به عنوان مثال الگوریتم پاندا برای مبارزه با محتواهای بیکیفیت، کپی و اسپم ایجاد شد و پس از آن کیفیت محتواها موجود در نتایج جستجوی گوگل به طرز شگفتانگیزی افزایش یافت!
در فرایند رتبهبندی صفحات وب توسط الگوریتمها، 5 عامل اساسی وجود دارد که هنگام انجام سرچ توسط کاربر اتفاق میافتد:
- درک معنای کوئری (عبارت جستجو شده): برای درک هدف نهایی کاربر از جستجو، گوگل به کمک الگوریتمهای خود تلاش میکند معنای عبارت جستجو شده را درک کند. این کار معمولا از طریق ماشین لرنینگ و آنالیز رفتار کاربر پس از نمایش نتایج صورت میگیرد.
- ارتباط صفحات وب: زمانی که گوگل یا هر موتور جستجوی دیگری، هدف نهایی کاربر از جستجو را تشخیص داد، محتوای صفحات وب را بررسی میکند تا مرتبطترین صفحات با هدف کاربر را پیدا کند. در این مرحله است که کلمات کلیدی صفحات وب نقش مهمی پیدا میکنند. موتور جستجو با آنالیز کلمات کلیدی صفحات، مرتبطترین آنها را تشخیص میهد.
- کیفیت محتوای صفحات: با تطبیق کلمات کلیدی و درک هدف کاربر از جستجو، موتور های جستجو بیشتر پیش میروند و کیفیت صفحات و محتوای آنها را آنالیز میکنند. برای این کار، موتور جستجو اعتبار وبسایت یا Site Authority، رتبه صفحه و تازگی و بهروز بودن محتوا را مورد بررسی قرار میهد و مرتبطترین نتایج به دست آمده را بر اساس کیفیت مرتب میکند.
- مفید و کاربردی بودن صفحه: یکی از اولویتهای گوگل برای رتبهبندی سایتها، تجربه کاربر در آنها است. در واقع سایتهایی که سرعت بالاتر، کاربری آسانتر و ساختاری جذابتر در اختیار کاربر میگذارند، برای گوگل هم جذابتر هستند. ریسپانسیو یا واکنشگرا بودن سایت، یکی دیگر از فاکتورهای مورد توجه گوگل است که رضایت کاربران را هم به دنبال خواهد داشت.
- بررسی واکنش قبلی کاربران: در این مرحله، موتور جستجو بر اساس رفتار قبلی کاربران و تعامل آنها با نتایج، صفحات را رتبهبندی میکند.
بعد از تمام این مراحل، گوگل صفحه نتایج را به شما نمایش میدهد.
سوالات متداول شما
از کجا بفهمیم خزش صفحات سایت با موفقیت انجام شده است؟
در فرایند خزش، ممکن است ربات با ارورهایی مانند 500 یا 404 مواجه شود. این خطاها در قسمت Crawl Errors در گوگل سرچ کنسول قابل مشاهده است.
آیا میتوانیم ببینیم خزندهها سایت ما را چگونه میبینند؟
بله نسخه کش (cached) صفحات سایت شما به صورت تصویری از آخرین باری که ربات گوگل آن را خزش کرده قابل مشاهده است. در صفحه نتای جستجو، صفحه مربوط به سایت خود را پیدا کنید و روی فلش کشویی کنار URL کلیک کنید. گزینه Cached را انتخاب کنید تا صفحه خود از دید گوگل را ببینید.
آیا صفحات از ایندکس حذف میشوند؟
بله! صفحات از ایندکس قابل حذف شدن هستند. در دامه به برخی از دلایل حذف صفحه از ایندکس اشاره کردهایم : _ 1: URL صفحه دارای خطای “Not found” یا خطا سرور است. در چنین حالتی، در صورت برطرف نشدن خطا، ممکن است صفحه از ایندکس حذف شود._ 2: URL صفحه دارای متاتگ noindex است._ 3: URL صفحه به طور دستی به دلیل نقض دستورالعملهای وبمستر موتور جستجو از ایندکس حذف شده است.
نظرات