خزشگر وب (کرولر (crawler)) یک نوع ربات مخصوص موتور جست و جو است که در تلاش برای دانلود و ایندکس گذاری تمامی متحویهای موجود در سراسر وب میباشد. هدف اصلی یک خزشگر وب، آشنایی بیشتر و بهتر با محتوی هر صفحه در وب است؛ تا بدین ترتیب در صورت جست و جوی این نوع محتوی در یک موتور جست و جو، بتواند صفحات متناسب با آن را برای کاربران نمایش دهد.
موتورهای جست و جو، همواره در حال استفاده از این نوع رباتها میباشند. هر چقدر که عملکرد یک خزشگر وب بهتر باشد، به همان نسبت نیز نتایج نمایش داده شده در موتورهای جست و جو به خواسته کاربران نزدیکتر خواهد شد.
در واقع در پروسس جست و جو، کاربر یک کلمه کلیدی را در موتور جست و جو وارد میکند. حال موتور جست و جو نیز بر اساس تاریخچه اطلاعات بدست آمده توسط خزشگر، در بین این اطلاعات مربوطترین و نزدیکترین مورد را برای کاربر نمایش میدهد.
بدین ترتیب باید گفت که خزشگر وب، یکی از حیاتیترین اجزا در عملیات جست و جو میباشد. در ادامه به بررسی و آشنایی بیشتر با این دسته از رباتهای نرم افزاری میپردازیم.
توضیح بیشتر در مورد خزشگر وب
یک ربات خزشگر وب، دقیقاً مانند کسی است که کتابهای زیادی را به صورتی نامرتب در اختیار دارد و آنها را مطالعه کرده و از تگهایی برای طبقهبندی این کتابها استفاده میکند. به طوری که هر فرد دیگری که نیاز به مطالعه این کتابها داشته باشد، از این تگها استفاده کرده و مطالب مدنظر خود را انتخاب میکند.
البته در حالت کلی مقایسه مثال کتابخانه با دنیای اینترنت بسیار اشتباه است. زیرا در دنیای اینترنت به تعداد بسیار زیاد و متنوعی از سایتها حضور دارند که جست و جو و مشخص کردن محتوی و کلمات کلیدی در این تعداد زیاد سایت، کار بسیار دشواری میباشد.
خزشگر وب چگونه کار میکند؟
فضای اینترنت دائماً در حال تغییر و گسترش میباشد. در این بین از آنجایی که به تعداد زیاد و نامشخصی صفحه وب در اینترنت وجود دارد، خزشگرها کار خود را از بین URLهای آشنا و معروفتر آغاز میکنند. در این پروسس خزشگرها با شروع کار ایندکسگذاری خود از صفحات آشنا، در حین این بررسی با هایپرلینکهایی رو به رو میشوند. این رباتها در ادامه، URLهای مربوط به این هایپرلینکها را نیز به لیست جست و جوی خود اضافه کرده و بدین ترتیب دامنه فعالیت خود را بتدریج گسترش میدهند.

البته در کنار این فعالیت، باید به حجم بالا و بسیار زیاد صفحات وب نیز توجه نمود که کار بررسی و ایندکسگذاری آنها، ممکن است تا بینهایت طول بکشد.
از طرفی دیگر نیز ذکر این نکته لازم است که یک خزشگر وب در انجام وظیفه خود، از قوانین، مقررات و اصول خاصی استفاده میکند و علاوه بر آن بعضی از صفحات را هم در بازههای زمانی مشخص، دوباره بررسی میکند. در این شرایط در نظر گرفتن این حجم بالای کار، سختی زیاد و ارزش عملکرد بالای خزشگر وب را نمایان میسازد.

