موتور جستجو

از دانشنامه آزاد علم اطلاعات و دانش شناسی
پرش به: ناوبری، جستجو

موتورهای جستجو Search engines

دکتر محمد باقر نگهبان

موتور جستجو در وب یک سیستم نرم افزاری است که برای جستجوی اطلاعات در شبکه جهانی وب طراحی شده است. نتایج جستجو معمولاً به صورت ردیفی از نتایج ارائه می شود که به آن صفحه نتیجه موتور جستجو (SERP) گفته می شود این اطلاعات ممکن است در صفحات وب، تصاویر و یا انواع فایل های دیگر باشد. بعضی از موتورهای جستجو، داده های (اطلاعات) موجود در پایگاه داده ها یا دایرکتورهای (یا فهرست راهنماهای دیگر) دیگر را استخراج می کنند. بر خلاف شاخه های وب (یا دایرکتورهای وب) که فقط به وسیله ی ویرایشگر انسانی نگهداری می شود، موتورهای جستجو، اطلاعات بلادرنگ را نیز به وسیله اِعمال یک الگوریتم در سامان دهنده وب، حفظ می کند. تاریخچه در هنگام طراحی اولیه وب، فهرستی از سِروِرهای وب وجود داشت که به وسیله تیم برنرزلی تدوین شده بود و در سرور وب CERN قرار داده شده بود. فهرستی از این سرورهای وب در 1992 باقی مانده است اما همانطور که سِرورهای وب بیشتر و بیشتری آنلاین می شوند، فهرست اصلی بیش از این حفظ نمی شود. در سایت NCSA، سرورهای جدیدی تحت عنوان «what̒s New» اعلام می شدند. نخستین ابزار جستجو در اینترنت آرکی (Archie) بود. این نام نشانه (archive) یعنی (بایگانی) است بدون «v» . این اصطلاح توسط آلن امتاج، بیل هالن و جی پیتز داچ دانشجویانرشته کامپیوتر دانشگاه مک گیل مونترال در سال 1990 ارائه شد. این برنامه، فهرست راهنمای همه فایل های واقع در سایت های FTP (پرتکل انتقال فایل) ناشناس را دانلود می کند و پایگاه داده های قابل جستجویی از نام فایل ها را به وجود می آورد. به هرحال، آرکی فهرست محتوای این سایت ها را ارائه نداد زیرا مقدار اطلاعات آنقدر محدود بود که امکان جستجوی آسان و سریع آنها به صورت دستی وجود نداشت. پیدایش گوفر (Gopher) (که در سال 1991 توسط مارک مک کائیل در دانشگاه مینسوتا ایجاد شد) باعث به وجود آمدن دو برنامه جستجوی جدید یعنی ورونیکا veronika و جاگ هِد (jughead) شد. اینها همانند آرکی نام فایل ها و عناوین ذخیره شده در فهرست راهنمایی سیستم های گوفر را جستجو می کردند. ورونیکا veronika (یعنی دسترسی خیلی سریع و وسیع به فهرست های راهنمای شبکه و به آرشیوهای الکترونیکی) مخفف کلماتی که حروف اول آنها veronika می شود. ورونیکا جستجوی کلمات کلیدی (یا کلیدواژه ها)ی اکثر عناوین فهرست گوفر در فهرست کلی گوفر (Gopher) را فراهم کرد. Tughead (دریافت و نمایش سلسله مراتب عمومی گوفر) جاگ هد ابزاری برای به دست آوردن اطلاعات انتخابی از سرورهای خاص گوفر بود. در حالی که نام موتور جستجوی آرکی Archie)) معرف مجموعه کتاب های کاریکاتور آرکی نبود، ورونیکا و جاگ هِد حروف اول چندین کلمه هستند بنابراین برای تفسیر آنها باید به آن کلمات مراجعه کرد. در تابستان 1993، هیچ موتور جستجوی وبی وجود نداشت، اگرچه کاتالوگ های تخصصی زیادی وجود داشت که کاربرد دستی داشتند. اُسکار نیرستراز در دانشگاه ژنو یک سری دستورالعمل های پرل Perl (نوعی زبان برنامه نویسی بر اساس زبان سی) را نوشت که به صورت دوره ای این صفحات را قرینه سازی کرده و آنها در یک فرمت (قابل) استاندارد بازنویسی می گردد. این کار معیاری برای کاتالوگ شبکه وب جهانی (w3)شکل داد. نخستین موتور جستجوی وب در 2 سپتامبر 1993 ارائه شد. در ژوئن 1993، متیوگِرِی (matthew Gray) در مؤسسه تکنولوژی ماساچوست (MIT) چیزی را به وجود آورد که احتمالاً نخستین روبات وب، وب گرد شبکه جهانی وب مبتنی بر پرل (Perl)، بود و آن را برای ایجاد فهرست راهنمایی که واندکس (wandex) نامیده می شد، استفاده کرد. هدف از ایجاد این وب گرد، ارزیابی اندازه شبکه وب جهانی بود که تا اواخر 1995 انجام شد. دومین موتور جستجو Aliweb (فهرست راهنمایی مثل آرکی در وب) بود Aliweb در نوامبر 1993 به وجود آمد. Aliweb از ربات وب استفاده نمی کرد بلکه به این بستگی داشت که مدیران وب سایت، وجود سایت فایل ایندکس در یک فرمت خاص را ارائه دهند. Jumpstation (در دسامبر 1993 به وسیله جاناتان فِلیشر ارائه شد) در این فهرست از یک ربات وب برای پیدا کردن صفحات وب و ایجاد فهرست آن استفاده می شد و از یک فرم به عنوان رابط برای برنامه query (پرس و جو) استفاده می کرد. بنابراین نخستین ابزار کشف منابع www برای ترکیب 3 تا از ویژگی های ضروری موتور جستجوی وب (ساماندهی، فهرست سازی و جستجو) بود. به واسطه منابع محدود موجود در سیستم عاملی که این جستجوگر در آن اِعمال می شود، فهرست بندی و بنابراین جستجو توسط آن محدود به عناوین و تیترهای موجود در صفحات وب که سامان ده با آنها مواجه می شود، است. یکی از اولین موتورهای جست و جوی مبتنی بر سامان دهی متن کامل، webcrawler بود که در سال 1994 ارائه شد. این موتور جستجو بر خلاف موتورهای جست و جوی قبلی به کاربران اجازه می داد هر کلمه ای را در هر یک از صفحات وب جست و جو کنند که از آن پس برای همه موتورهای جستجوی اصلی، یک مؤلفه استاندارد محسوب شد. (یعنی جستجوی کلمه در صفحات وب) هم چنین نخستین موتور جستجویی بود که به طور گسترده مورد استفاده عموم قرار گرفت. هم چنین در سال 1994، جستجوگر وب لای کاس «lycos» (که در دانشگاه کارینج مِلون راه اندازی شد) ارائه شد و یکی از مؤلفه های تجاری مهم شد. خیلی زود پس از آن موتورهای جستجوی زیادی به وجود آمدند و با هم رقابت کردند. این موتورهای جستجو شامل ماژلان (Magellan)، اکسیت (Excite)، infoseek، inktomi، Northern light و آلتاویستا یا اگزایت (Alta vista) بودند. Yahoo (یاهو) معروف ترین جستجوگر وب در میان مردم برای پیدا کردن صفحات وب مورد نظر آنها بود، اما عملکرد جستجوی آن بر اساس فهرست وب آن بود تا اینکه کپی های متن کلی صفحات وب را ارائه دهد. هم چنین جستجوگران اطلاعات می توانستند به جای جستجوی مبتنی بر کلمات اصلی، فهرست وب را مرور کنند. گوگل ایده فروش کلمات جستجو را در سال 1998 از یک شرکت جستجوی وب که goto.com (گوتو دات کام) نامیده می شد، اتخاذ کرد. این حرکت تأثیر زیادی بر کار جستجوی اطلاعات گذاشت، به طوری که یکی از پردرآمدترین و سودآورترین حرفه ها در اینترنت شد. در سال 1996، نت اسکیپ، موتور جستجوی مجزایی را مورد توجه قرار داد که به عنوان مرورگر وب نت اسکیپ (Netscape) کار کند. نت اسکیپ با 5 موتور جستجوی مهم سر و کار داشت، که هر یک از موتورهای جستجو در صفحه موتور جستجوی نت اسکیپ (Netscape) سالانه 5 میلیون دلار برای آن درآمد داشتند این 5 موتور جستجو عبارت بودند از یاهو، ماژلان، لای کاس، اینفوسیک Excite , (infoseek) هم چنین موتورهای جستجو به عنوان درخشان ترین ستاره ها در سرمایه گذاری در اینترنت شناخته شده بودند که در اواخر 1990 این سرمایه گذاری آغاز شد. چندین کمپانی به طور شکوهمندی وارد بازار شدند و در طی عرضه عمومی خدمات خود سود قابل توجهی به دست آوردند. بعضی از این شرکت ها مثل Northern Light موتور جستجوی عمومی خود را اعمال کرده اند و فقط بازاریابی شرکت را انجام می دهند. بسیاری از شرکت های موتور جستجو به حباب دات کام رسیدند یعنی به شکوفایی و رونقی گسترده سرمایه گذاری در این بازار که اوج آن در 1999 بود و در 2001 پایان یافت. حدود سال 2000، موتور جستجوی گوگل مشهور شد. این کمپانی با اِعمال ابتکاری که PageRank (پیچ ژنک) نامیده می شد، نتایج بهتری برای بسیاری از جستجوها ارائه می داد. این الگوریتم تکراری، صفحات وب را بر اساس تعداد و پیچ رنگ (ردیف صفحات) وب سایت ها و صفحات دیگر، ردیف می کند با این فرض که صفحات مفید و مطلوب با بسیاری از صفحات دیگر مرتبط هستند. هم چنین گوگل یک لیست کمینه ای برای موتور جستجوی خودش ارائه می دهد برعکس بسیاری از رقبای گوگل یک موتور جستجو را در پوزت وب قرار می دهند. در حقیقت موتور جستجوی گوگل آنقدر معروف شد که موتورهای spoof مثل Mystery seeker ظهور پیدا کردند. تا سال 2000، یاهو (yahoo) خدمات جستجو را بر اساس موتور جستجوی inktomis (انیکتو میس) ارائه می داد. یاهو inktomis را در سال 2002 کسب کرد و در سال 2003 اورتور (overtore) را (که در اختیار Allthe web و آلتاویستا Altavista بود) به دست آورد. یاهو تا سال 2004 به موتور جستجوی گوگل وابسته بود و از آن به بعد موتور جستجوی خودش را بر اساس تکنولوژی های مختلفی که به دست آورده بود، راه اندازی کرد. مایکروسافت نخستین جستجوی MSN (شبکه مایکروسافت) خود را در پاییز 1998 با استفاده از نتایج جستجوی انیکتومی (inktomi) آغاز کرد. در اوایل 1999 این سایت، فهرست برنامه هایی از لوک اسمارت (LOOKSMART) که با تکنولوژی های اینکتومی(inktomi) همراه بود را ارائه داد. در سال 1999 برای مدت زمان کوتاهی، جستجوی MSN از تکنولوژی های آلتاویستا(Altavista ) استفاده می کرد. در سال 2004، مایکروسافت تکنولوژی جستجوی خودش را پیاده کرد که به وسیله سامانده وب خودش که (msnboot) نامیده می شد، مدیریت می شد. مایکروسافت بِرَند جدیدی به موتور جستجوی خود داد به نام بینگ (Bing) که در اول ژوئن 2009 راه اندازی شد. در 29 جولای 2009 یاهو و مایکروسافت توافقی تغذیه می شد. در سال 2012 بعد از عرضه گوگل درایو (Google Drive) در 24 آوریل، گوگل ورژن بتای (Beta) open drive اُپن درایو را برای جستجوی فایل ها در سیستم ابری ارائه داد. (cloud یعنی ابری که مبحث جدیدی در سیستم های کامپیوتری هست.) برند جدید اپن درایو (open drive) تحت عنوان (Cloud Kite) شناخته می شود. از کلاود کایت (Cloud Kite) به این صورت تبلیغ می شود. «دائره المعارف عمومی بر اساس فایل های مشترک گوگل درایو بر اساس اصول شرکت جمعی، منبع یابی جمعی و راه حل جمعی» هم چنین کلاود کایت می تواند نتایج جستجو را از دیگر سرویس های ذخیره سازی ابری دیگر مثل Drop Box(دراگ باکس)، Sky drive(اِسکای درایو)، Evernote (اِوِرنوت)و Box (باکس)گزارش کند.

بخش های مجزای یك موتور جستجوگر عبارتند از: Spider یا عنکبوت Crawler یا خزنده Indexer یا بایگانی کننده Database یا پایگاه داده Ranker یا سیستم رتبه بندی

  • موتورهای جستجوی وب چگونه کار می کنند.

عملکرد موتور جستجوی وب به ترتیب زیر است 1- سامان دهی وب 2- فهرست بندی 3- جستجو موتورهای جستجوی وب با ذخیره کردن اطلاعات در تعداد زیادی از صفحات وب کار می کنند که این اطلاعات را از صفحه HTML بازیابی می کنند. این صفحات به وسیله ی یک سامان ده وب (که گاهی اوقات شبکه عنکبوتی نامیده می شوند)، یعنی یک مرورگر اتوماتیک وب که هر نوع مسیر ارتباطی (Link) را در سایت جستجو می کند، بازیابی می شوند. صاحب سایت می تواند با استفاده از متون رباتی (vobot T.X.T) استثناهایی را اعمال کند. سپس محتوای هر صفحه بررسی می شود تا مشخص شود چگونه فهرست بندی شود (برای مثال، می توان کلمات را از عناوین، عنوان ها، محتوای صفحات یا فیلدهای تخصصی استخراج کرد). اطلاعات مربوط به صفحات وب در یک پایگاه داده ای ایندکس برای استفاده بعدی در کواِری ها (پرس و جوها) از جانب کاربر می تواند فقط یک کلمه باشد. این ایندکس (فهرست) به پیدا کردن سریع اطلاعات مربوط به آن سؤال کمک می کند. بعضی از موتورهای جستجو مثل گوگل، همه بخش های صفحه منبع (که حافظه سریع نیز نامیده می شود) و همینطور اطلاعات مربوط به صفحات وب را ذخیره می کنند. در حالی که بعضی های دیگر مثل آلتاویستا (Altavista ) هر کلمه ای را که در هر صفحه ای پیدا می کنند ذخیره می کنند. «این صفحه پنهانی همیشه متن واقعی جستجو را نگهداری می کند زیرا این متن متنی بوده که واقعاً فهرست شده، بنابراین می تواند هنگامی که محتوای صفحه کنونی آپدیت شده و اصطلاحات جستجو در آن باقی نماندند، خیلی مفید باشد. ممکن است این مسئله به صورت شکل ملایم از رده خارج شدن پیوندهای صفحه وب درنظر گرفته شود و گوگل با مهار کردن آن، قابلیت استفاده آن را افزایش می دهد، زیرا انتظارات کاربرانی را که اصطلاحات را در صفحه وب بازگشتی جستجو می کنند برآورده می سازد. این کار خیلی تعجب کاربر را برنمی انگیزد زیرا کاربر معمولاً انتظار دارد که اصطلاحات مورد جستجوی او در صفحات بازگشتی وجود داشته باشند. افزایش ارتباط جستجو (یعنی افزایش ربط نتیجه ارائه شده با موضوع مورد جستجو) این صفحات پنهانی را خیلی مفید می سازد زیرا ممکن است آنها حاوی اطلاعاتی باشند که در جاهای دیگر موجود نباشد.» هنگامی که یک کاربر با استفاده از صفحه کلید یک سؤال (پرس و جو) را به موتور جستجو وارد می کند، موتور، شاخص آن را بررسی می کند و فهرستی از بهترین تطبیق صفحات وب را بر اساس معیارهای آن معمولاً با خلاصه کوتاه حاوی عنوان سؤال و گاهی اوقات بخش هایی از متن ارائه می دهد. این شاخص از اطلاعات ذخیره شده با داده ها و روشی که به وسیله آن، اطلاعات فهرست بندی می شوند، ساخته می شود. از سال 2007 موتور جستجوی گوگل دات کام (Google .com) به کاربر اجازه می دهد با کلیک کردن در آخرین ستون سمت چپ صفحه نتایج جستجوی اولیه، یعنی بر روی «show search Tools» (نشان دادن ابزار جستجو) تاریخ را جستجو کند و سپس محدوده تاریخی مورد نظر را انتخاب کند. «اکثر موتورهای جستجو، استفاده از اپراتورهای بولی (Boolean) مثل AND، OR و NOT را برای تعیین کواِری جستجو ساپورت می کنند. اپراتورهای بولی برای جستجوهای کلمه ای (حرفی) هستند که به کاربر اجازه می دهند اصطلاحاتی را که می خواهند جستجو کنند اصلاح کند یا گسترش دهد. این موتور کلمات یا عبارات را دقیقاً به همان صورتی که وارد شده اند، جستجو می کند. بعضی از موتورهای جستجو یک مؤلفه پیشرفته را ارائه می دهند که جستجوی نزدیکی نامیده می شود و به کاربران اجازه می دهد تا تمایز بین کلیدواژه ها را تعیین کنند. هم چنین جستجوی مبتنی بر مفهوم در جاییکه جستجو مستلزم استفاده از تحلیل آماری در صفحات حاوی لغات یا عباراتی که در جستجوی آنها هستید، است وجود دارد. همینطور جست و جوهای با زبان طبیعی به کاربر اجازه می دهد سؤال را به شکلی تایپ کند که آن را از یک انسان درخواست می کرد، سایتی مانند این ask.com خواهد بود.» مفید بودن موتور جستجو به ارتباط داشتن مجموعه جوابی که ارائه می دهد بستگی دارد. در حالی که میلیون ها صفحه وب وجود دارد که ممکن است حاوی یک کلمه یا عبارت خاص باشند، ممکن است بعضی از صفحات مرتبط تر، قابل اطمینان تر و رایج تر از بقیه باشد. اکثر موتورهای جستجو، روش هایی را برای درجه بندی (یا ردیف کردن) نتایج به کار می برند تا ابتدا بهترین جواب ها را ارائه دهند. اینکه چگونه موتور تصمیم می گیرد کدام صفحات بهترین مطابقت را با پرس و جو دارند و کدام ترتیب جواب ها باید ارائه شود در انواع موتورهای جستجو بسیار متفاوت است. همچنین با تغییرات کاربرد اینترنت به مرور زمان و با پیدایش تکنولوژی های جدید، این روش ها تغییر می کنند. دو نوع موتور جستجوی اصلی شکل گرفته اند. یکی شبکه ای از کلیدواژه های از پیش تعیین شده و مرتب شده به صورت سلسله مراتبی که انسان ها آنها را برنامه ریزی کرده اند. دیگری سیستمی است که با تحلیل کردن متونی که محل آنها را تعیین می کند، شاخص معکوس یا «ایندکس معکوس) را به وجود می آورد. شکل نخست برای انجام کار تا حد زیادی برخودِ کامپیوتر تکیه می کند. اکثر موتورهای جستجوی وب تجاری هستند و به وسیله درآمد تبلیغات ساپورت می شوند و بنابراین بعضی از آنها به آگهی دهندگان اجازه می دهند تا ارائه فهرست برنامه های خود را در ازای پرداخت اجرت بیشتر، در صفحه نتایج جستجو افزایش دهند. موتورهای جستجویی که برای پاسخ جستجوی خود پول قبول نمی کنند، با قراردادن آگهی های مربوط به موضوع مورد جستجو در کنار نتایج یا (جواب های) موتور جستجو، سود می برند. هر زمان که کسی بر روی یکی از این تبلیغات کلیک می کند، موتورهای جستجو، سود می برند (پول به دست می آورند.) سهم بازار در آوریل 2010 سهم بازار جهانی گوگل 3/86 درصد بود که به اوج خود رسیده بود. یاهو، بینگ و موتورهای جستجوی دیگر در آمریکا بیشتر از اروپا رایج هستند. بر طبق آمار Hitwise (هیت وایز) سهم بازار در آمریکا در اکتبر 2011 برای گوگل 38/65 درصد، بینگ (Bing) و یاهو 62/28 درصد و 66 موتور جستجوی باقیمانده 6 درصد بود. به هرحال، یک گزارش از Experion Hitwise که در اوت 2011 منتشر شد میزان موفقیت جستجوهای نمونه گیری شده در جولای را بیش از 80 درصد برای جست و جوهای یاهو و بینگ در بازدید کاربران از یک وب سایت ذکر کرد، در حالی که نرخ گوگل کمتر از 68 درصد بود. در جمهوری خلق چین، بایدو (Baidu) سهم 6/61 درصدی بازار را برای جستجوی وب در جولای 2009 به خود اختصاص داد. در فرمولاسیون روسیه، یاندکس در آوریل 2012 حدود 60 درصد سهم بازار را به خود اختصاص داد. در جولای 2013، گوگل سهم بازار جهانی و 88 درصد سهم بازار آکریکا را برای جستجوی وب به خود اختصاص داد.

بایاس ها (یا انحراف از معیارهای) موتور جستجو: اگرچه موتورهای جستجو برنامه ریزی شده اند تا وب سایت ها را بر اساس شهرت و وابستگی (ربط) آنها، ردیف کنند. بررسی های تجربی نشان دهنده انحراف از معیارهای مختلف سیاسی، اقتصادی و اجتماعی در اطلاعاتی که فراهم می کنند، است. این بایاس ها (انحراف از معیارها) می تواند نتیجه مستقیم فرآیندهای اقتصادی و تجاری (مثلاً شرکت هایی که با موتور جستجو آگهی می دهند، می توانند در نتایج جستجوی منظم، مشهورتر شوند و فرآیندهای سیاسی (مثل برداشتن جواب های جستجو برای تبعیت از قانون) باشد. هم چنین بایاس ها می توانند نتیجه روندهای خاص مثل الگوریتم های موتور جستجو باشد که مکرراً برای مستثنی کردن دیدگاه های نابهنجار و ارائه جواب های رایج تر طراحی می شوند. الگوریتم های شاخص گذاری موتورهای جستجوی مهم بیشتر سایت های u,s (آمریکایی) را پوشش می دهند تا اینکه وب سایت های کشورهای غیر آمریکایی را پوشش دهند. اکثر الگوریتم های موتور جستجوی بزرگ حق امتیاز (امتیاز انحصاری) تصویرسازی های هرزه از زنان، رنگین پوستان (سیاهپوستان و ...) و اعضای جامعه LGBT را دارند. گوگل بمبینگ (Google Bombing) مثالی از تلاش برای دستکاری نتایج جستجو بنا به دلایل سیاسی، اجتماعی یا تجاری است.

نتایج سفارشی شده و حباب های فیلتر: بسیاری از موتورهای جستجو مثل گوگل و بینگ نتایج سفارشی را بر اساس تاریخ فعالیت کاربر، ارائه می دهند. این منجر به ایجاد اثری می شود که حباب فیلتر نامیده می شود. این اصطلاح، پدیده ای را توصیف می کند که در آن، وب سایت ها از الگوریتم ها برای حدس زدن اینکه کاربر می خواهد چه اطلاعاتی را ببیند، بر اساس اطلاعاتی که در مورد کاربر دارند (مثللاً محل، کلیک های قبلی و جستجوهای قبلی) استفاده می کنند. در نتیجه، وب سایت ها تمایل دارند فقط اطلاعاتی را نشان دهند که مطابق با نقطه نظر قبلی کاربر است و به صورت مؤثر کاربر را در حبابی قرار می دهند که تمایل دارد اطلاعات متضاد را مستثنی کند. مثال های عمده از این دست عبارتند از نتایج جستجوی اختصاصی گوگل و روند خبری اختصاص فیس بوک. بر طبق نظر اِلی پریزر (Eli Pariser) که این واژه را وضع کرد، کاربران کمتر در معرض تضاد دیدگاه ها قرار می گیرند و از لحاظ فکری در حباب اطلاعاتی خود باقی می مانند. پرایزر مثالی ارائه می دهد که در آن یک کاربر در گوگل به دنبال معنای BP می گردد و خبرهای سرمایه گذاری در مورد نفت بریتانیا را به دست می آورد در حالی که فرد دیگری اطلاعاتی در مورد ریختن نفت در امواج شدید آب به دست می آورد و این دو صفحه جواب جستجو کاملاً متفاوت بودند. بر طبق نظر پرایزر، ممکن است اثر حباب معانی منفی برای گفتمان های شهری به همراه داشته باشد. از زمانی که این مسئله به وجود آمده، (رقابت موتورهای جستجو برای اجتناب از این مسئله به وسیله ردگیری نکردن یا حبابی کردن کاربران ایجاد شده است.

هنینجر، مورین.(1392). وب پنهان. تهران : کتابدار.