بازیابی اطلاعات
بازيابي اطلاعات
بازيابي اطّلاعات، فرايند يافتن اطّلاعات_(مدارک) مربوط به جستجوي کاربر در مجموعة مدارک است.
پيشرفتهاي اخير در علم الکترونيک، به توليد ابزارهاي مدرن براي ذخيره سازي انبوهي از اطّلاعات منجر گرديده است. انفجار اطّلاعات باعث شده است تا جامعة پژوهشگران در حوزة بازيابي اطّلاعات، امكان و شيوة فراخواني اطّلاعات درخواستي را در پنجاه سال اخير بسيار بهبود ببخشند . با سيستمهاي بازيابي اطّلاعات امروزي، امکان جستجو در چند ترابايت اطّلاعات، فقط در چند ثانيه وجود دارد نظام بازيابي اطّلاعات به سازماندهي، ذخيره سازي، بازيابي و نمايش اطّلاعات کتابشناختي مربوط است. سيستمهاي بازيابي اطّلاعات با هدف فراهم آوردن زمينة لازم براي پاسخگويي به جستجوهاي کاربر از طريق ارجاع به مدارک مربوط، طراحي ميگردد در چنين محيطي، مجموعه اي از مدارک مانند کتابها، مقاله ها، گزارشهاي تحقيقاتي و... وجود دارد، به اضافة گروهي از کاربران. نياز اطّلاعاتي کاربر در يک زمان خاص ميتواند شامل يک يا چند مدرک باشد.
در يکسيستم بازيابي اطّلاعات، معمول است که يک مدرک به وسيلة کليد واژهها يا واژههاي موضوعي نمايانده شود. کليد واژهها معمولاً در فرايند نمايه سازي، از متن يا چکيدة مدرک استخراج مي شوند.
تاريخچه ايجاد و گسترش نظامهاي بازيابي اطلاعات را ميتوان به چندين دوره نسبتاً روشن تقسيم كرد. قبل از سالهاي 1940 تهيه ميشد، نظامهاي بازيابي اطلاعات تنها از نوع دستي محض بود، يعني نمايهها و فهرستها به شكل چاپي و كارتي تهيه ميشد. اين وسايل بازيابي، پيشهمارا و غيرقابل دستكاري است و متكي بر سازماندهي خطي (تك بعدي) بوده و قابليتهاي بسيار محدودي براي جستوجو و بازيابي دارند. در سالهاي 1940، مساله ذخيره و بازيابي اطلاعات مورد توجه بسيار قرار گرفت اين مساله از زماني آغاز شد كه بشر سعي كرد محيط پيرامون خود را كنترل كند يا حداقل از فشارهاي خارجي كه باعث نابودي او مي شدند جلوگيري كند بتدريج در طول تاريخ جمع آوري، سازماندهي و نگهداري امري متداول و مرسوم شد .مهمترين پيشرفت در تاريخچه بازيابي اطلاعات يعني ابداع نظامهاي بازيابي كه پسهمارا و قابل دستكاري هستند روي داد. اين نظامها كه هنوز عمدتاً دستي بودند اين نظامهاي پسهماراي اوليه مزاياي قابل توجهي نسبت به پيشينيان خود عرضه كردند. آنها نياي مسلّم نظامهاي رايانهاي نوين به حساب ميآيند.
در سالهاي 1950 اشكال اوليه خودكارسازي نمايهسازي پسهمارا توسط نظامهاي دادهپردازي برگه منگنه پديد آمد. . سالهاي 1960 دوران بازيابي رايانهاي به شيوه گسسته، پردازش دستهاي و نواري را تشكيل ميداد. در سالهاي 1970، با توسعه سختافزارها و نرمافزارهاي رايانهاي، امكان انجام جستوجوهاي پيوسته يا تعاملي فراهم آمد. نظامهاي پيوسته بازيابي، علاوه بر افزايش سرعت، امكان دريافت بازخورد جستوجو در روند جستوجو و، در صورت لزوم، تغيير و اصلاح آن را به استفاده كننده ميدادند. مهمترين مزيت بازيابي پيوسته امكان دسترسي از راه دور بود. د. از ابتداي سالهاي 1980، توسعه و گسترش ذخيره و بازيابي اطلاعات به شكل متن كامل از جمله تحولات و رويدادهاي مهمي است كه شكل گرفته است. هر چند انديشهها و تلاشهاي مربوط به اين شكل از ذخيره و بازيابي به سالهاي ،1970 زمان اولين تلاشها براي واردكردن متون حقوقي در رايانه و جستوجوي آزاد بر روي آن متون، باز ميگردد با ازدياد رايانههاي شخصي و پيدايش رسانههاي ذخيرهسازي نوري مانند ديسك فشرده و نيز رواج نشر روميزي (دي.تي.پي.) بود كه ايجاد پايگاههاي تمام متن و نيز فنون بازيابي از متن عموميت بيشتري يافت و در دسترس استفادهكنندگان قرار گرفت. بازيابي در اين نوع نظامها كه عمدتاً مبتني بر استفاده از زبان طبيعي است ، لكن براي بازدهي بيشتر از مزاياي هر دو نظام به طور همزمان استفاده ميشود. ذخيره و بازيابي اطلاعات.
فعاليتهايي كه براي تحليل و سازماندهي مدارك و منابع صورت ميگيرد ذخيره اطلاعات، و تلاشهايي كه براي يافتن يك يا چند مدرك از ميان انبوه مدارك ذخيره شده انجام ميشود بازيابي اطلاعات نام دارد. نظامهايي كه اين جريانها در آنها روي ميدهد نظامهاي ذخيره و بازيابي اطلاعات خوانده ميشود. نظامهاي ذخيره و بازيابي اطلاعات معمولاً به منظور دسترسپذير كردن مجموعهاي از منابع اطلاعاتي براي استفادهكنندهاي كه مايل به كسب اين اطلاعات است طراحي ميگردد. اطلاعاتي كه در نظامهاي ذخيره و بازيابي اطلاعات ذخيره ميشود يا صرفاً شامل دادههاي كتابشناختي است، مانند مشخصات كتابها، اسناد و مدارك، و مقالههاي مجلات؛ يا اصل مدرك است كه همراه مشخصات آن عرضه ميشود. حالت اخير پايگاه دادههاي تمام متن نام دارد. نظامهاي بازيابي اطلاعات را در معناي وسيع ميتوان براي دستيابي به مجموعههاي تصويري، فيلم، پروانههاي ثبت اختراع، و جز آن نيز مورد استفاده قرار داد. در هر حال، هدف هر نظام ذخيره و بازيابي اطلاعات آن است كه در اسرع وقت بيشترين اطلاعات مرتبط با نياز استفادهكننده را ـ آنطور كه در درخواست وي ذكر شده ـ در اختيار بگذارد. در چند دهه اخير بازيابي رايانه اي مورد توجه خاصي قرار گرفته كه علت آن را مي توان 4 عامل دانست: افزايش اهميت زمان، تغيير در كميت و كيفيت اطلاعات، تغيير در ماهيت نيازهاي اطلاعاتي، تغيير در اهميت منابع اطلاعاتي.
امروزه رشد اهميت حياتي اطلاعات، لزوم صرفه جويي در وقت و هزينه جستجوكنندگان، جوان بودن شبكه هاي گسترده بخصوص از لحاظ سرعت، لزوم دستيابي سريع، جامع و مانع به اطلاعات خاص مورد نياز از جمله مسايل مهمي هستند كه اهميت يك فرايند بازيابي حساب شده، كنترل شده و كامل را آشكار مي سازند. مي توان گفت هنوز هم مساله بازيابي موثر همچنان در حد وسيعي بصورت حل نشده باقي مانده است و هدف يك استراتژي اتوماتيك بازيابي، بدست آوردن تمام مدارك مربوط و در عين حال بازيابي كمترين مدارك نامربوط تا حد امكان است، بعبارتي مفهوم ربط در مركز مساله بازيابي اطلاعات قراردارد.
هر سيستم بر سه محور1 سازماندهي، 2بازيابي و3 نمايش اطلاعات استوار است چرخه عمل بازيابي اطلاعات شامل 7 مرحله زير است:
1. انتخاب يك بانك اطلاعاتي براي انجام جستجو: بر مبناي بانكهاي موجود و نياز اطلاعاتي كاربر، يك بانك اطلاعاتي انتخاب مي شود آنگاه سيستم خلاصه اي از اطلاعات، محدوده تاريخي ركوردها، تعداد ركوردها، قيمت و … را در اختيار كاربر قرار مي دهد. 2. جستجو براي واژه هاي مورد نظر در بانك واژگان: قبل از انجام جستجو براي فرمول بندي جستجو، كاربر مي تواند هريك از واژه نامه هاي موجود در سيستم را مورد استفاده قرار دهد. واژه نامه ها نقش بسيار مهمي در بازيابي اطلاعات ايفا مي كنند. 3. ايجاد فرمول جستجو و انجام جستجو: فرمول بندي صحيح و دقيق نيازهاي اطلاعاتي كاربران وابسته به امكانات بازيابي اطلاعات براي فرمول بندي مي باشد. هرچه قابليتهاي بيشتري فراهم آورده شود، كاربر راحت تر و آسانتر مي تواند به بيان نيازهاي خود بپردازد. 4. نمايش و بازبيني ركوردها: بازخورد خوب سيستم در اين قسمت نقش مهمي در هدايت كاربر براي رسيدن به اطلاعات مورد نظرش دارد. در اين قسمت سيستم بايد بتواند به سوالات زير پاسخ دهد: - چه ركوردهايي با نياز اطلاعاتي كاربر مطابقت دارند؟- آيا مجموعه ركوردهاي بازيابي شده با نيازهاي اطلاعاتي كاربر مطابقت دارند؟ و .... 5. سفارش مدرك 6. درخواست براي اطلاعاتي درباره سيستم بازيابي اطلاعات 7. برقراري پارامترهاي نمايشي و ارتباطي در مجموعه: كه چهار مقوله بايد به عنوان مهم ترين اهداف مدنظر طراحان سيستمهاي بازيابي اطلاعات قرار گيرند: بهينه سازي انتخاب واژكان جستجو توسط كاربران، بهينه سازي فرمول جستجوي كاربران، بهينه سازي تعداد ركوردهاي بازيابي شده، بهينه سازي ضريب دقت و بازيابي يا بهينه سازي كلي بازيابي اطلاعات. در نهايت بايد اين نكته را خاطرنشان كرد كه جستجوگران باتجربه و متخصصان بازيابي اين نكته را ميدانند كه جستجو مستلزم صرف وقت و هزينه است و در اين مسير بايد با اصلاح، بازنويسي و تكرار چرخه جستجو به نتايج دلخواه دست يافت. .
در روند ذخيره و بازيابي اطلاعات دو مرحله متمايز تحليل اطلاعات و جستوجوي اطلاعات را ميتوان مشخص ساخت.
تحليل اطلاعات. فرايند تعيين محتواي موضوعي مدارك و تبديل آن به زبان نظام (يا مجموعهاي از اصطلاحات نمايهاي) را تحليل اطلاعات گويند... واژگان مهار شده. به منظور ايجاد يكدستي و هماهنگي و نيز سهولت در بازيابي مدارك، معمولاً واژهها يا اصطلاحاتي را كه مبيّن موضوع مدرك هستند از سياههاي مستند به نام واژگان مهار شده انتخاب ميكنند. فهرستهاي سرعنوان موضوعي، طرحهاي ردهبندي، و اصطلاحنامهها سه نوع واژگان مهار شده مهم هستند. زيرا در اين منابع تلاش شده است تا اصطلاحات به صورت الفبايي و نيز به شكل نظام يافته ارائه شود سازماندهي فايلها: در نظامهاي رايانهاي ذخيره و بازيابي اطلاعات، دادهها معمولاً در قالب ركورد ذخيره ميشوند و مجموعهاي از ركوردها يك فايل را تشكيل ميدهند.. براي سازماندهي فايل به طور معمول چندين روش وجود دارد كه سادهترين آنها فايل ترتيبي است. يافتن ركوردهاي خاص در اين گونه فايلها منوط به آن است كه يكايك ركوردها از ابتداي فايل بررسي شود. چنانچه با حجم زيادي از اطلاعات روبهرو باشيم استفاده از اين نوع فايل بسيار وقتگير است. در عوض، اين ساختار حداقل فضاي ذخيرهسازي را به خود اختصاص ميدهد و اجراي آن نيز نسبتاً آسان است. 2- نوع ديگر، فايل شاخصدار يا فايل مقلوب است. در اين نوع ساختار، كه در نظامهاي معروف ذخيره و بازيابي اطلاعات به وفور مورد استفاده قرار گرفته، به ازاي فيلدهاي شاخص يا فيلدهايي كه در نظر است بر روي آنها جستوجو صورت گيرد، فايل يا فايلهاي جداگانهاي به نام فايل شاخص يا فايل مقلوب ايجاد ميشود. هنگام بازيابي، ابتدا عبارت مورد نظر در فايل مقلوب جستوجو ميشود و سپس براساس شماره مدرك يا نشاني كه در مقابل آن عبارت وجود دارد، ركورد كامل از فايل اصلي بازيابي ميگردد. در اين ساختار، به جهت آنكه حداقل دو فايل ايجاد ميشود فضاي بيشتري اشغال ميگردد، ولي در مقابل، سرعت جستوجو و بازيابي به خصوص در پايگاههاي حجيم تا حد زيادي بالا ميرود. 3- سومين نوع را فايل با دستيابي مستقيم مينامند دارد. در اين ساختار، امكان نوشتن يا خواندن ركورد بدون در نظر گرفتن محل آن وجود دارد. متقابلاً نقطه ضعف آن در سختي پيادهسازي و اجراي آن است. ساختار ديگر، ساختار زنجيرهاي است و ويژگي آن در اين است كه همه اقلامي كه نشاندهنده شناساگر فرضي مشتركي هستند با رابطها يا اشارهگرهايي مناسب، به هم زنجير ميشوند. جستوجوي اطلاعات. در اين مرحله، وظيفه نظام ذخيره و بازيابي، بررسي و شناخت درخواست استفادهكننده، پويش يا جستوجو در بانك اطلاعاتي، و يافتن و نمايش ركوردهايي است كه با درخواست ارائه شده انطباق دارد. دستيابي به اين هدف، يعني يافتن اطلاعاتي كه نياز استفادهكننده را به طور قطع برطرف كند عملاً كار آساني نيست، زيرا از يك سو استفادهكننده به طور دقيق نياز اطلاعاتي خود را نميداند و در برخي اوقات نيز عليرغم آگاهي به نياز اطلاعاتي خود، ممكن است نتواند آن را با عبارتهاي مناسب بيان كند. از سوي ديگر، ممكن است اصطلاحات يا عباراتي كه به عنوان موضوع مدارك در نظر گرفته شده چندان دقيق نباشند و نتوانند تصوير كاملي از محتواي مدرك بدست دهند. بدين سبب گفته ميشود كه وجه خروجي نظام بازيابي اطلاعات (پاسخگويي به درخواست استفاده كننده) همواره پيچيدهتر از وجه ورودي آن است و بدين لحاظ بايد بخش خروجي مورد توجه بيشتري قرار گيرد شيوههاي بازيابي اطلاعات را ميتوان در نگاه كلي به دو دسته، نظامهاي مبتني بر انطباق مطلق و نظامهاي مبتني بر انطباق نسبي، تقسيم كرد (153:3). فنون انطباق مطلق در حال حاضر در بسياري از نظامهاي سنتي بازيابي اطلاعات مورد استفاده قرار ميگيرد. پرسوجوها در اين روش معمولاً با استفاده از عملگرهاي بولي تدوين ميشوند و، براي بازيابي، تنها انطباق واژههاي پرسش با عبارتهاي موجود در مدرك كفايت ميكند. در انطباق نسبي يا انطباق برتر اين امكان وجود دارد كه نظام بازيابي را بتوان با ورود رشتهاي از اصطلاحات كه بيانگر نياز اطلاعاتي هستند، بدون استفاده از عملگرهاي بولي، جستوجو كرد. در اين نوع، نظام دنبال قطعاتي از متن ميگردد كه بهترين انطباق را با رشته ورودي داشته باشد. بنابراين، اگر رشته اصلي شامل پنج كلمه باشد و مدركي در بانك اطلاعاتي نيز كلّ پنج واژه را دربرگيرد اين مدرك حداكثر وزن ممكن را گرفته و در رأس سياهه موارد بازيابي رشته قرار ميگيرد . بر اين اساس، الگوها و فنون مختلفي براي بازيابي شكل گرفته است كه به عنوان مدلهاي كلاسيك و مدلهاي پيشرفته از آنها ياد ميشود. مدلهاي كلاسيك بازيابي شامل مدل بولي، فضاي بردار ، و مدلهاي احتمال است. مدلهاي پيشرفته، علاوه بر مدلهاي فوق، شامل بازيابي براساس منطق مشكك (فازي)[ نمايهسازي معنايي نهفته، شبكههاي استنتاجي، و نيز الگوهاي مبتني بر مرور شامل نظامهاي بازيابي فرامتن است مدل بولي. اولين روش بازيابي كه در نظامهاي اطلاعاتي اجرا شد مدل بولي بود كه در آن اصطلاحات پرسوجو با عملگرهاي بولي بيان شده و با نمايه مقلوب مقايسه ميگرديد. توانايي عملگرهاي بولي براي تركيب مفاهيم اجزا (AND) و مترادف (OR) و نيز زمان پاسخ سريع، اين مدل را مدلي عام براي نظامهاي بازيابي ساخت. با فراگيرتر شدن نظامهاي بازيابي بولي، تدوين پرسوجوهاي مؤثر براي عموم افرادي كه با منطق آشنا نبودند دشوار گرديد. علاوه بر آن، نظام بولي اغلب تعداد مدارك را با توجه به ماهيت حساس منطق خود كه پاسخي انعطافناپذير در برابر بود يا نبود اصطلاحي واحد نشان ميداد بازيابي ميكرد. مدل فضاي بُرداري.: يکي از الگوريتمهاي مهمي که در بازيابي اطّلاعات، کاربرد بسيار دارد، الگوريتم فضاي برداري است که مي کوشد تمام مدارک را در مجموعه و جستجوهاي کاربر به صورت بردارها نشان دهد و ضريب تشابه ميان بردارهاي مدرک و بردار جستجو را جهت بازيابي مدرک مربوط، محاسبه نمايد
مدل فضاي برداري يکي از مدلهاي بازيابي اطّلاعات است که در سطح وسيعي به كار ميرود در اين مدل، هر مقولة اطّلاعاتي شامل متون ذخيره شده و هر تقاضاي اطّلاعاتي زبان طبيعي به صورت مجموعة بردارهايي از اصطلاحات نگهداري ميشوند. به طور نظري، اين اصطلاحات ميتوانند از واژگان کنترل شده انتخاب شوند
. در اين مدل، مدارك و پرسوجوها به صورت بردارهايي در فضايي سه بعدي در نظر گرفته ميشود كه هر بعد با مدخلي در نمايه مقلوب متناظر است. شناخته شدهترين وزن اصطلاحي، بسامد مقلوب مدرك ناميده ميشود كه با بسامد مجموعه (تعداد مدارك مجموعهاي كه در آن يك اصطلاح خاص وجود دارد) تغيير ميكند. مدلبرداري، سياههاي ترتيبي از مدارك براساس مشابهت آنها با پرسش، با در نظر گرفتن زاويه ميان بردار مدرك و بردار پرسش، به عنوان مقياس مشابهت ارائه ميدهد. علاوه بر فرمولهاي توزين اصطلاح، فرمولهاي ديگري نيز براي محاسبه مشابهت "پرسش ـ مدرك" پيشنهاد شده است. آزمايشها نشان داده است كه انتخاب مقياس جديد مشابهت ميتواند بر عملكرد بازيابي تأثير قابل ملاحظهاي داشته باشد. يكي از مقياسهاي مشابهت كه به طور گسترده مورد استفاده قرار گرفته مشابهت كسينوسي است كه حاصل ضرب دروني ميان عناصر عادي سازي شده بردار در طول بردارهاست. گونه ديگري از مدلبرداري مدل خوشهاي است كه در آن با محاسبه مشابهت برداري مدرك به مدرك و با استفاده از معيارهاي خوشهبندي گروهي از مدارك شكل ميگيرد. معيارهاي خوشهبندي مشخص ميكند چه چيز خوشهاي از مدارك را تشكيل ميدهد. برخلاف مدل فضاي برداري كه در آن بردار هر پرسش با بردار هر مدرك مقايسه ميشود، در اينجا، بردار هر پرسش با بردار مركز خوشه، يعني برداري كه خوشه را به صورت كلي ارائه ميكند، مقايسه ميگردد. مزيت رويكرد خوشهاي زماني جلوهگر ميشود كه با مجموعه مداركي به كار رود كه بتواند خوشههاي فشرده تشكيل دهد. همچنين، اين مدل در محيطي مؤثر شناخته ميشود كه خوشهها تمايل به ارائه مشترك مدارك مرتبط داشته باشند. با اين حال، هيچ تضميني وجود ندارد كه مجموعه مدارك مفروض ضرورتاً به ساختار خوشهبندي مفيدي بينجامد، و حتي در موارد مفيد، هزينه محاسبه ساخت، نگهداشت، و جستوجو در خوشههاي كوچك و همبسته ممكن است به طور سرسام آوري بالا باشد. به طور کلي، ميتوان مزيتهاي اصلي مدل فضايي برداري را چنين بيان نمود: 1-طرح وزن دهي به اصطلاح در اين مدل، عملکرد بازيابي را بهبود مي بخشد. 2-استراتژي تطبيق جزئي اين مدل، بازيابي مدارکي را مجاز مي شمارد که به شرايط جستجو نزديک هستند -3 فرمول رتبه بندي کسينوسي آن، مدارک را بر طبق درجة تشابهي که به موضوع جستجو دارند، مرتّب ميكند. از ميان استراتژيهاي مختلف بازيابي اطّلاعات، مدل فضاي برداري به عنوان يکي از معتبرترين تکنيکهاي بازيابي به طور ساده بيان و نشان داده شد که مدل برداري يک استراتژي رتبه بندي است كه با مجموعه هاي عمومي بهبودپذير است. به اما به طور کلّي به نظر ميرسد مدل برداري، يا برتر بوده و يا تقريبًا به خوبي ساير روشهاي موجود عمل مي نمايد. به علاوه، مدل برداري، آسان و سريع است. با توجه به اين دلايل، مدل برداري يک مدل بازيابي معتبر است مدل احتمالي. اين مدل نخستين بار توسط استيو رابرتسن و كارن اسپارك جونز در سالهاي 1970 معرفي شد. اين مدل به لحاظ اينكه مدارك و پرسشها را به صورت بردار عرضه ميكند شبيه مدلبرداري است، اما به جاي بازيابي مدارك براساس ميزان مشابهت با پرسش، مدارك را براساس احتمال ارتباطشان با پرسش بازيابي ميكند. احتمال ربط مدركي خاص به پرسش را ميتوان با جمع اوزان ربط اصطلاحات آن مدرك، يعني برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرك مرتبط، و نه در مدرك غيرمرتبط، محاسبه كرد. در مدل بازيابي كلاسيك احتمالي، اين احتمالات اصطلاح از طريق مجموعهاي نمونه از مدارك و پرسشها همراه با قضاوت مرتبط مربوط به آن تخمين زده ميشود. با وجود اين، اجراي فرايند تخمين به صورت عملياتي مشكل است، زيرا جمعآوري دادههاي ربط لازم قبل از جستوجوي واقعي عملاً غيرممكن است. در نتيجه، براي تخمين احتمال اصطلاح، معمولاً، در اين مدل از بازخورد ربط استفاده ميكنند فرامتن. شكل ديگري كه براي جستوجو و بازيابي اطلاعات ارائه شده، و به خصوص در سالهاي اخير با رشد شبكه وب گسترش يافته است، بازيابي فرامتني است. روشهايي كه تاكنون ذكر شد عمدتاً بر اين محور استوار است كه كاربر پرسش خود را در قالب واژهها و عباراتي به نظام ارائه كند تا نظام، پس از جستوجو، تعدادي مدرك را به عنوان نتيجه جستوجو بازگرداند. در مقابل اين نظامها كه ميتوان آنها را نظامهاي پرسش مدار ناميد، نظامهاي فرامتن تلاش ميكنند با ايجاد پيوندهاي مفهومي ميان مدارك و فراهمآوردن امكان مرور و راهبري، كاربر را در رسيدن به مدرك مورد نظر ياري دهند. از اين دو نوع رويكرد، به ترتيب، به حركت از كجا به چه (كاربر ميداند در كجاي بانك اطلاعاتي است و ميخواهد بداند در آنجا چه چيز وجود دارد) و حركت از چه به كجا (كاربر ميداند چه چيزي ميخواهد و ميخواهد بداند آن چيز را در كجا ميتواند بيابد) تعبير شده است (300:4). در نظامهاي فرامتن، هر كدام از مدارك يا الام اطلاعاتي، يك گره و رابطه ميان گرهها، پيوند ناميده ميشود. در هر گره يك يا چند واژه يا عبارت برجسته وجود دارد كه آن را لنگرمينامند و زماني كه از سوي كاربر انتخاب يا فعال ميشوند، با استفاده از پيوندها، كاربر را به گره مرتبط ديگري هدايت ميكنند. گرهها علاوه بر متن ميتوانند شامل قطعات صوتي و تصويري مانند موسيقي، فيلم، عكس، و جز آن نيز باشند. ارزيابي نظام بازيابي.
در بحث از ارزيابي نظام بايد به سه پرسش پاسخ گفت: 1) دليل ارزيابي نظام چيست؟ 2) چه عنصري از نظام ارزيابي ميشود؟ 3) ارزيابي نظام چگونه يا به چه شيوهاي صورت ميگيرد؟
ارزيابي نظام به منظور سنجش منافع يا زيانهايي كه از نظام بازيابي حاصل ميشود و نيز براي سنجش هزينه و سودمندي نظام صورت ميگيرد. در ارزيابي معمولاً عناصر زير كه گوياي توانايي نظام در رفع نياز استفادهكننده است مورد توجه قرار ميگيرد: 1) پوشش مجموعه، يا تعداد مدرك مرتبطي كه در هر مجموعه وجود دارد؛ 2) زمان پاسخگويي، يعني فاصله متوسط ميان زمان درخواست جستوجو و بهدستآوردن پاسخ؛ 3) شكل خروجي، يعني شكل مدارك بازيابي شده، شماره مدرك، مآخذ كتابشناختي، مآخذ همراه با چكيدهها، متن كامل، و جز آن؛ 4) تلاش استفاده كننده، يعني كوششي كه استفادهكننده در مرحله خروجي (جدا كردن مدارك مرتبط از نامرتبط)، در مرحله درخواست (بيان هر چه دقيقتر پرسش يا نياز اطلاعاتي)، و در مرحله تدوين راهبرد جستوجو (بررسي راهبرد تدوين شده و اصلاح آن) انجام ميدهد؛ 5) جامعيت، يعني توانايي نظام در بازيابي متون مرتبط؛ و 6) مانعيت، يعني توانايي نظام در بازيابي نكردن متون نامرتبط. گفته ميشود كه موارد 1 تا 4 به راحتي قابل ارزيابي است ليكن اين جامعيت و مانعيت است كه در كنار يكديگر سودمندي نظام را نشان ميدهند. در واقع اين دو معيار در كنار هم توانايي فيلتري نظام را بيان ميكنند و استفاده از هر كدام از آنها به تنهايي چندان كارساز نيست (55:3-61؛ 204:6). در هر نظام بازيابي، مطلوب آن است كه نسبت جامعيت و مانعيت هر دو 100 درصد باشند، يعني نظام بتواند كليه مدارك مرتبط موجود را بازيابي كند و در عين حال هيچ يك از مدارك غيرمرتبط را را نيز ارائه ندهد. اما رسيدن به چنين آرماني عملاً غيرممكن است، و در واقع اين مسئله يكي از مهمترين تفاوتهاي ميان نظامهاي ذخيره و بازيابي اطلاعات و نظامهاي مديريت پايگاه دادهها را تشكيل ميدهد. جامعيت و مانعيت با يكديگر رابطهاي معكوس دارند، يعني هر گونه تلاشي براي افزايش مانعيت منجر به كاهش جامعيت و هرگونه كوششي براي افزودن جامعيت باعث كاهش مانعيت ميشود. بنابراين، در عمل بايد به نسبتي معقول ميان اين دو رسيد. نياز استفادهكننده يكي از عوامل مؤثر در تعيين اين نسبت است.
ايجاد نظامهاي بازيابي اطلاعات در مقياس وسيع بسيار پرهزينه است. هزينه هاي كاوش قابل ملاحظه هستند و زمان قابل توجهي براي جستجوي اطلاعات در پايگاهها توسط متخصصان اطلاع رساني و كاربران نهايي صرف مي شود، و از همه مهمتر اينكه يك كاوش در بهترين حالت ممكن مي تواند آنچه را كه مورد جستجو است بيابد. درحاليكه اطلاعات ديگر حذف مي شوند. و در بدترين حالت جستجو مي تواند اطلاعات بي ارزش را ارائه دهد و در عين حال موارد مورد نياز را از دست بدهد. بنابراين مهم است بدانيم كدام نظامها و كاوشها و جستجوگران بيش از همه موثرند.
اطلاع يابي فعاليتي عملي با هدفي بسيار دقيق و مشخص است با وجود اين، تلاشهايي كه در جهت ارزيابي اين فعاليت انجام شده برگرفته از كاوشهاي واقعي توسط جستجوگران واقعي براي پاسخ به نياز اطلاعاتي واقعي بوده است.. براي قرار دادن مساله ارزيابي در يك چشمانداز مي توان سه سوال را مطرح نمود: 1) چرا ارزيابي مي كنيم؟ 2) چه چيزي را بايد ارزيابي كرد؟ 3) چگونه بايد ارزيابي كرد؟ كه پاسخ به اين سوالات به خوبي زميته ارزيابي را پوشش خواهد داد. پاسخ به سوال اول جنبه اجتماعي و اقتصادي دارد. جنبه اجتماعي آن اساسا وابسته به طراحي براي ايجاد يك معيار سنجش اثربخشي در سيستم هاي بازيابي اطلاعات است. براي مثال كاربران از تعويض منابع سنتي اطلاعات با يك سيستم كاملا اتوماتيك و تعاملي بازيابي اطلاعات چه سود يا زياني خواهند برد؟ مطالعات در اين زمينه در حال انجامند اما به نتيجه رسيدن كمي دشوار است چرا كه براي برخي از سيستمهاي بازيابي، اثربخشي ممكن است راحت تر از ساير سيستمها اندازه گيري شود. جنبه اقتصادي به اين امر وابسته است كه استفاده از يكي از اين سيستمها چقدر براي شما هزينه دارد و آيا اصلا ارزش اين ميزان هزينه را دارد يا نه؟ كه در اين مورد هم به نتيجه رسيدن دشوار است چرا كه مثلا هزينه هاي كامپيوتري به راحتي اندازه گيري مي شوند اما دستيابي به هزينه نيروي انساني فعال در اين زمينه مشكل تر است. بنابراين ارزشمند بودن يا نبودن بستگي به خود كاربر دارد. اكنون مشخص شد كه در ارزيابي يك سيستم بازيابي اطلاعات اساسا با تهيه اطلاعات مواجهيم و كاربر است كه مي تواند تصميم گيري كند كه 1) آيا آن سيستم را مي خواهد؟ (جنبه اجتماعي) و 2) آيا از نظر اقتصادي اين سيستم ارزشمند است يا خير؟ بعبارت ديگر وقتي كه درخواستي مطرح مي شود و استراتژي جستجو شكل مي گيرد، معيارهاي ارزيابي مشخص كننده اين هستند كه آيا اين درخواست از نوع ارزشمند است. سوال دوم (چه چيزي را بايد ارزيابي كنيم؟) ما را به اين سمت هدايت مي كند كه چه چيزهايي را مي توانيم اندازه گيري كنيم كه نشاندهنده توانايي سيستم در برآوردن نيازهاي كاربر باشد. در اين مورد 6 كميت ذكر شده اند كه عبارتند از: 1) پوشش مجموعه كه دامنه شمول منابع مرتبط در سيستم است. 2) عقب ماندگي زمان كه ميانگين مدتي است ميان زماني كه درخواست جستجو شكل مي گيرد و زماني كه پاسخي ارائه مي شود. 3) شكل ارائه برونداد. 4) تلاشي كه از سوي كاربر براي بدست آوردن پاسخ به نياز اطلاعاتي اش صورت مي گيرد. 5) جامعيت سيستم كه نسبت منابع مرتبطي است كه به صورت واقعي براي پاسخگويي به يك درخواست جستجو بازيابي مي شوند. 6) مانعيت سيستم كه نسبت آن دسته از مواد بازيابي شده اي هستند كه واقعا مرتبط با درخواست كاربر مي باشند. ادعا شده كه موارد 1 تا 4 بسهولت قابل تشخيص اند و جامعيت و مانعيت هستند كه در آنچه كه ما آن را بازيابي كارآمد سيستم مي ناميم موثر هستند. بعبارت ديگر بازيابي مدارك مرتبط و در عين حال جلوگيري از بازيابي مدارك نامربوط مقياسي است براي سنجش تواناييهاي سيستم. امروزه مشخص شده است كه هرچه سيستم كارآمدتر باشد بيشتر استفاده كنندگان را راضي خواهد كرد، همچنين مشخص شده است كه جامغيت و مانعيت براي سنجش كارآمدي يك سيستم كميتهايي مناسب و در عين حال كافي هستند. افزايش فزاينده موتورهاي كاوش وب، كتابخانه هاي ديجيتالي و سيستمهاي بازيابي اطلاعات و توسعه ابزارهاي جديد كاوش وب، نيازمند توسعه مقياسهاي ارزيابي جديدتر و بيشتر ارزيابي اطلاعات است. در گذشته بحث هاي بسياري در مورد اينكه آيا جامعيت و مانعيت كميتهاي مناسبي براي اندازه گيري كارايي هستند يا خير، وجود داشت. يكي از معيارهاي اينچنيني بازيافت و ريزش بود، با وجود اين هريك از اين معيارها نيز امروزه در برخي از جنبه ها كارايي دارند. مزاياي پايه ريزي ارزيابي بر جامعيت و مانعيت عبارتند از: 1) جفت كلماتي هستند كه بيشترين استفاده را دارند. 2) كميتهايي هستند كه معني آنها به خوبي درك شده است. سوال آخر (چگونه ارزيابي مي كنيم؟) پاسخ هاي تكنيكي بسياري دارد، ولي جالب است يادآوري شود كه تكنيكهاي سنجش كارايي بازيابي تا حد بسيار تحت تاثير استراتژي بازيابي اتخاذ شده و شكل برونداد آن قرار دارد. معيارهايي براي سنجش ارزيابي بازيابي اطلاعات
1) معيارهاي ارزيابي بازيابي اطلاعات بايستي براي جويندگان اطلاعات حائز اهميت و معنادار باشد.
2) آنچه كه براي جويندگان اطلاعات مهم است در نهايت حل شدن مشكلات اطلاعاتي شان است. 3) جويندگان اطلاعات براي رفع مشكل اطلاعاتي خود، در ميان فرايندهاي جستجوي اطلاعات تغيير مكان مي دهند. 4) اگر جويندگان اطلاعات با سيستمهاي بازيابي اطلاعات در تعامل باشند سنجش ارزيابي بازيابي اطلاعات بايستي در رابطه با تاثير سيستم بر كاربران و نيازهاي اطلاعاتي آنها باشد. 5) معيار ارزيابي بازيابي اطلاعات بايستي يك ابزار خودارزيابي باشد. قبل از پرداختن به بحث در مورد جامعيت و مانعيت لازم است در مورد مفهوم ربط توضيح مختصري داده شود: ربط يك مفهوم اساسي در اطلاع رساني است و به عنوان معيار اصلي ارزيابي اثربخشي بازيابي اطلاعات و عامل تاثير گذار بر طرح عملي و ارزيابي نظامهاي بازيابي اطلاعات عمل مي كند. ربط مفهومي پيچيده دارد و در اواخر دهه 1950 به وضوح مشخص شد كه انواع مختلف ربط وجود دارد. براي نظام بازيابي اطلاعات دو مقياس به كار گرفته شده است: جامعيت و مانعيت. دليل استفاده از اين معيارها اين است كه كاربران به طور متوسط تمايل به بازيابي مقادير زيادي از موضوعهاي مربوط به هم دارند (كه جامعيت بالايي را ايجاد مي كند) اين در حالي است كه مايلند به طور همزمان بخش اعظمي از موضوعهاي غير مرتبط (كه مانعيت بالايي را ايجاد مي كند) حذف شود.
جامعيت (بازيافت)
جامعيت مقياسي از اثر بخشي در بازيابي كليه اطلاعات جستجو شده در يك پايگاه اطلاعاتي است. يعني كاوش و جستجوي كامل و مبسوط. هنگامي جامعيت كامل محقق مي شود كه هر پيشينه منفرد كه مي بايست در رابطه با يك پرسش خاص يافت شود حتما رديابي گردد.
تعداد پيشينه هاي مرتبط بازيابي شده مانعيت (دقت)
مانعيت، صحت يك جستجو را مي سنجد. كاوش در صورتي به مانعيت كامل دست مي يابد كه هر پيشينه بازيابي شده در رابطه با يك پرسش، لزوما به آن پرسش مربوط باشد