بازیابی اطلاعات

از دانشنامه آزاد علم اطلاعات و دانش شناسی
پرش به: ناوبری، جستجو

بازيابي اطلاعات


بازيابي اطّلاعات، فرايند يافتن اطّلاعات_(مدارک) مربوط به جستجوي کاربر در مجموعة مدارک است. پيشرفتهاي اخير در علم الکترونيک، به توليد ابزارهاي مدرن براي ذخيره سازي انبوهي از اطّلاعات منجر گرديده است. انفجار اطّلاعات باعث شده است تا جامعة پژوهشگران در حوزة بازيابي اطّلاعات، امكان و شيوة فراخواني اطّلاعات درخواستي را در پنجاه سال اخير بسيار بهبود ببخشند . با سيستمهاي بازيابي اطّلاعات امروزي، امکان جستجو در چند ترابايت اطّلاعات، فقط در چند ثانيه وجود دارد نظام بازيابي اطّلاعات به سازماندهي، ذخيره سازي، بازيابي و نمايش اطّلاعات کتابشناختي مربوط است. سيستمهاي بازيابي اطّلاعات با هدف فراهم آوردن زمينة لازم براي پاسخگويي به جستجوهاي کاربر از طريق ارجاع به مدارک مربوط، طراحي ميگردد در چنين محيطي، مجموعه اي از مدارک مانند کتابها، مقاله ها، گزارشهاي تحقيقاتي و... وجود دارد، به اضافة گروهي از کاربران. نياز اطّلاعاتي کاربر در يک زمان خاص ميتواند شامل يک يا چند مدرک باشد. در يکسيستم بازيابي اطّلاعات، معمول است که يک مدرک به وسيلة کليد واژهها يا واژههاي موضوعي نمايانده شود. کليد واژهها معمولاً در فرايند نمايه سازي، از متن يا چکيدة مدرک استخراج مي شوند.

تاريخچه
ايجاد و گسترش نظام‌هاي بازيابي اطلاعات را مي‌توان به چندين دوره نسبتاً روشن تقسيم كرد. قبل از سال‌هاي 1940 تهيه مي‌شد، نظام‌هاي بازيابي اطلاعات تنها از نوع دستي محض بود، يعني نمايه‌ها و فهرست‌ها به شكل چاپي و كارتي تهيه مي‌شد. اين وسايل بازيابي، پيش‌همارا و غيرقابل دستكاري است و متكي بر سازماندهي خطي (تك بعدي) بوده و قابليت‌هاي بسيار محدودي براي جست‌وجو و بازيابي دارند. در سال‌هاي 1940، مساله ذخيره و بازيابي اطلاعات مورد توجه بسيار قرار گرفت  اين مساله از زماني آغاز شد كه بشر سعي كرد محيط پيرامون خود را كنترل كند يا حداقل از فشارهاي خارجي كه باعث نابودي او مي شدند جلوگيري كند بتدريج در طول تاريخ جمع آوري، سازماندهي و نگهداري امري متداول و مرسوم شد .مهم‌ترين پيشرفت در تاريخچه بازيابي اطلاعات يعني ابداع نظام‌هاي بازيابي كه پس‌همارا و قابل دستكاري هستند روي داد. اين نظام‌ها كه هنوز عمدتاً دستي بودند اين نظام‌هاي پس‌هماراي اوليه مزاياي قابل توجهي نسبت به پيشينيان خود عرضه كردند. آنها نياي مسلّم نظام‌هاي رايانه‌اي نوين به حساب مي‌آيند.

در سال‌هاي 1950 اشكال اوليه خودكارسازي نمايه‌سازي پس‌همارا توسط نظام‌هاي داده‌پردازي برگه منگنه پديد آمد. . سال‌هاي 1960 دوران بازيابي رايانه‌اي به شيوه گسسته، پردازش دسته‌اي و نواري را تشكيل مي‌داد. در سال‌هاي 1970، با توسعه سخت‌افزارها و نرم‌افزارهاي رايانه‌اي، امكان انجام جست‌وجوهاي پيوسته يا تعاملي فراهم آمد. نظام‌هاي پيوسته بازيابي، علاوه بر افزايش سرعت، امكان دريافت بازخورد جست‌وجو در روند جست‌وجو و، در صورت لزوم، تغيير و اصلاح آن را به استفاده كننده مي‌دادند. مهم‌ترين مزيت بازيابي پيوسته امكان دسترسي از راه دور بود. د. از ابتداي سال‌هاي 1980، توسعه و گسترش ذخيره و بازيابي اطلاعات به شكل متن كامل از جمله تحولات و رويدادهاي مهمي است كه شكل گرفته است. هر چند انديشه‌ها و تلاش‌هاي مربوط به اين شكل از ذخيره و بازيابي به سال‌هاي ،1970 زمان اولين تلاش‌ها براي واردكردن متون حقوقي در رايانه و جست‌وجوي آزاد بر روي آن متون، باز مي‌گردد با ازدياد رايانه‌هاي شخصي و پيدايش رسانه‌هاي ذخيره‌سازي نوري مانند ديسك فشرده و نيز رواج نشر روميزي (دي.تي.پي.) بود كه ايجاد پايگاه‌هاي تمام متن و نيز فنون بازيابي از متن عموميت بيشتري يافت و در دسترس استفاده‌كنندگان قرار گرفت. بازيابي در اين نوع نظام‌ها كه عمدتاً مبتني بر استفاده از زبان طبيعي است ، لكن براي بازدهي بيشتر از مزاياي هر دو نظام به طور همزمان استفاده مي‌شود. ذخيره و بازيابي اطلاعات.

فعاليت‌هايي كه براي تحليل و سازماندهي مدارك و منابع صورت مي‌گيرد ذخيره اطلاعات، و تلاش‌هايي كه براي يافتن يك يا چند مدرك از ميان انبوه مدارك ذخيره شده انجام مي‌شود بازيابي اطلاعات نام دارد. نظام‌هايي كه اين جريان‌ها در آنها روي مي‌دهد نظام‌هاي ذخيره و بازيابي اطلاعات خوانده مي‌شود. نظام‌هاي ذخيره و بازيابي اطلاعات معمولاً به منظور دسترس‌پذير كردن مجموعه‌اي از منابع اطلاعاتي براي استفاده‌كننده‌اي كه مايل به كسب اين اطلاعات است طراحي مي‌گردد. اطلاعاتي كه در نظام‌هاي ذخيره و بازيابي اطلاعات ذخيره مي‌شود يا صرفاً شامل داده‌هاي كتابشناختي است، مانند مشخصات كتاب‌ها، اسناد و مدارك، و مقاله‌هاي مجلات؛ يا اصل مدرك است كه همراه مشخصات آن عرضه مي‌شود. حالت اخير پايگاه داده‌هاي تمام متن نام دارد. نظام‌هاي بازيابي اطلاعات را در معناي وسيع مي‌توان براي دستيابي به مجموعه‌هاي تصويري، فيلم، پروانه‌هاي ثبت اختراع، و جز آن نيز مورد استفاده قرار داد. در هر حال، هدف هر نظام ذخيره و بازيابي اطلاعات آن است كه در اسرع وقت بيشترين اطلاعات مرتبط با نياز استفاده‌كننده را ـ آن‌طور كه در درخواست وي ذكر شده ـ در اختيار بگذارد.
در چند دهه اخير بازيابي رايانه اي مورد توجه خاصي قرار گرفته كه علت آن را مي توان 4 عامل دانست: افزايش اهميت زمان، تغيير در كميت و كيفيت اطلاعات، تغيير در ماهيت نيازهاي اطلاعاتي، تغيير در اهميت منابع اطلاعاتي. 

امروزه رشد اهميت حياتي اطلاعات، لزوم صرفه جويي در وقت و هزينه جستجوكنندگان، جوان بودن شبكه هاي گسترده بخصوص از لحاظ سرعت، لزوم دستيابي سريع، جامع و مانع به اطلاعات خاص مورد نياز از جمله مسايل مهمي هستند كه اهميت يك فرايند بازيابي حساب شده، كنترل شده و كامل را آشكار مي سازند. مي توان گفت هنوز هم مساله بازيابي موثر همچنان در حد وسيعي بصورت حل نشده باقي مانده است و هدف يك استراتژي اتوماتيك بازيابي، بدست آوردن تمام مدارك مربوط و در عين حال بازيابي كمترين مدارك نامربوط تا حد امكان است، بعبارتي مفهوم ربط در مركز مساله بازيابي اطلاعات قراردارد.

هر سيستم بر سه محور1 سازماندهي، 2بازيابي و3 نمايش اطلاعات استوار است 
چرخه عمل بازيابي اطلاعات شامل 7 مرحله زير است: 

1. انتخاب يك بانك اطلاعاتي براي انجام جستجو: بر مبناي بانكهاي موجود و نياز اطلاعاتي كاربر، يك بانك اطلاعاتي انتخاب مي شود آنگاه سيستم خلاصه اي از اطلاعات، محدوده تاريخي ركوردها، تعداد ركوردها، قيمت و … را در اختيار كاربر قرار مي دهد. 2. جستجو براي واژه هاي مورد نظر در بانك واژگان: قبل از انجام جستجو براي فرمول بندي جستجو، كاربر مي تواند هريك از واژه نامه هاي موجود در سيستم را مورد استفاده قرار دهد. واژه نامه ها نقش بسيار مهمي در بازيابي اطلاعات ايفا مي كنند. 3. ايجاد فرمول جستجو و انجام جستجو: فرمول بندي صحيح و دقيق نيازهاي اطلاعاتي كاربران وابسته به امكانات بازيابي اطلاعات براي فرمول بندي مي باشد. هرچه قابليتهاي بيشتري فراهم آورده شود، كاربر راحت تر و آسانتر مي تواند به بيان نيازهاي خود بپردازد. 4. نمايش و بازبيني ركوردها: بازخورد خوب سيستم در اين قسمت نقش مهمي در هدايت كاربر براي رسيدن به اطلاعات مورد نظرش دارد. در اين قسمت سيستم بايد بتواند به سوالات زير پاسخ دهد: - چه ركوردهايي با نياز اطلاعاتي كاربر مطابقت دارند؟- آيا مجموعه ركوردهاي بازيابي شده با نيازهاي اطلاعاتي كاربر مطابقت دارند؟ و .... 5. سفارش مدرك 6. درخواست براي اطلاعاتي درباره سيستم بازيابي اطلاعات 7. برقراري پارامترهاي نمايشي و ارتباطي در مجموعه: كه چهار مقوله بايد به عنوان مهم ترين اهداف مدنظر طراحان سيستمهاي بازيابي اطلاعات قرار گيرند: بهينه سازي انتخاب واژكان جستجو توسط كاربران، بهينه سازي فرمول جستجوي كاربران، بهينه سازي تعداد ركوردهاي بازيابي شده، بهينه سازي ضريب دقت و بازيابي يا بهينه سازي كلي بازيابي اطلاعات. در نهايت بايد اين نكته را خاطرنشان كرد كه جستجوگران باتجربه و متخصصان بازيابي اين نكته را ميدانند كه جستجو مستلزم صرف وقت و هزينه است و در اين مسير بايد با اصلاح، بازنويسي و تكرار چرخه جستجو به نتايج دلخواه دست يافت. .

در روند ذخيره و بازيابي اطلاعات دو مرحله متمايز تحليل اطلاعات و جست‌وجوي اطلاعات را مي‌توان مشخص ساخت.

تحليل اطلاعات. فرايند تعيين محتواي موضوعي مدارك و تبديل آن به زبان نظام (يا مجموعه‌اي از اصطلاحات نمايه‌اي) را تحليل اطلاعات گويند... واژگان مهار شده. به منظور ايجاد يكدستي و هماهنگي و نيز سهولت در بازيابي مدارك، معمولاً واژه‌ها يا اصطلاحاتي را كه مبيّن موضوع مدرك هستند از سياهه‌اي مستند به نام واژگان مهار شده انتخاب مي‌كنند. فهرست‌هاي سرعنوان موضوعي، طرح‌هاي رده‌بندي، و اصطلاحنامه‌ها سه نوع واژگان مهار شده مهم هستند. زيرا در اين منابع تلاش شده است تا اصطلاحات به صورت الفبايي و نيز به شكل نظام يافته ارائه شود سازماندهي فايل‌ها: در نظام‌هاي رايانه‌اي ذخيره و بازيابي اطلاعات، داده‌ها معمولاً در قالب ركورد ذخيره مي‌شوند و مجموعه‌اي از ركوردها يك فايل را تشكيل مي‌دهند.. براي سازماندهي فايل به طور معمول چندين روش وجود دارد كه ساده‌ترين آنها فايل ترتيبي است. يافتن ركوردهاي خاص در اين گونه فايل‌ها منوط به آن است كه يكايك ركوردها از ابتداي فايل بررسي شود. چنانچه با حجم زيادي از اطلاعات روبه‌رو باشيم استفاده از اين نوع فايل بسيار وقت‌گير است. در عوض، اين ساختار حداقل فضاي ذخيره‌سازي را به خود اختصاص مي‌دهد و اجراي آن نيز نسبتاً آسان است. 2- نوع ديگر، فايل شاخص‌دار يا فايل مقلوب است. در اين نوع ساختار، كه در نظام‌هاي معروف ذخيره و بازيابي اطلاعات به وفور مورد استفاده قرار گرفته، به ازاي فيلدهاي شاخص يا فيلدهايي كه در نظر است بر روي آنها جست‌وجو صورت گيرد، فايل يا فايل‌هاي جداگانه‌اي به نام فايل شاخص يا فايل مقلوب ايجاد مي‌شود. هنگام بازيابي، ابتدا عبارت مورد نظر در فايل مقلوب جست‌وجو مي‌شود و سپس براساس شماره مدرك يا نشاني كه در مقابل آن عبارت وجود دارد، ركورد كامل از فايل اصلي بازيابي مي‌گردد. در اين ساختار، به جهت آنكه حداقل دو فايل ايجاد مي‌شود فضاي بيشتري اشغال مي‌گردد، ولي در مقابل، سرعت جست‌وجو و بازيابي به خصوص در پايگاه‌هاي حجيم تا حد زيادي بالا مي‌رود. 3- سومين نوع را فايل با دستيابي مستقيم مي‌نامند دارد. در اين ساختار، امكان نوشتن يا خواندن ركورد بدون در نظر گرفتن محل آن وجود دارد. متقابلاً نقطه ضعف آن در سختي پياده‌سازي و اجراي آن است. ساختار ديگر، ساختار زنجيره‌اي است و ويژگي آن در اين است كه همه اقلامي كه نشان‌دهنده شناساگر فرضي مشتركي هستند با رابط‌ها يا اشاره‌گرهايي مناسب، به هم زنجير مي‌شوند. جست‌وجوي اطلاعات. در اين مرحله، وظيفه نظام ذخيره و بازيابي، بررسي و شناخت درخواست استفاده‌كننده، پويش يا جست‌وجو در بانك اطلاعاتي، و يافتن و نمايش ركوردهايي است كه با درخواست ارائه شده انطباق دارد. دستيابي به اين هدف، يعني يافتن اطلاعاتي كه نياز استفاده‌كننده را به طور قطع برطرف كند عملاً كار آساني نيست، زيرا از يك سو استفاده‌كننده به طور دقيق نياز اطلاعاتي خود را نمي‌داند و در برخي اوقات نيز علي‌رغم آگاهي به نياز اطلاعاتي خود، ممكن است نتواند آن را با عبارت‌هاي مناسب بيان كند. از سوي ديگر، ممكن است اصطلاحات يا عباراتي كه به عنوان موضوع مدارك در نظر گرفته شده چندان دقيق نباشند و نتوانند تصوير كاملي از محتواي مدرك بدست دهند. بدين سبب گفته مي‌شود كه وجه خروجي نظام بازيابي اطلاعات (پاسخگويي به درخواست استفاده كننده) همواره پيچيده‌تر از وجه ورودي آن است و بدين لحاظ بايد بخش خروجي مورد توجه بيشتري قرار گيرد شيوه‌هاي بازيابي اطلاعات را مي‌توان در نگاه كلي به دو دسته، نظام‌هاي مبتني بر انطباق مطلق و نظام‌هاي مبتني بر انطباق نسبي، تقسيم كرد (153:3). فنون انطباق مطلق در حال حاضر در بسياري از نظام‌هاي سنتي بازيابي اطلاعات مورد استفاده قرار مي‌گيرد. پرس‌وجوها در اين روش معمولاً با استفاده از عملگرهاي بولي تدوين مي‌شوند و، براي بازيابي، تنها انطباق واژه‌هاي پرسش با عبارت‌هاي موجود در مدرك كفايت مي‌كند. در انطباق نسبي يا انطباق برتر اين امكان وجود دارد كه نظام بازيابي را بتوان با ورود رشته‌اي از اصطلاحات كه بيانگر نياز اطلاعاتي هستند، بدون استفاده از عملگرهاي بولي، جست‌وجو كرد. در اين نوع، نظام دنبال قطعاتي از متن مي‌گردد كه بهترين انطباق را با رشته ورودي داشته باشد. بنابراين، اگر رشته اصلي شامل پنج كلمه باشد و مدركي در بانك اطلاعاتي نيز كلّ پنج واژه را دربرگيرد اين مدرك حداكثر وزن ممكن را گرفته و در رأس سياهه موارد بازيابي رشته قرار مي‌گيرد . بر اين اساس، الگوها و فنون مختلفي براي بازيابي شكل گرفته است كه به عنوان مدل‌هاي كلاسيك و مدل‌هاي پيشرفته از آنها ياد مي‌شود. مدل‌هاي كلاسيك بازيابي شامل مدل بولي، فضاي بردار ، و مدل‌هاي احتمال است. مدل‌هاي پيشرفته، علاوه بر مدل‌هاي فوق، شامل بازيابي براساس منطق مشكك (فازي)[ نمايه‌سازي معنايي نهفته، شبكه‌هاي استنتاجي، و نيز الگوهاي مبتني بر مرور شامل نظام‌هاي بازيابي فرامتن است مدل بولي. اولين روش بازيابي كه در نظام‌هاي اطلاعاتي اجرا شد مدل بولي بود كه در آن اصطلاحات پرس‌وجو با عملگرهاي بولي بيان شده و با نمايه مقلوب مقايسه مي‌گرديد. توانايي عملگرهاي بولي براي تركيب مفاهيم اجزا (AND) و مترادف (OR) و نيز زمان پاسخ سريع، اين مدل را مدلي عام براي نظام‌هاي بازيابي ساخت. با فراگيرتر شدن نظام‌هاي بازيابي بولي، تدوين پرس‌وجوهاي مؤثر براي عموم افرادي كه با منطق آشنا نبودند دشوار گرديد. علاوه بر آن، نظام بولي اغلب تعداد مدارك را با توجه به ماهيت حساس منطق خود كه پاسخي انعطاف‌ناپذير در برابر بود يا نبود اصطلاحي واحد نشان مي‌داد بازيابي مي‌كرد. مدل فضاي بُرداري.: يکي از الگوريتمهاي مهمي که در بازيابي اطّلاعات، کاربرد بسيار دارد، الگوريتم فضاي برداري است که مي کوشد تمام مدارک را در مجموعه و جستجوهاي کاربر به صورت بردارها نشان دهد و ضريب تشابه ميان بردارهاي مدرک و بردار جستجو را جهت بازيابي مدرک مربوط، محاسبه نمايد

مدل فضاي برداري يکي از مدلهاي بازيابي اطّلاعات است که در سطح وسيعي به كار ميرود در اين مدل، هر مقولة اطّلاعاتي  شامل متون ذخيره شده و هر تقاضاي اطّلاعاتي زبان طبيعي  به صورت مجموعة بردارهايي از اصطلاحات نگهداري ميشوند. به طور نظري، اين اصطلاحات ميتوانند از واژگان کنترل شده انتخاب شوند 

. در اين مدل، مدارك و پرس‌وجوها به صورت بردارهايي در فضايي سه بعدي در نظر گرفته مي‌شود كه هر بعد با مدخلي در نمايه مقلوب متناظر است. شناخته شده‌ترين وزن اصطلاحي، بسامد مقلوب مدرك ناميده مي‌شود كه با بسامد مجموعه (تعداد مدارك مجموعه‌اي كه در آن يك اصطلاح خاص وجود دارد) تغيير مي‌كند. مدل‌برداري، سياهه‌اي ترتيبي از مدارك براساس مشابهت آنها با پرسش، با در نظر گرفتن زاويه ميان بردار مدرك و بردار پرسش، به عنوان مقياس مشابهت ارائه مي‌دهد. علاوه بر فرمول‌هاي توزين اصطلاح، فرمول‌هاي ديگري نيز براي محاسبه مشابهت "پرسش ـ مدرك" پيشنهاد شده است. آزمايش‌ها نشان داده است كه انتخاب مقياس جديد مشابهت مي‌تواند بر عملكرد بازيابي تأثير قابل ملاحظه‌اي داشته باشد. يكي از مقياس‌هاي مشابهت كه به طور گسترده مورد استفاده قرار گرفته مشابهت كسينوسي است كه حاصل ضرب دروني ميان عناصر عادي سازي شده بردار در طول بردارهاست. گونه ديگري از مدل‌برداري مدل خوشه‌اي است كه در آن با محاسبه مشابهت برداري مدرك به مدرك و با استفاده از معيارهاي خوشه‌بندي گروهي از مدارك شكل مي‌گيرد. معيارهاي خوشه‌بندي مشخص مي‌كند چه چيز خوشه‌اي از مدارك را تشكيل مي‌دهد. برخلاف مدل فضاي برداري كه در آن بردار هر پرسش با بردار هر مدرك مقايسه مي‌شود، در اينجا، بردار هر پرسش با بردار مركز خوشه، يعني برداري كه خوشه را به صورت كلي ارائه مي‌كند، مقايسه مي‌گردد. مزيت رويكرد خوشه‌اي زماني جلوه‌گر مي‌شود كه با مجموعه مداركي به كار رود كه بتواند خوشه‌هاي فشرده تشكيل دهد. همچنين، اين مدل در محيطي مؤثر شناخته مي‌شود كه خوشه‌ها تمايل به ارائه مشترك مدارك مرتبط داشته باشند. با اين حال، هيچ تضميني وجود ندارد كه مجموعه مدارك مفروض ضرورتاً به ساختار خوشه‌بندي مفيدي بينجامد، و حتي در موارد مفيد، هزينه محاسبه ساخت، نگهداشت، و جست‌وجو در خوشه‌هاي كوچك و همبسته ممكن است به طور سرسام آوري بالا باشد. به طور کلي، ميتوان مزيتهاي اصلي مدل فضايي برداري را چنين بيان نمود: 1-طرح وزن دهي به اصطلاح در اين مدل، عملکرد بازيابي را بهبود مي بخشد. 2-استراتژي تطبيق جزئي اين مدل، بازيابي مدارکي را مجاز مي شمارد که به شرايط جستجو نزديک هستند -3 فرمول رتبه بندي کسينوسي آن، مدارک را بر طبق درجة تشابهي که به موضوع جستجو دارند، مرتّب ميكند. از ميان استراتژيهاي مختلف بازيابي اطّلاعات، مدل فضاي برداري به عنوان يکي از معتبرترين تکنيکهاي بازيابي به طور ساده بيان و نشان داده شد که مدل برداري يک استراتژي رتبه بندي است كه با مجموعه هاي عمومي بهبودپذير است. به اما به طور کلّي به نظر ميرسد مدل برداري، يا برتر بوده و يا تقريبًا به خوبي ساير روشهاي موجود عمل مي نمايد. به علاوه، مدل برداري، آسان و سريع است. با توجه به اين دلايل، مدل برداري يک مدل بازيابي معتبر است مدل احتمالي. اين مدل نخستين بار توسط استيو رابرتسن و كارن اسپارك جونز در سال‌هاي 1970 معرفي شد. اين مدل به لحاظ اينكه مدارك و پرسش‌ها را به صورت بردار عرضه مي‌كند شبيه مدل‌برداري است، اما به جاي بازيابي مدارك براساس ميزان مشابهت با پرسش، مدارك را براساس احتمال ارتباطشان با پرسش بازيابي مي‌كند. احتمال ربط مدركي خاص به پرسش را مي‌توان با جمع اوزان ربط اصطلاحات آن مدرك، يعني برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرك مرتبط، و نه در مدرك غيرمرتبط، محاسبه كرد. در مدل بازيابي كلاسيك احتمالي، اين احتمالات اصطلاح از طريق مجموعه‌اي نمونه از مدارك و پرسش‌ها همراه با قضاوت مرتبط مربوط به آن تخمين زده مي‌شود. با وجود اين، اجراي فرايند تخمين به صورت عملياتي مشكل است، زيرا جمع‌آوري داده‌هاي ربط لازم قبل از جست‌وجوي واقعي عملاً غيرممكن است. در نتيجه، براي تخمين احتمال اصطلاح، معمولاً، در اين مدل از بازخورد ربط استفاده مي‌كنند فرامتن. شكل ديگري كه براي جست‌وجو و بازيابي اطلاعات ارائه شده، و به خصوص در سال‌هاي اخير با رشد شبكه وب گسترش يافته است، بازيابي فرامتني است. روش‌هايي كه تاكنون ذكر شد عمدتاً بر اين محور استوار است كه كاربر پرسش خود را در قالب واژه‌ها و عباراتي به نظام ارائه كند تا نظام، پس از جست‌وجو، تعدادي مدرك را به عنوان نتيجه جست‌وجو بازگرداند. در مقابل اين نظام‌ها كه مي‌توان آنها را نظام‌هاي پرسش مدار ناميد، نظام‌هاي فرامتن تلاش مي‌كنند با ايجاد پيوندهاي مفهومي ميان مدارك و فراهم‌آوردن امكان مرور و راهبري، كاربر را در رسيدن به مدرك مورد نظر ياري دهند. از اين دو نوع رويكرد، به ترتيب، به حركت از كجا به چه (كاربر مي‌داند در كجاي بانك اطلاعاتي است و مي‌خواهد بداند در آنجا چه چيز وجود دارد) و حركت از چه به كجا (كاربر مي‌داند چه چيزي مي‌خواهد و مي‌خواهد بداند آن چيز را در كجا مي‌تواند بيابد) تعبير شده است (300:4). در نظام‌هاي فرامتن، هر كدام از مدارك يا الام اطلاعاتي، يك گره و رابطه ميان گره‌ها، پيوند ناميده مي‌شود. در هر گره يك يا چند واژه يا عبارت برجسته وجود دارد كه آن را لنگرمي‌نامند و زماني كه از سوي كاربر انتخاب يا فعال مي‌شوند، با استفاده از پيوندها، كاربر را به گره مرتبط ديگري هدايت مي‌كنند. گره‌ها علاوه بر متن مي‌توانند شامل قطعات صوتي و تصويري مانند موسيقي، فيلم، عكس، و جز آن نيز باشند. ارزيابي نظام بازيابي.

در بحث از ارزيابي نظام بايد به سه پرسش پاسخ گفت: 1) دليل ارزيابي نظام چيست؟ 2) چه عنصري از نظام ارزيابي مي‌شود؟ 3) ارزيابي نظام چگونه يا به چه شيوه‌اي صورت مي‌گيرد؟ 

ارزيابي نظام به منظور سنجش منافع يا زيان‌هايي كه از نظام بازيابي حاصل مي‌شود و نيز براي سنجش هزينه و سودمندي نظام صورت مي‌گيرد. در ارزيابي معمولاً عناصر زير كه گوياي توانايي نظام در رفع نياز استفاده‌كننده است مورد توجه قرار مي‌گيرد: 1) پوشش مجموعه، يا تعداد مدرك مرتبطي كه در هر مجموعه وجود دارد؛ 2) زمان پاسخگويي، يعني فاصله متوسط ميان زمان درخواست جست‌وجو و به‌دست‌آوردن پاسخ؛ 3) شكل خروجي، يعني شكل مدارك بازيابي شده، شماره مدرك، مآخذ كتابشناختي، مآخذ همراه با چكيده‌ها، متن كامل، و جز آن؛ 4) تلاش استفاده كننده، يعني كوششي كه استفاده‌كننده در مرحله خروجي (جدا كردن مدارك مرتبط از نامرتبط)، در مرحله درخواست (بيان هر چه دقيق‌تر پرسش يا نياز اطلاعاتي)، و در مرحله تدوين راهبرد جست‌وجو (بررسي راهبرد تدوين شده و اصلاح آن) انجام مي‌دهد؛ 5) جامعيت، يعني توانايي نظام در بازيابي متون مرتبط؛ و 6) مانعيت، يعني توانايي نظام در بازيابي نكردن متون نامرتبط. گفته مي‌شود كه موارد 1 تا 4 به راحتي قابل ارزيابي است ليكن اين جامعيت و مانعيت است كه در كنار يكديگر سودمندي نظام را نشان مي‌دهند. در واقع اين دو معيار در كنار هم توانايي فيلتري نظام را بيان مي‌كنند و استفاده از هر كدام از آنها به تنهايي چندان كارساز نيست (55:3-61؛ 204:6). در هر نظام بازيابي، مطلوب آن است كه نسبت جامعيت و مانعيت هر دو 100 درصد باشند، يعني نظام بتواند كليه مدارك مرتبط موجود را بازيابي كند و در عين حال هيچ يك از مدارك غيرمرتبط را را نيز ارائه ندهد. اما رسيدن به چنين آرماني عملاً غيرممكن است، و در واقع اين مسئله يكي از مهم‌ترين تفاوت‌هاي ميان نظام‌هاي ذخيره و بازيابي اطلاعات و نظام‌هاي مديريت پايگاه داده‌ها را تشكيل مي‌دهد. جامعيت و مانعيت با يكديگر رابطه‌اي معكوس دارند، يعني هر گونه تلاشي براي افزايش مانعيت منجر به كاهش جامعيت و هرگونه كوششي براي افزودن جامعيت باعث كاهش مانعيت مي‌شود. بنابراين، در عمل بايد به نسبتي معقول ميان اين دو رسيد. نياز استفاده‌كننده يكي از عوامل مؤثر در تعيين اين نسبت است.

ايجاد نظامهاي بازيابي اطلاعات در مقياس وسيع بسيار پرهزينه است. هزينه هاي كاوش قابل ملاحظه هستند و زمان قابل توجهي براي جستجوي اطلاعات در پايگاهها توسط متخصصان اطلاع رساني و كاربران نهايي صرف مي شود، و از همه مهمتر اينكه يك كاوش در بهترين حالت ممكن مي تواند آنچه را كه مورد جستجو است بيابد. درحاليكه اطلاعات ديگر حذف مي شوند. و در بدترين حالت جستجو مي تواند اطلاعات بي ارزش را ارائه دهد و در عين حال موارد مورد نياز را از دست بدهد. بنابراين مهم است بدانيم كدام نظامها و كاوشها و جستجوگران بيش از همه موثرند.

اطلاع يابي فعاليتي عملي با هدفي بسيار دقيق و مشخص است با وجود اين، تلاشهايي كه در جهت ارزيابي اين فعاليت انجام شده برگرفته از كاوشهاي واقعي توسط جستجوگران واقعي براي پاسخ به نياز اطلاعاتي واقعي بوده است.. براي قرار دادن مساله ارزيابي در يك چشم‌انداز مي توان سه سوال را مطرح نمود: 1) چرا ارزيابي مي كنيم؟ 2) چه چيزي را بايد ارزيابي كرد؟ 3) چگونه بايد ارزيابي كرد؟ كه پاسخ به اين سوالات به خوبي زميته ارزيابي را پوشش خواهد داد. پاسخ به سوال اول جنبه اجتماعي و اقتصادي دارد. جنبه اجتماعي آن اساسا وابسته به طراحي براي ايجاد يك معيار سنجش اثربخشي در سيستم هاي بازيابي اطلاعات است. براي مثال كاربران از تعويض منابع سنتي اطلاعات با يك سيستم كاملا اتوماتيك و تعاملي بازيابي اطلاعات چه سود يا زياني خواهند برد؟ مطالعات در اين زمينه در حال انجامند اما به نتيجه رسيدن كمي دشوار است چرا كه براي برخي از سيستمهاي بازيابي، اثربخشي ممكن است راحت تر از ساير سيستمها اندازه گيري شود. جنبه اقتصادي به اين امر وابسته است كه استفاده از يكي از اين سيستمها چقدر براي شما هزينه دارد و آيا اصلا ارزش اين ميزان هزينه را دارد يا نه؟ كه در اين مورد هم به نتيجه رسيدن دشوار است چرا كه مثلا هزينه هاي كامپيوتري به راحتي اندازه گيري مي شوند اما دستيابي به هزينه نيروي انساني فعال در اين زمينه مشكل تر است. بنابراين ارزشمند بودن يا نبودن بستگي به خود كاربر دارد. اكنون مشخص شد كه در ارزيابي يك سيستم بازيابي اطلاعات اساسا با تهيه اطلاعات مواجهيم و كاربر است كه مي تواند تصميم گيري كند كه 1) آيا آن سيستم را مي خواهد؟ (جنبه اجتماعي) و 2) آيا از نظر اقتصادي اين سيستم ارزشمند است يا خير؟ بعبارت ديگر وقتي كه درخواستي مطرح مي شود و استراتژي جستجو شكل مي گيرد، معيارهاي ارزيابي مشخص كننده اين هستند كه آيا اين درخواست از نوع ارزشمند است. سوال دوم (چه چيزي را بايد ارزيابي كنيم؟) ما را به اين سمت هدايت مي كند كه چه چيزهايي را مي توانيم اندازه گيري كنيم كه نشاندهنده توانايي سيستم در برآوردن نيازهاي كاربر باشد. در اين مورد 6 كميت ذكر شده اند كه عبارتند از: 1) پوشش مجموعه كه دامنه شمول منابع مرتبط در سيستم است. 2) عقب ماندگي زمان كه ميانگين مدتي است ميان زماني كه درخواست جستجو شكل مي گيرد و زماني كه پاسخي ارائه مي شود. 3) شكل ارائه برونداد. 4) تلاشي كه از سوي كاربر براي بدست آوردن پاسخ به نياز اطلاعاتي اش صورت مي گيرد. 5) جامعيت سيستم كه نسبت منابع مرتبطي است كه به صورت واقعي براي پاسخگويي به يك درخواست جستجو بازيابي مي شوند. 6) مانعيت سيستم كه نسبت آن دسته از مواد بازيابي شده اي هستند كه واقعا مرتبط با درخواست كاربر مي باشند. ادعا شده كه موارد 1 تا 4 بسهولت قابل تشخيص اند و جامعيت و مانعيت هستند كه در آنچه كه ما آن را بازيابي كارآمد سيستم مي ناميم موثر هستند. بعبارت ديگر بازيابي مدارك مرتبط و در عين حال جلوگيري از بازيابي مدارك نامربوط مقياسي است براي سنجش تواناييهاي سيستم. امروزه مشخص شده است كه هرچه سيستم كارآمدتر باشد بيشتر استفاده كنندگان را راضي خواهد كرد، همچنين مشخص شده است كه جامغيت و مانعيت براي سنجش كارآمدي يك سيستم كميتهايي مناسب و در عين حال كافي هستند. افزايش فزاينده موتورهاي كاوش وب، كتابخانه هاي ديجيتالي و سيستمهاي بازيابي اطلاعات و توسعه ابزارهاي جديد كاوش وب، نيازمند توسعه مقياسهاي ارزيابي جديدتر و بيشتر ارزيابي اطلاعات است. در گذشته بحث هاي بسياري در مورد اينكه آيا جامعيت و مانعيت كميتهاي مناسبي براي اندازه گيري كارايي هستند يا خير، وجود داشت. يكي از معيارهاي اينچنيني بازيافت و ريزش بود، با وجود اين هريك از اين معيارها نيز امروزه در برخي از جنبه ها كارايي دارند. مزاياي پايه ريزي ارزيابي بر جامعيت و مانعيت عبارتند از: 1) جفت كلماتي هستند كه بيشترين استفاده را دارند. 2) كميتهايي هستند كه معني آنها به خوبي درك شده است. سوال آخر (چگونه ارزيابي مي كنيم؟) پاسخ هاي تكنيكي بسياري دارد، ولي جالب است يادآوري شود كه تكنيكهاي سنجش كارايي بازيابي تا حد بسيار تحت تاثير استراتژي بازيابي اتخاذ شده و شكل برونداد آن قرار دارد. معيارهايي براي سنجش ارزيابي بازيابي اطلاعات

1) معيارهاي ارزيابي بازيابي اطلاعات بايستي براي جويندگان اطلاعات حائز اهميت و معنادار باشد.

2) آنچه كه براي جويندگان اطلاعات مهم است در نهايت حل شدن مشكلات اطلاعاتي شان است. 3) جويندگان اطلاعات براي رفع مشكل اطلاعاتي خود، در ميان فرايندهاي جستجوي اطلاعات تغيير مكان مي دهند. 4) اگر جويندگان اطلاعات با سيستمهاي بازيابي اطلاعات در تعامل باشند سنجش ارزيابي بازيابي اطلاعات بايستي در رابطه با تاثير سيستم بر كاربران و نيازهاي اطلاعاتي آنها باشد. 5) معيار ارزيابي بازيابي اطلاعات بايستي يك ابزار خودارزيابي باشد. قبل از پرداختن به بحث در مورد جامعيت و مانعيت لازم است در مورد مفهوم ربط توضيح مختصري داده شود: ربط يك مفهوم اساسي در اطلاع رساني است و به عنوان معيار اصلي ارزيابي اثربخشي بازيابي اطلاعات و عامل تاثير گذار بر طرح عملي و ارزيابي نظامهاي بازيابي اطلاعات عمل مي كند. ربط مفهومي پيچيده دارد و در اواخر دهه 1950 به وضوح مشخص شد كه انواع مختلف ربط وجود دارد. براي نظام بازيابي اطلاعات دو مقياس به كار گرفته شده است: جامعيت و مانعيت. دليل استفاده از اين معيارها اين است كه كاربران به طور متوسط تمايل به بازيابي مقادير زيادي از موضوعهاي مربوط به هم دارند (كه جامعيت بالايي را ايجاد مي كند) اين در حالي است كه مايلند به طور همزمان بخش اعظمي از موضوعهاي غير مرتبط (كه مانعيت بالايي را ايجاد مي كند) حذف شود.

جامعيت (بازيافت)

جامعيت مقياسي از اثر بخشي در بازيابي كليه اطلاعات جستجو شده در يك پايگاه اطلاعاتي است. يعني كاوش و جستجوي كامل و مبسوط. هنگامي جامعيت كامل محقق مي شود كه هر پيشينه منفرد كه مي بايست در رابطه با يك پرسش خاص يافت شود حتما رديابي گردد. 

تعداد پيشينه هاي مرتبط بازيابي شده مانعيت (دقت)

مانعيت، صحت يك جستجو را مي سنجد. كاوش در صورتي به مانعيت كامل دست مي يابد كه هر پيشينه بازيابي شده در رابطه با يك پرسش، لزوما به آن پرسش مربوط باشد