بازیابی اطلاعات در وب

بازیابی اطلاعات در وب ترجمه دکتر محمد باقر نگهبان و مهناز وحیدی پور

اینترنت یکی از منابع اصلی اطلاعات برای میلیون ها انسان است، بطوریکه می توان اطلاعات مربوط به تمامی موضوعات را در اینترنت یافت. بعلاوه در هنگام بازیابی اطلاعات درباره یک موضوع خاص می توانیم هزاران صفحه وب مربوط به آن موضوع را بیابیم. اما نگرانی اصلی ما یافتن صفحات وب مناسب و مرتبط از میان آن مجموعه است. بنابراین، در این مقاله به بحث درباره چگونگی بازیابی اطلاعات از وب و تلاش های مورد نیاز برای بازیابی این اطلاعات تحت اصطلاحات سیستم و تلاش های کاربر می پردازیم. 1 . مقدمه در چند سال گذشته، وب دارای رشد نمایی بوده است. برآورد شده بود که بطور تقریبی 20-15 بیلیون صفحه در وب وجود دارد و اخیرا این مقدار با رکورد 1 ترلیون صفحه شکسته شده است. براساس مطالعات انجام شده، تنها 85-80 درصد از کل صفحات قابل دسترس بر روی وب دارای اطلاعات مفیدی هستند و 20-15 درصد باقیمانده تکراری از صفحات اصلی، مشابه صفحات تکراری و یا کاملا نامربوط هستند. بنابراین، انفجار وب، مشکلات متعدد جدیدی را برای سیستم های بازیابی اطلاعت فراهم می آورد. این سیستم های بازیابی اطلاعات از طریق یافتن تعدادی از اسناد مرتبط با موضوع در میان هزاران هزاران صفحه با یک سازمان ساختاری کوچک، در تکمیل امور تحقیقاتی به کاربران کمک می نماید. بطورهمزمان، توسعه دهندگان سیستم های بازیابی می بایست قادر به ارزیابی سودمندی کلی این سیستم ها یعنی؛ مرتبط بودن نتایج بازیابی شده توسط سیستم با جستجوی کاربر، باشند. 2 . بازیابی اطلاعات بر روی وب بازیابی اطلاعات بر روی وب در مقایسه با سیستم سنتی بازیابی اطلاعات (سیستم کتابخانه ای) همواره کاری سخت و متفاوت بوده است. بمنظور توضیح تفاوت بین بازیابی سنتی اطلاعات و بازیابی اطلاعات بر روی وب به مقایسه آن دو خواهیم پرداخت. اساسا این تفاوت ها را می توان به دو بخش یعنی؛ تفاوت در اسناد و تفاوت در کاربران تقسیم نمود. در ابتدا به بحث درباره تفاوت ها در اسناد خواهم پرداخت.  ابر متن: به دلیل وجود هایپر لینک ها، اسناد موجود بر روی وب متفاوت از اسناد متنی اصلی هستند. تخمین زده شده است در هر سند حدود 10 هایپر لینک وجود دارد.  تنوع سند: محتویات موجود بر روی صفحات وب بطور طبیعی متنوع و نامتجانس هستند، یعنی؛ علاوه بر متن ممکن است محتویات چند رسانه ای دیگری چون فایل های شنیداری، تصویری و یا تصاویری را نیز شامل شوند.  تکرار: بیش از 20 درصد از اسناد موجود بر روی وب تکرار و یا مشابه تکرار از دیگر اسناد هستند، این در حالی ست که این تخمین تکرارهای معنایی را در برنمی گیرد.  تعداد اسناد: در طی چند سال گذشته، وب رشد تفسیر کننده ای داشته است. مجموعه اسناد بیش از تریلیون است و این مجموعه بسیار بزرگتر از هر مجموعه اسنادی ست که توسط یک سیستم بازیابی اطلاعات ارائه شده باشد. برطبق ارزیابی ها، در حال حاضر ماهانه رشدی 10 درصدی را شاهد هستیم.  عدم ثبات: صفحات وب دارای عدم ثبات هستند بدین معنا که محتویات آنها بکرات تغییر و اصلاح می یابند. بعلاوه، هر کاربر اینترنتی می تواند صفحات وبی دارا یا فاقد اطلاعات معتبر را خلق کند. کاربران وب رفتاری متفاوت از کاربران سیستم های سنتی بازیابی اطلاعات دارند. کاربران سیستم های سنتی غالبا توسط کتابداران آموزش دیده اند در حالیکه دامنه کاربران وب از اشخاص عامی و غیر حرفه ای تا افراد حرفه ای متنوع است. رفتار کاربر نوعی نشان می دهد که:  جستجوهای ضعیف: اکثر جستجوهای انجام شده توسط کاربران معمولا کوتاه و فاقد کلمات کلیدی مفید هستند، درحالی که این موارد در بازیابی اطلاعات مربوطه مفید و کمک کننده هستند.  واکنش به نتایج: معمولاکاربران تمام صفحات نتیجه را ارزیابی نکرده و به چند نتیجه نشان داده شده در ابتدا بسنده می کنند.  تنوع کاربران: تفاوت بسیاری در تحصیلات و تجربه وبی کاربران وب وجود دارد.

بنابراین، چالش اصلی در بازیابی اطلاعات بر روی وب این ست که چگونه با وجود تنوع صفحات وب و جستجوهای ضعیف، نیازهای کاربران را فراهم آوریم. 3. IR (بازیابی اطلاعات) ابزاری بر روی وب اطلاعات وب را می توان با تعدای از ابزارهای قابل دسترس طبقه بندی اعم از موتوهای جستجوی همه منظوره تا موتورهای جستجوی تخصصی بازیابی نمود. در ادامه تعدادی از رایج ترین ابزار بازیابی اطلاعات وب ارائه شده است:  موتور جستجوی همه منظوره: این موتورها از رایج ترین ابزار استفاده شده برای بازیابی اطلاعات هستند. Google، altavista، و Excite نمونه هایی از این موتورهای جستجو هستند. هر کدام از آنها مجموعه صفحات وب مختص بخود را داراست که در پاسخ به جستجوی کاربران ارائه می دهد.  فهرست های سلسله مراتبی: در این روش کاربر می بایست از میان مجموعه رده های داده شده در هر سطح یکی را انتخاب نماید تا به سطح بعدی برود. مانند؛ yahoo، یا dmoz.  موتورهای جستجوی تخصصی: این موتورهای جستجو بر روی یک ناحیه اختصاص یافته و مجموعه بزرگی از اسناد مرتبط با آن ناحیه خاص را فراهم می آورند. مانند؛ PubMed، که یک موتور جستجوی اختصاصی در زمینه انتشارات پزشکی ست. این موتور جستجو مجموعه ای از میلیون ها مطالعه تحقیقاتی، مقالات، مجلات مربوط به دانش زیست پزشکی، علوم زیستی و غیره را به کاربران خود ارائه می دهد. 4. موتور جستجوی همه منظوره از موتورهای جستجوی همه منظوره برای بازیابی اطلاعات بخش قابل توجهی از وب در تمام موضوعات و حوزه ها استفاده می شود. هر موتور جستجوی همه منظوره دارای سه مولفه اصلی ست:  یک مرورگر اسپایدر یا کراولر وب در هنگام شروع، در حین مشاهده URLها، تمام هایپرلینک های صفحه را تشخیص داده و آنها را به لیست URLها اضافه می نماید تا بصورت بازگشتی مشاهده شده و مجموعه عظیمی از اسناد بنام corpus را تشکیل دهد. corpus بطور نوعی با صفحات حاصل از اظهارات مستقیم به موتورهای جستجو و منابع متعدد دیگر، فزونی می یابد. هر کراولر دارای خط مش های متفاوتی ست که تحت تاثیر لینک ها، عمق سایت های متنوع، و غیره قرار دارد. در نتیجه، بطور شگفت آوری ارتباط اندکی در میان corpusهای موتورهای متنوع وجود دارد.  فهرست نویس داده ها را پردازش کرده و معمولا آن را به شکل فایل های معکوس نمایش می دهد. به هرحال، هر موتور جستجوی اصلی از الگوهای نمایش متفاوتی استفاده کرده و با توجه به کلمات شاخص خط مشی های متفاوتی را بر می گزیند.  پردازش کننده ی جستجو، جستجوی ورودی را پردازش کرده و با ترتیبی که توسط الگوریتم طبقه بندی مشخص شده است پاسخ های مناسب را باز می گرداند. این پردازش کننده متشکل از یک نرم افزار نهایی ست که داده را تغییر شکل داده و آن را به یک فرمت استاندارد می برد، و نیز دارای یک نرم افزار نهایی است که اسناد متناسب را یافته و آنها را طبقه بندی می کند. 4.1 - تاریخچه مختصری از موتورهای جستجو موتورهای جستجو از زمان پیدایش بسیار تکامل یافته شده اند. این تحول شاهد سه نسل عمده بوده است: هر نسل روش خاص خود را برای بازیابی اسناد مربوطه داشته است. در ادامه این سه نسل عمده آورده شده اند:  نسل اول: این نسل حدودا مربوط به سال 1996می باشد و سایت های طبقه بندی شده را با توجه به محتوای شان مورد جستجو قرار می داد. با اسناد بعنوان مجموعه ای از لغات رفتار می شد و اهمیتی برای معنا شناسی اسناد قائل نبود. مهمترین عیب این نسل این بود که با انباشتن کلمه کلیدی و با افزوده شن مشابهت محتوا، هر سند می توانست مربوط به موضوع جستجو باشد. مانند؛ Excite، Alte Vista، و Infoseek.  نسل دوم: این نسل بر محتوی و نیز آنالیز لینک برای طبقه بندی تکیه داشت- بنابراین آنها ساختار وب را بصورت یک نمودار بداخل حساب ارائه می دهند. آنها محبوبیت سایت را بعنوان معیاری برای طبقه بندی اسناد مرتبط تلقی می کنند. اما این روش نیز دارای عیوبی ست مانند spammer انبوهی از لینک هارا خلق می کند، یعنی؛هر سایت دارای سند یا صفحه کم اهمیتی را بعنوان یک مورد پر اهمیت مرتبط معرفی می نماید. مانند Lycos.  نسل سوم: این نسل علاوه بر محتوی صفحات و ساختار وب، اعتبار صفحه را نیز یک معیار مهم تلقی می کند. براساس این روش، چنانچه یک صفحه دارای اعتبار زیادی باشد، مرتبط تر با موضوع محسوب خواهد شد. هرچه تعداد لینک های یک صفحه بیشتر باشد بدان معناست که دارای اعتبار بیشتری ست. نمونه هایی از موتورهای جستجوی نمسل سوم Yahoo و Google هستند. با توجه به مطالب بالا به این نکته پی می بریم که مهمترین وظیفه موتور جستجو بازیابی اطلاعات برای جستجوی کاربر می باشد. همانطور که بحث شد برای یک بازیابی هر چه مرتبط تر، روش های متفاوتی اتخاذ شدند. اما بهترین و پذیرفته شده ترین روش، طبقه بندی یک صفحه براساس مرتبط بودن آن است، این روش Page Rank نام دارد که در ادامه تشریح خواهد شد. 4.2- رتبه بندی در رتبه بندی، ترتیب پاسخ های جستجو با توجه به کاهش ارزش پاسخ ها صورت می گیرد. برای این منظور یک ارزش عددی به نام نمره به هر یک از اسناد داده می شود و سپس اسناد از روی کاهش نمره مرتب می شوند. این نمره نوعا ترکیبی از دو معیار مستقل از جستجو و وابسته به جستجو می باشد. یک معیار مستقل از جستجو یک ارزش ذاتی را به هر سند نسبت می دهد که بدون توجه به جستجوی واقعی و با ملاحظه اطلاعات انتشار (مانند؛ سایتی که سند بدان تعلق دارد، تاریخ آخرین تغییر، و ...)، تعداد تقدیرها، و غیره است. یک معیار وابسته به جستجو، نمره ای ست که با توجه به یک جستجوی خاص تعیین می گردد.

4.3- ساختار نمودارِ وب قبل از مطالعه جزئیات هر معیار، ابتدا می بایست وب را بعنوان یک نمودار جهت دار نمایش دهیم، که در آن هر گره نمایانگر یک صفحه است و هر لینک از یک صفحه به صفحه دیگر یک لبه را شکل می دهد، یعنی؛ اگر صفحه u داری یک هایپرلینک برای صفحه v باشد پس لینک با لبه جهت دار (u, v) نشان داده می شود. هریک از صفحات وب دارای تعدادی لینک جلو بنام لبه های خارج ست و نیز تعدادی لینک عقب که لبه های داخل نامیده می شوند. تعداد لبه های خارج را می توان بسادگی با بررسی تمام هایپرلینک های موجود در آن صفحه یافت، اما یافتن تعداد کل لبه های داخلی برای یک صفحه –یعنی؛ یافتن تمام صفحات اشاره کننده به آن صفحه- کار دشواری ست. برای مثال در تصویر 1، صفحه B دارای دو لینک عقب می باشد. تصویر 4.1: A و C لینک های عقب B هستند. معیار رتبه بندی مستقل از جستجو: براساس این معیار اگر یک صفحه وب دارای تعداد زیادی هایپرلینک (اصطلاحا لینک های داخلی) باشد، بعنوان یک صفحه مطلوب تر تلقی می گردد. اصلی ترین عیب این معیار این ست که از نقطه نظر این معیار تمامی لینک ها دارای ارزش برابری هستند. بنابراین، نمی تواند بین صفحات دارای کیفیت پایین و صفحات دارای کیفیت بالا تمایزی قائل شود. برای برطرف نمودن این مشکل، Brim و Page اندازه Page Rank را اختراع نمودند.

Page Rank بدین صورت تشریح می شود: تصویر 2: محاسبه ساده شده ی Page Rank تصور کنید که صفحات T1, T2, …, Tn به صفحه A اشاره داشته باشند و C(T1) هیچ لینکی را برای بیرون رفتن از صفحه T1 ارائه ننماید، پس Page Rank صفحه A بدین ترتیب می باشد: تصور می کنیم که صفحه A دارای صفحات T1, …Tn است که به آن اشاره دارند. پارامتر d یک ضریب معیاری ست که بین 0 تا 1 قرار دارد. ما معمولا d را 0.85 درنظر می گیریم. همچنین C(A) بعنوان تعداد لینک های بیرون رونده از صفحه A تشریح می شود. Page Rank صفحه A بصورت فرمول زیر ارائه شده است: PR(A) = (1-d) + d(PR(T1)/C(T1) +….+PR(Tn)/C(Tn)) توجه داشته باشید که Page Rank ها بر روی صفحات وب یک توزیع احتمال را شکل می دهند، بنابراین جمع تمامی Page Rankهای صفحات وب برابر با یک خواهد بود. معیار رتبه بندی وابسته به جستجو: این معیار توسط Kleinberg ارائه شد و بدین شرح است: برای ارائه یک جستجوی کاربر، در ابتدا الگوریتم یک نمودار خاص برای آن جستجو می سازد که یک نمودار زیرمجموعه از نمودار اصلی نشان دهنده وب است. در این نمودار مختص به جستجو، گره های نمایانگر صفحات و لبه ها نمایانگر هایپرلینک ها هستند. برای هر صفحه دو نوع نمره محاسبه می گردد: نمره Authority و نمره Hub. هرچه یک صفحه وب دارای محتویات مرتبط بیشتر باشد نمره Authority آن نیز بیشتر خواهد بود، و هرچه صفحه دارای هایپرلینک های بیشتری به صفحات مرتبط باشد نمره Hub بیشتری خواهد داشت. برای شروع رتبه بندی صفحات وب، auth(p)=1 و hub(p)=1 در نظر خواهیم گرفت بطوریکه p نمایانگر صفحات وب خواهد بود. ما دو نوع بروزرسانی را در نظر می گیریم: قانون بروزرسانی Authority و قانون بروزرسانی Hub. بمنظور محاسبه نمرات Authority/Hub هر گره، تکرارهای مکرر قانون بروزرسانی Authority و قانون بروزرسانی Hub را بکار می بریم. برای یک کاربرد k مرحله ای، از الگوریتم Authority-Hub درابتدا قانون بروزرسانی Authority را بکار میبریم و سپس k بار قانون بروزرسانی Hub و سپس عادی سازی p را بکار می بریم تا نهایتا ارزش های نمره Authority و Hub به هم نزدیک شوند. 1) قانون بروزرسانی Authority بروزرسانی auth(p) را بدین صورت انجام می دهیم: ……………..... براساس قانون بروزرسانی Authority، اگر یک صفحه با n تعداد صفحه مورد اشاره قرار گرفته باشد پس نمره Authority آن صفحه برابراست با مجموع تمام نمره های Hub صفحاتی که بدان صفحه اشاره کرده اند. 2) قانون بروزرسانی Hub

بروزرسانی hub(p) را بدین صورت انجام می دهیم:

……………. قانون بروزرسانی Hub بدین معناست که اگر یک صفحه p دارای هایپرلینک هایی از n تعداد صفحه باشد، پس نموره hub آن صفحه برابر است با مجموع نمرات Authority تمام صفحاتی که بدان مرتبط شده است. 3) عادی سازی ارزش نهایی نمره های hub-authoriy گره ها پس از تکرارهای خاص الگوریتم تعیین می شود. بکاربردن مکرر قانون بروزرسانی Authority و قانون بروزرسانی Hub منجر به از هم دور شدن ارزش ها می گردد. بنابراین، ارزش های بدست آمده از این فرایند نهایتا به هم نزدیک خواهند شد. مرحله های ذکر شده در بالا را در الگوریتم زیر خلاصه کرده ایم: 1. تصور کنید که n تعداد گره ها (صفحات) در نمودار خاص جستجو باشد. 2. برای تمام n ها در مجموعه N، H[n] نشان دهنده نمره hub آن ست و A[n] نمایانگر نمره authority آن است. 3. برای تمام گره ها، ارزش آغازی H[n] و A[n] را یک در نظر بگیرید. 4. درصورتی که ارزش های H[n] و A[n] به هم نزدیک نمی شود، مراحل زیر را اجرا کنید:  برای تمام n های موجود در N، A[n]=()1 n H ii  برای تمام n های موجود در N، H[n]=90 1 n A ii  برای تمام n های موجود در N، مقادیر H[n] و A[n] را عادی سازی کنید. 4.4- فیلترینگ تکراری آزمایشات نشان می دهند که بیش از 20 درصد از اسنادی که بر روی وب در دسترس عموم قرار دارند، تکراری بوده و یا مشابه صفحات تکراری هستند. بنابراین به روشی نیاز است تا از طریق آن بتوان این اسناد تکراری را یافت، همانطور که در قسمت [4] تشریح شد می توانیم تشابه میان صفحات وب را بعنوان یک مشکل اشتراک مجموعه محاسبه نماییم. تکرار نسبت به مشکل اشتراک مجموعه از طریق فرایندی بنام شینگلینگ صورت می گیرد. در این روش، تمامی اسناد بصورت یک توالی علامات مورد مشاهده قرار می گیرد. این علامات ممکن است حروف، کلمات، یا خطوط باشند. فرض می کنیم که دارای یک برنامه تجزیه کننده هستیم که یک سند دلخواه را گرفته و آن را به یک توالی استاندارد از علامات تبدیل می کند. در اینجا استاندارد بدین معناست که هر دو سندی که تنها در قالب بندی و سایر اطلاعات قابل اغماضی چون نقطه گذاری، فرمان های قالب بندی، نوشتن با حروف بزرگ،و غیره با هم متفاوت هستند به یک توالی مشابه تبدیل خواهند شد. یک توالی پیوسته از علامات w موجود در D، یک شینگل نامیده می شود. در سند D، می توانیم w-شینگلینگ آن را بعنوان مجموعه ای از تمام شینگل های سایز موجود در D، به هم ارتباط دهیم. بنابراین برای مثال 4-شینگلینگ (اینترنت، مدرج، داده، و بررسی) برابر است با مجموعه {(اینترنت، مدرج، داده، ذخیره)، (مدرج، داده، ذخیره، و)، (داده، ذخیره، و بررسی)}. بنابراین، به هر شینگل یک نمره عددی اختصاص داده می شود که به عنوان یک ID منحصر بفرد برای هر یک از شینگل ها عمل می کند. این روش اثرانگشت برداری نامیده می شود. پس از اثرانگشت برداری هر شینگل در یک سند، سند مجموعه ای از اعداد طبیعی خواهد داشت که IDهای منحصر بفردی برای هر شینگل هستند. برای مثال، اگر D یک مجموعه باشد، S(D) سند مجموعه ای از تمام IDهای منحصر بفرد خواهد بود، و سایز S(D) تقریبا برابر خواهد بود با تعداد کلمات موجود در سند D. برای محاسبه تشابه بین دو سند A و B، عامل تشابه را بصورت r(A,B) تشریح می کنیم که بدین صورت محاسبه می گردد: S(A) S(B)| r(A,B) = |S(A) S(B)|  در اینجا، r = عامل تشابه بین دو سند، .... = اپراتور اشتراک، ..... = اپراتور منحصر بفرد. آزمایشات نشان دادند که تشابه بالا (یعنی تشابه به 1 نزدیک باشد) بخوبی مفهوم غیر شخصی تکرارهای مشابه و یا کاملا تکراری را ضبط می کند. 5. محدود کردن کیفیت نتیجه نتیجه حاصل از هر سیستم بازیابی اطلاعات می بایست از نقطه نظر میزان مرتبط بودن آن مورد ارزیابی قرار گیرد. بنابراین لازم است با استفاده از بعضی از اندازه های ارزیابی کیفیت نتیجه را محدود کنیم. این نوع ارزیابی را می توان با استفاده از واگذار کرن یک دسته از جستجوهای از پیش ساخته شده به سیستم انجام داد و ارتباط نتایج را اندازه گیری نمود. 5.1- اندازه های مرتبط بودن ارزیابی های سیستم مبنای اصلی، تست های Cranfield بودند که در دهه های 1950و 1960 توسط Cyril Cleverdon انجام شدند. وی کتابدار و تکنسین کامپیوتر در دانشکده Aeronautic در Cranfield انگلستان بود. Cleverdon دو نوع ابزار را تشریح نمود؛ -ابزارهایی که به روش های متفاوتی بر سودمندی تاثیر می گذارد، او آنهایی را که نسبت مرتبط بودن اسناد را افزایش می داد را ابزارهای دقت اعشاری نام نهاد، و آنهایی که نسبت تمام اسناد مرتبط را افزایش می داد را ابزار فراخوانی نام داد. ابزارهای دقت اعشاری و فراخوانی، را می توان به روش های متفاوتی ترکیب نمود تا رفتار سیستم در پاسخ به جستجوهای کاربر را متنوع نمود، نکته چالش برانگیز اندازه گیری میزان سودمندی هر یک از این ترکیبات است. آزمون های انجام شده توسط Cleverdon یکی از اولین آزمون های ارزیابی سیستم بود، بعدها تعداد زیادی از سازمان ها ارزیابی های بیشتری را انجام دادند، مانند Text Retrieval Conference (TREC)، که در سال 1992 توسط محققان NIST سازمان دهی شد، و ارزیابی های سیستم مبنایی را اجرا می کرد. همچنین NTCIR (مجموعه آزمون NII برای بازیابی اطلاعات که توسط سازمان ملی انفورماتیک ژاپن سازماندهی شد)، CLEF (Cross-Language Evaluation سازماندهی شده توسط Istituto di Scienza e Tecnologie dell’Informazione)، FIRE (دیوان ارزیابی بازیابی اطلاعات سازماندهی شده توسط انجمن بازیابی اطلاعات هند)، و INEX (ابتکار در ارزیابی بازیافت XML). 5.2- مجموعه آزمون قبل از آغاز ارزیابی یک سیستم بازیابی اطلاعات، می بایست بدانیم که یک کاربر این سیستم ها را برای چه بکار می برد؛ برای عمل بازیابی مانند بازیابی اسناد برای یک جستجو، برای فیلتر کردن اسناد مرتبط از نتایج بازیابی شده، و ... . تمام این اعمال بازیابی از یک مجموعه وسیع اسناد به نام مجموعه آزمون انجام می شود. یک مجموعه آزمون، محیط آزمایشگاهی را پوشش می دهد. این بدان معنی ست که کاربران را با توجه به نیازهای اطلاعاتی مدل سازی کنند که نمونه های خاصی از این اعمال است. این نیازهای اطلاعاتی عموما بر این فرض استوارند که در طول زمان تغییر نخواهند کرد. چنانچه نماینده ای از نیازهای کاربران سیستم باشند نشان خواهد داد که یک سیستم بخوبی عمل می کند و نشانگر عملکرد خوب یک سیستم خواهد بود. مجموعه های آزمون دارای سه مولفه هستند:  یک مجموعه اولیه از اسناد برای جستجو،  مجموعه ای از نیازهای اطلاعاتی کاربر،  قضاوت درباره مرتبط بودن نیازهای اطلاعاتی با اسناد موجود در مجموعه. 5.3- قضاوت درباره ارتباط قضاوت درباره ارتباط به ما می گوید که کدامیک از اسناد با هر یک از نیازهای اطلاعاتی مرتبط هستند. همانطور که در بالا تشریح شد، از آنجایی که قرار است افراد از اسناد استفاده کنند، پس مرتبط بودن اسناد نیز موضوعی ست که باید توسط خود افراد تعیین گردد. یک سیستم تنها می تواند مرتبط بودن را پیش گوئی کند، یک ارزیابی میزان دقت پیشگوئی یک سیستم در مرتبط بودن اسناد را تعیین می کند، و یک آزمایش به ما می گوید که کدام سیستم بهتر از دیگری عمل خواهد کرد. هنگامی که موضوعات بصورت قطعی درآمده باشند، آنگاه پردازشگران انسانی می توانند شروع کنند به قضاوت درباره مرتبط بودن اسناد. پردازشگران اسناد را می خوانند، آنها را با معنای موضع مقایسه کرده، و سپس می گویند که آیا مرتبط می باشد یا خیر (و حتی در صورت امکان، چگونگی مرتبط بودن آن را نیز مشخص می کنند). قضاوت جامع درباره مرتبط بودن- یعنی قضاوت درباره هر یک از اسناد موجود در مجموعه در مقایسه با هر یک از موضوعات- تنها راهی ست که با استفاده از آن می توان مطمئن شد که تمامی اسناد مرتبط شناسایی شده اند. اگرچه امکان پذیری این امر معلول فشارهای زمانی و بودجه ای نیز هست. یک ارزیاب قضاوت درباره یک میلیون سند را با سرعت نسبی 10 سند در هر دقیقه انجام می دهد، بنابراین برای کامل کردن قضاوت برای تنها یک موضوع، به بیش از 10 ماه کار هفتگی 40 ساعته نیاز خوهد بود. قضاوت متمرکز- بر روی بخش کوچکی از یک مجموعه بزرگ تلاش می کند و معمولا می تواند اسناد مرتبط مناسبی را برای اهداف آزمایشگاهی و ارزیابی فراهم آورد. یکی از روش های ساده، روش ادغام است: هریک از موضوعات موجود در مجموعه به یکی از سیستم های بازیابی متفاوت نسبت داده می شود، و N تعداد سند رتبه بندی شده توسط تمامی این سیستم ها برای قضاوت با هم ادغام می شوند. 5.4- ابعاد ارزیابی هنگامی که یک مجموعه آزمون قطعیت داده شد، در هر زمانی که یک فرد جستجوی مشتق شده ای از یکی از موضوعاتش را به یک سیسم بازیابی نسبت دهد، لیستی از اسناد بازیابی شده و رتبه بندی شده را بدست می آورد، و می تواند میزان سودمندی سیستم را با استفادها ز قضاوت درباره مرتبط بودن به هر موضوع، اندازه گیری نماید. ادبیات IR با اندازه های ارزیابی متفاوتی درگیر است، بدین معنا که جنبه های متفاوتی از عملکرد بازیابی را اندازه گیری می نماید: ما بر روی تعدادی از پرکاربردترین آنها تمرکز خواهیم کرد. 5.4.1- دقت اعشاری و فراخوانی دقت اعشاری و فراخوانی دو تا از اصلی ترین و مهمترین جنبه های سودمندی تعداد اسناد مرتبط بازیابی شده هستند: 1. دقت اعشاری: تعداد کلی اسناد بازیابی در مجموعه بازیابی شده، دقت اعشاری سیستم را به ما می دهد. 2. فراخوانی: تعداد کلی اسناد مرتبط بازیابی شده از مجموعه کلی اسناد یا از مجموعه وسیع قابل دسترس، مقدار فراخوانی سیستم را ارائه می نماید. فرض کنید که یک سیستم از یک مجموعه یک میلیونی، 10 سند را بازیابی کرده است؛ رجوع کنید به قضاوت درباره مرتبط بودن، ما دریافتیم که قضاوت درباره این 10 سند بدین ترتیب خواهد بود: مرتبط، مرتبط، مرتبط، مرتبط، مرتبط، مرتبط، غیر مرتبط، غیر مرتبط، مرتبط، مرتبط. 162 سند مرتبط شناخته شده در مجموعه وجود دارند. دقت اعشاری این نتایج برابر است با 8/0=10/8 و فراخوانی آن برابر است با 05/0 ≈ 162/8. یکی از راه حل ها این ست که بجای نگاه کردن به کل مجموعه بازیابی شده، به دقت های اعشاری و فراخوانی ها از روی یک سری انقطاع های رتبه بندی متفاوت نگاه کنیم. در یک سری از انقطاع های رتبه بندی، تمایلات دقت اعشاری و فراخوانی ظاهر می شوند. 5.4.1.1- منحنی دقت اعشار-فراخوانی سازش فراخوانی و دقت اعشاری بر روی یک سری از تقاطع های رتبه بندی منجر به تولید منحنی دقت اعشار-فراخوانی می شود. برای درک منحنی دقت اعشار-فراخوانی، مقدار دقت اعشاری و فراخوانی را در رتبه های متفاوت می سنجیم. برای مثال، سیستم بالا را تصور کنید که در آن 10 سند بازیابی شده اند. اکنون فرض کنید که به جای 10 سند 50 سند بازیابی شده اند که از میان آنها 20 سند مرتبط هستند، بنابراین دقت اعشاری برابرست با 50/20=4/0 و فراخوانی برابر است با 162/20= 05/0. در اینجا می بینیم که با افزایش رتبه مقادیر دقت اعشاری و فراخوانی نیز افزایش می یابند که ناشی از افزایش در تعداد اسناد بازیابی شده می یاشد. استفاده از مقادیر خام دقت اعشاری و فراخوانی در هر انتقطاع رتبه ممکن، یک منحنی مشابه آنچه که در تصویر 3 آمده است را ایجاد خواهد کرد. این منحنی نمایانگر آنست که مقدار فراخوانی هرگز با انقطاع رتبه بندی کاهش نمی یابد، درحالی که دقت اعشاری همراه با هر افزایش در فراخوانی، افزایش می یابد و همراه با ثبات فراخوانی کاهش خواهد یافت. برای خلق یک منحنی ملایم تر از تکنیک درون یابی استفاده می کنیم. دقت اعشاری درون یابی شده با توجه به مقدار فراخوانی و نه انقطاع رتبه بندی تشریح می شود. مخصوصا، برای فراخوانی داده شده سطح r، دقت اعشاری درون یابی شده در r عبارتند از مقدار دقت اعشاری اندازه گیری شده بیشینه در تمامی k تقاطع رتبه بندی که در آن فراخوانی نیز کمتر نباشد. فرمول بندی آن عبارتنداز: ................... تصویر 3: منحنی دقت اعشاری-فراخوانی بطور کلی 162 سند مرتبط وجود دارد، بنابراین فراخوانی به مقدار 0.006=162/1 افزایش می یابد. در حینی که فراخوانی از 0 به 25 افزایش می یابد، دقت اعشاری بطور پیوسته حرکتی رو به پایین خواهد داشت. سپس، در هنگام افزایش فراخوانی از 0.25 تا 0.7 ثابت باقی می ماند، و پس از آن باز شروع می کند به پایین رفتن.

تصویر 4. دقت اعشاری درونی شده در هنگامی که فراخوانی اشاره دارد به r= 0.0، 0.1، 0.3 (جزئیات تصویر 3). ابتدا نقطه R را روی محور X قرار می دهیم و سپس مقدار بیشینه دقت اعشاری بعد از آن نقطه را می یابیم. که مقدار عبارتنداز دقت اعشاری درونی شده در R. برای مطالعه جزئیات مربوط به منحنی دقت اعشاری-فراخوانی رجوع کنید به منبع {16}. 5.4.2. مدل سازی تلاش کاربر یکی از عوامل عملکرد سیستم که مقادیر دقت اعشاری و فراخوانی محور را مستقیما مخاطب قرار نمی دهند، مقدار تلاش مورد انتظار یک کاربر در حین کار با سیستم است. خانواده های متنوعی از اندازه ها وجود دارند که سعی کرده اند این تلاش را مخاطب قرار دهند؛ رایج ترین و پرکاربرترین آنها خانواده بهره تراکمی تنزیل شده (DCG) است.

خانواده بهره تراکمی تنزیل شده

بهره تراکمی تنزیل شده (DCG) بوسیله یک عملکرد بهره و یک عملکرد تنزیل تعریف می شود. عملکرد بهره، ارزش یک سند مرتبط خاص به یک کاربر را بازگو می کند، DCG را قادر می سازد تا از درجه های ارتباط سود ببرد. برای مثال، قضاوت درباره مرتبط بودن ممکن است در یک معیار سه رتبه ای (بدون ارتباط، مرتبط، بسیار مرتبط) و یا یک معیار پنج رتبه ای (ظعیف، متوسط، خوب، بسیار خوب، عالی) انجام شود. عملکرد بهرهDCG می تواند از این رتبه ها سود ببرد که از طریق نگاشن آنها بصورت مقداری عددی و بازتاب سودمندی آنها برای کاربر صورت می گیرد. دقت اعشاری و فراخوانی سنتی تنها می توانند از قضاوت های مبنای دو استفاده کنند. دو عملکرد نوعی بهره عبارتند از عملکردهای خطی و نمائی. بهره خطی بسادگی مقادیردر حال افزایش را بصورت تغییرات پله ای به هر یک از درجات ارتباط نسبت می دهد. مانند؛ غیر مرتبط ← 0، مرتبط ← 1، بسیار مرتبط ← 2. بهره نمائی بصورت مضربی مقادیر را افزایش می دهد، مانند؛ ضعیف ← 0، متوسط ← 1، خوب ← 3، بسیار خوب ← 7، عالی ← 15. یک توسعه دهنده می تواند از طریق میزان سازی عملکرد بهره، بگونه ای کاربران را مدل سازی کند که دارای درجات متنوع ترجیح برای میزان های مختلف ارتباط باشد. عملکرد تنزیل، صبر یک کاربر برای آماده شدن یک لیست رتبه بندی شده را بازتاب می کند. تصور می شود که با افزایش رتبه، عملکرد بهره نیز افزایش می یابد ولی تنزیل ها هرگز با یک حاشیه ناچیز افزایش یا کاهش نمی یابند. هرگاه یک عملکرد بهره g و یک عملکرد تنزیل d تعیین شده باشند، می توانیم بهره تنزیل شده را در هر رتبه ای تعیین کنیم که بعنوان نسبت بهره سند در آن رتبه به تنزیل آن رتبه می باشد: سپس ......... بصورت مجموع بهره های تنزیل شده از رتبه 1 تا k تعیین می گردد. ..................... بنابراین خواهیم دید که با افزایش در مقدار رتبه، عملکرد بهره بصورت خطی خواهد بود و عملکرد تنزیل بصورت لگاریتمی عمل خواهد کرد. 6. نتیجه گیری در این مقاله، ما به بحث درباره ابزار و روش های بازیابی اطلاعاتی پرداختیم که برای مرتفع ساختن برخی از مشکلات از خصوصیات وب بهره جسته است. برای سنجش کیفیت نتایج حاصل از بازیابی اطلاعات از مقادیر ارزیابی ای چون دقت اعشاری و فراخوانی استفاده کردیم، و نیز بررسی کردیم که چگونه سودمندی هر کدام را محاسبه کنیم. از آنجائیکه میزان سودمندی شدیدا به تلاش کاربر بستگی دارد، به این بحث پرداختیم که چگونه تلاش های کاربر در استفاده از عملکرد بهره و عملکرد تنزیل DCG (خانواده بهره تراکمی تنزیل شده) را مدل سازی کنیم. ارزیابی سودمندی یکی از مهمترین جنبه های تحقیق و طراحی سیستم های بازیابی اطلاعات است. سالانه تحقیقات بیشتری بر روی این موضوع انجام شده و مقالات بیشتری منتشر می گردند. موضوع ارزیابی و قضاوت درباره ارتباط موثر حائز اهمیت باقی می ماند. ساخت مدل های کاربر برای ارزیابی که ورای فرد و مرتبط بودن وابسته سند قرار می گیرد نیز علاقه روزافزونی را بخود اختصاص داده است. 7. چشم انداز آینده سیستم های بازیابی اطلاعات موجود بقدر کافی برای بازیابی صفحات مرتبط موثر هستند، اما هنوز هم مشکلات آشکاری وجود دارند که به بحث درباره آنها پرداختیم، مانند؛ آیا این صفحات نتیجه یک جستجوی جامع از وب است، چنانچه لیست کاملی از صفحات وب موجود نباشد چگونه می توان صفحات وب را بصورت یکپارچه بر روی وب سایت بعنوان نمونه قرار داد. همچنین، منابع متعددی (حافظه و زمان) را می شناسیم که بدلیل سر و کار داشتن با صفحات تکراری به هدر رفته اند، بنابراین لازم است که در کنار یافتن صفحات تکراری، برای یافتن تکرارهای معنایی از روی صفحات دیگر نیز تلاش کنیم.

بازیابی اطلاعات در وب

منوی ناوبری

ابزارهای شخصی

گویش‌ها

فضاهای نام

جستجو

بیشتر

بازدیدها

ناوبری

ابزارها