وب پنهان

از دانشنامه آزاد علم اطلاعات و دانش شناسی
پرش به: ناوبری، جستجو
وب پنهان Hidden Web

دکتر محمد باقر نگهبان

واژه وب پنهان اولین بار در سال 1994 توسط دکتر ژیل الزورث که از محققان جستجو و بازیابی اطلاعات در شبکه وب است در مصاحبه با نشریه کانادایی کامپیوتر بکار رفته است. در حقیقت بخش اعظم وب از دسترسی موتورهای جستجوگر دور است که به آن وب پنهان گفته می شود. شرمن و پرایس وب پنهان را اینچنین تعریف کرده اند: بخشی از شبکه جهان گستر وب است که منابع موجود درآن خارج از جستجو و بازیابی موتورهای کاوش عمومی قرار دارد و بازیابی منابع اطلاعاتی وب پنهان یا از نظر فنی و یا بدلیل محدودیت های دیگر از دسترسی و نمایه سازی این منابع باز مانده اند. منظور از وب پنهان بخشی از شبکه جهان گستر وب است که منابع موجود در آن خارج از حوزه جستجو و بازیابی مقدماتی موتورهای کاوش عمومی قراردارد و بازیابی اطلاعات موجود در این بخش از محیط وب ، با استفاده و جستجوی مستقیم از این موتورها میسر نیست. بعبارت دیگر امکان بازیابی منابع اطلاعاتی وب پنهان یا از نظر فنی برای موتورهای جستجو مقدور نیست و یا آنها به دلیل محدودیت های دیگر از دسترسی و نمایه سازی این منابع بازمانده اند. انواع منابع موجود در وب پنهان 1. جدیدترین منابع موجود در وب با ظهور وب امکان دسترسی سریع به بسیاری از منابع روز آمد فراهم شده است که یکی از مزیت ها و امتیازات مهم این شبکه به شمار می رود. اما از فاصله زمانی میان افزودن منابع جدید به محیط وب و امکان بازیابی آنها به وسیله ابزارهای کاوش غفلت شده است. دسترسی بی درنگ فقط زمانی حاصل می شود که کاربران نشانی اینترنتی این منابع را بدون واسطه موتورهای کاوش در اختیار داشته باشند. شناسایی منابع جدید توسط نرم افزارهایی موسوم به خزنده یا عنکبوت است. این نرم افزارها پیوندهای موجود در صفحات وب را دنبال می کنند و به این ترتیب صفحات جدید را شناسایی می کنند. این خزنده ها هر قدر هم سریع باشند نمی توانند با سرعت افزوده شدن منابع جدید و سرعت تغییرات اعمال شده در منابع قدیم هماهنگی داشته باشند؛ بنابراین همواره منابعی در وب وجود دارند که هنوز نمایه نشده اند و جزء وب پنهان محسوب می شوند. به بیان دیگر تناوب روز آمد سازی نمایه های موتورهای جستجو که ممکن است هفتگی یا حتی ماهانه باشد، منجر به بروز نوعی ناپیدایی در وب می شود. این بخش را وب مات یا وب تاریک و گاهی به عنوان وب تقریبا" پنهان می گویند. روش دیگر شناسایی یک منبع جدید توسط موتورهای جستجو با معرفی آن به موتورهای جستجو می باشد و این نیاز به زمان دارد ودر طول این فاصله زمانی،گرچه منبع مورد نظر در شبکه وب وجود دارد؛ اما امکان بازیابی میسر نیست. به همین دلیل جزءوب پنهان به شمار می رود. 2. منابع اطلاعاتی غیر متنی (قالبهای محتوا) موتورهای جستجو برای نمایه سازی منابع ابر متن طراحی شده اند؛ در حالی که بسیاری از منابع موجود در شبکه وب در قالبهای دیگر و معمولا" غیر متنی هستند. مثل تصاویر یا منابع دیداری شنیداری ، قالبهای پی دی اف که امکان نمایه سازی این منابع توسط موتورهای جستجو امکانپذیر نیست. این منابع را شرمن و پرایس وب واقعا" پنهان نامیده اند. 3. منابع محافظت شده از طریق اسم کاربر و گذر واژه چنانچه دسترسی به یک منبع نیازمند استفاده از اسم کاربر و گذر واژه باشد؛ نرم افزار خزنده موتور جستجو امکان دسترسی و نمایه سازی آن را ندارند. این قسمت از قلمرو وب پنهان را وب خصوصی یا وب شخصی می نامند. مخفی بودن اطلاعات در این بخش کاملا" تعمدی است و اطلاعات مذکور جزء دارایی های شخص و یا سازمان است، مانند اطلاعات مربوط به سازمانها. علاوه بر وب خصوصی بعضی از منابع اطلاعاتی مانند انواع نشریات الکترونیکی و بانکهای اطلاعاتی مبتنی بروب که دسترسی به آنها مستلزم پرداخت حق اشتراک و در واقع خرید اطلاعات است، جزء محصولات شرکت های مختلف هستند و از حوزه دسترسی موتورهای کاوش خارجند. این بخش از وب نامرئی را وب ملکی می نامند. 4. پایگاه های اطلاعاتی با صفحات جستجو مبتنی بر وب پایگاههای اطلاعاتی متعددی در شبکه وب وجود دارند که گرچه دارای صفحه جستجوی مبتنی بر وب هستند، اما مندرجات آنها در قالبهای دیگری است و فقط زمانی یک صفحه ابر متن تولید می شود که جستجوی مستقلی در درون پایگاه مربوطه اجرا شود. پس از گسترش شبکه وب، بسیاری از پایگاهها اطلاعات الکترونیکی خود را از طریق این شبکه دسترس پذیر ساختند. این مجموعه که به وب عمیق مشهور است، از نظر کمی بزرگترین قسمت از قلمرو وب نامرئی را به خود اختصاص می دهد؛ به طوری که حجم اطلاعات موجود در وب عمیق چندین برابر وب آشکار یا سطحی تخمین زده شده است. مانند ERIC, Pub med, . 5. منابع و صفحات وب بدون پیوند (لینک) کاربران با دنبال کردن هر یک از پیوندها به راحتی بین صفحات مختلف حرکت می کنند و این پیوند ها تنها راه موجود برای خزند ه های موتورهای کاوش برای یافتن صفحات جدید به شمار می روند. هر چند وجود صفحات وب بدون پیوند با صفحات دیگر غیر معمول به نظر می رسد، اما هنوز صفحات فراوانی در این شبکه وجود دارد که هیچ پیوندی با هیچ منبع یا صفحه دیگری برقرار نکرده اندو منابع دیگر نیز پیوندی با آنها ایجاد نکرده اند و به همین دلیل خزنده های موتورهای جستجو قادر به یافتن آنها نیستند. 6. عمق نمایه سازی موتورهای جستجو هر وب سایت از بیش از یک صفحه تشکیل شده و دارای لایه های زیرین زیادی است. منظور از لایه های زیرین صفحات موجود در وب سایت ها هستند که امکان دسترسی به آنها از طریق صفحه نخست وب سایت با صفحات دیگر فراهم می شود. بسته به نوع سایت تعداد این صفحات ممکن است زیاد باشد و بسیار هزینه بر و توان مالی و فناوری بسیاری از موتورهای جستجو به آنها اجازه نمی دهد که بتواند همه صفحات و لایه های موجود در همه وب سایت هایی را که می یابند نمایه سازی کنند. بنابراین هر یک از موتورهای جستجو بسته به توان مالی خود سیاستی مشخص برای نمایه سازی اتخاذ کرده اند و فقط تعداد معینی از لایه های بالایی وب سایتهای شناسایی شده را نمایه می کنند. بنابراین همواره بخشی از اطلاعات لایه های زیرین وب از حوزه جستجوی کاربران دور می مانند. 7. حداکثر صفحات قابل مرور در نتایج بازیابی به دلیل انبوهی فزاینده اطلاعات موجود در شبکه وب، بیشتر جستجوها در موتورهای کاوش نتایج بازیابی فراوانی دارند که بیشتر کاربران فقط صفحات اول یا دوم نتایج بازیابی را مرور می کنند و به ندرت به صفحات بعدی مراجعه می کنند. گر چه این موتورهای جستجو تلاش می کنند بر اساس نظام رتبه بندی موارد مرتبط تر را نمایش دهند، اما همیشه اطمینان به این کار نیست و قضاوت بر عهده کاربر است. بنابراین در بهترین شرایط هم ممکن است بعضی از صفحات توسط موتورهای جستجو مدفون شوند و جزء وب پنهان به شمار روند. بطو ر کلی انواع مدارکی که وب پنهان را می سازند عبارتند از: 1. صفحات اچ تی ام ال پویا (مدارک وبی که در نتیجه یک تعامل و بطور تصادفی گردآوری می شوند 2. قالبهای غیر اچ تی ام ال ( فایلهای برنامه های اجرایی و فشرده ) 3. اطلاعات ناپایدار ( مانند خبرهای جاری) 4. آثار غیر تجاری ( مانند گزارش های دولتی، مقالات دانشگاهی، گزارش کمیته ها) 5. محتوای پایگاه اطلاعاتی دلایل عدم بازیابی و نمایه سازی وب پنهان توسط موتورهای کاوش 1. دلایل فنی : بسیاری از موتورهای کاوش به دلیل محدودیتهای نرم افزاری توانایی روز آمد سازی اطلاعات جدید وب را ندارند. هنوز هیج موتور کاوشی ادعا نکرده است که قادر به گسترش حوزه کاوش خود به تمام محیط وب می باشدو همیشه این موتورها یک گام از سرعت روز افزون اطلاعات عقب تر هستند. 2. دلایل بودجه ای: فرآیند نمایه سازی تمام صفحات وب هزینه بر خواهد بود و موتورهای کاوش نیز بنا به محدودیت بودجه ناگزیرند فقط بخشی از وب سایت ها را نمایه سازی کنند. 3. دلایل اجتماعی و حقوقی: از آنجا که اطلاعات موجود در وب در دسترس عموم قرار می گیرد بسیاری از افراد و سازمان ها به دلیل صرف بودجه های کلان در راه اندازی سایت ها و پایگاههای اطلاعاتی خود حاضر نیستند این اطلاعات را به طور رایگان در اختیار همه بگذارند. البته از لحاظ اجتماعی و حقوقی حق مسلم آن ها است . راههایی که دسترسی به وب پنهان را هموار می کند برای استفاده از وب پنهان ابتدا باید آدرس یکی از آنها را به کمک موتورهای جستجوگر بیابید. به عنوان مثال اگر موضوع پزشکی مد نظر شماست، کافیست که در گوگل اینگونه جستجو کنید: پایگاه داده پزشکی یا پایگاه داده علوم پزشکی. در هر صورت کلمه "پایگاه داده"Database یک کلمه کلیدی است. فراموش نکنید که "وب پنهان" به هر حال وجود دارد و صرف کمی وقت برای استفاده از آنها می تواند مکمل مناسبی باشد برای آنچه که از طریق موتورهای جستجوگری نظیر یاهو و گوگل ، لایو سرچ ، اکسالید می یابید. برخی از آنها عبارتند از: راهنماها:

Open Directory Project: www.dmoz.org بزرگترين راهنمای وب که توسط افراد (غیر ماشینی) انجام می گیرد Librarian's Internet Index: www.lii.org پايگاه اطلاعاتی با حدود 17000 وب سایت با عناوین متنوع با ارائه خبر نامه Infomine: http://infomine.ucr.edu مجموعه پژوهشهای اینترنتی دانش پژوهان از دانشگاه کالیفرنیای جنوبی Digital Librarian: www.digital-librarian.com

دیجیتالی سایت " کتابدار دیجیتالی" مارگارت اندرسون

مسیر یابها:

Library and Information Technology Association: http://www.ala.org/ala/lita/litaresources/toolkitforexpert/toolkitexpert.htm

انجمن کتابداری و فناوری اطلاعات A tutorial from the University of California-Berkeley: http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html خود آموزی از دانشگاه کالیفرنیا Lackie, Robert J. "Those Dark Hiding Places: The Invisible Web Revealed.": http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web_Main.html آشکار سازی وب پنهان " آنانی که مخفیگاهها را تاریک می کنند" کاوشگرها: www.completeplanet.com ¡www.kartoo.com www.google.com www.search-22.com www.freepint.com/gary/direct.htm http://searchpdf.adobe.com www.closerlooksearch.com http://oaister.umdl.umich.edu/o/oaister/ پایگاههای اطلاعاتی خاص:

www.findarticles.com - a database of free articles

MagPortal.com - a database of free articles www.anywho.com - "Finding People, Places, and Businesses" www.findlaw.com - information on federal and state laws, lawsuits, etc. http://www.thegateway.org - Gateway to Educational Materials, U.S. Dept. of Education - cataloged collection of educational materials from federal, state, and university web sites. www.nsdl.org - National Science Digital Library www.usa.gov www.gpoaccess.gov http://catalog.loc.gov - Library of Congress www.ncbi.nlm.nih.gov/PubMed - free Web version of Medline 0. www.infousa.com - company database www.infousa.com - company database of 12 million records www.singingfish.com - For audio and video searching http://www.scienceresearch.com/ - Searches web-based science journals, databases, and websites not accessible through general purpose search engines www.shadowtv.com

بزرگراههای اطلاعاتی (راهنمای موضوعی) • Librarians Internet Index • Academic Info • Info mine • Digital librarian • Internet public library • BUBL( 360پایگاه اطلاعاتی) راهنمای موضوعی ارزیابی شده با استفاده از www.invisible-web.net می توانید موارد بسیار دیگری از وب پنهان متناسب با نیازتان را مشخص کنید. بدیهی است که به هر صورت آگاهی از موضوع مورد نظر بیشتر باشد با سهولت بیشتری می توانید به آنچه جستجو می کنید برسید. به منظور فراهم کردن امکان جستجو از ابزارهای جستجو مثلا" منطق بولی و مجاورت (AND,NOT, OR، NEAR,SAME)کوتاه سازی و ریشه گیری استفاده نمایید و برای بازیابی مدرک نهان کافی است تنها روی "CACHED"کلیک نمایید. برای پیدا کردن اطلاعات نا پایدار مانند اخبار جاری در روزنامه ها ، گزارش ها به سایت www.news.google.com و www.wn.com مراجعه کنید. www.scholar.google.com دسترسی به متون پژوهشی و انجام کارهای تحقیقاتی را از طریق انواع منابع نظیر ناشران و پایگاه داده ها فراهم می سازد. اینترنت منبع مهمی برای دستیابی به اطلاعات معتبر و موثق است. مهم آن است که کاربر تکنیکهای جستجو و ارزیابی اطلاعات را بداند تا بتواند بهتر و سریعتر به آنچه که می خواهد دست یابد. از سوی دیگر تمام اطلاعات از طریق موتورهای جستجوگر قابل دسترسی نیست. ماهیت تجاری بسیاری از سایتها و همینطور محدودیتهای تکنولوژیکی، موتور جستجوگر را از دسترسی به تمام اطلاعات وب دور می کند. در این مورد کاربر باید بتواند از اطلاعات موجود در "وب پنهان" بهره گیرد. واقعیت آن است که چالش عمده ما در حال حاضر نبود اطلاعات نیست، بلکه دسترسی به اطلاعات مهمتر شده است. آنهم دسترسی به اطلاعات دقیق و معتبر و در زمان مورد نیاز. گفته می شود وب منبع بزرگ اطلاعاتی عصر حاضر است و تقریبا درباره هر موضوعی می توان در آن اطلاعاتی یافت. در آن می توانیم درباره موضوعاتی از "پرورش لاک پشت" تا "طراحی موشک" اطلاعاتی بیابیم. اما کجا؟ به عبارت دیگر در کدام سایت؟ اهمیت وب پنهان وب پنهان از جهت کمی و کیفی دارای اهمیت است. از نظر کمی حجم اطلاعات نهفته در وب پنهان خیلی بیشتر از بخش سطحی یا آشکار است. دوم از نظر کیفی اطلاعات مندرج در بخشهای این مجموعه به ویژه منابع اطلاعاتی موجود در وب عمیق، معمولا" منابع ارزشمند و مفیدی هستند و می توانند در بسیاری از موارد پاسخگوی نیاز کاربران باشند. بنابراین نمی توان بخش پنهان وب را نادیده گرفت. روشهای اطلاع یابی در وب پنهان مهمترین گام آگاهی رسانی در باره وجود قلمرو تاریک وب است. بسیاری از کاربران از وجوداین بخش از وب بی اطلاع هستند. شرمن و پرایس در بیان بخشی از مشکلات کاربران می گویند: بسیاری از کاربران بر این باورند که تمام اطلاعات موجود در وب در حوزه دسترسی موتورهای جستجو قرار دارد و همه این موتورها نیز مجموعه یکسانی از وب را کاوش می کنند. در ضمن آنها از این نکته مهم غفلت می کنند که روش کار موتورهای جستجو با هم متفاوت است. اگر کاربران به این مسائل آگاهی داشته باشند می توانند جستجوهای دقیق تر و مطمئن تری انجام دهند. استفاده از امکاناتی مانند دروازه های اطلاعاتی موضوعی و راهنماهای موضوعی که توسط متخصصان موضوعی و کتابداران نوشته می شود و از اعتبار و کیفیت با لایی برخوردار هستند؛ بسیار مفید است. گام دوم گسترش دادن حوزه جستجو می باشد. برای مثال استفاده از ابر موتورهای کاوش است. این ابر موتورها خود موتور جستجوی واقعی نیستند بلکه به کاربران این امکان را می دهند که کلید واژه های خود را همزمان توسط چند موتور جستجو مورد کاوش قرار دهند و نتایج جستجوی همه آنها را یکجا در اختیار داشته باشند. گام سوم استفاده از عوامل هوشمند است. این عوامل هوشمند برنامه ها یا نرم افزار کامپیوتری می باشند که به نیابت از کاربر عمل جستجو، مقایسه و انتخاب منابع اطلاعاتی را بر اساس نیاز مطرح شده ، به عنوان کارگزار انجام می دهدو نتایج جستجو را بر اساس نیاز مطرح شده توسط کاربران فیلتر کرده و به آنها تحویل می دهند. به طور کلی پیش بینی می شود با پیشرفت ابزارهای بازیابی اطلاعات در وب و بهبود سواد اطلاعاتی کاربران به تدریج از سطح ناپیدایی اطلاعات در محیط وب کاسته شود. ( مانند نرم افزار مانند Copernic) مهمترین راهکار عملی برای نفوذ به قلمرو تاریک وب آگاهی از وجود آن و آگاهی از روش های اطلاع یابی در آن است. انواع وب پنهان وب مات: گاهی اطلاعات به دلایل زیر در وب مات قرار می گیرد: - درفاصله زمانی میان معرفی سایت جدید تا ظهور آن در نتایج جستجوی یک موتور جستجو - درفاصله زمانی که عملیات روزآمدسازی پایگاه های اطلاعاتی موتورهای جستجو انجام می گیرد ( روزانه ،هفتگی ، ماهانه ) - فاصله زمانی میان افزودن منابع جدید به محیط وب تا فراهم شدن امکان بازیابی آن توسط موتورهای جستجو وب خصوصی ( شخصی): چنانچه دسترسی به یک منبع اطلاعاتی نیازمند استفاده از نام کاربری و رمز عبور باشد ، نرم افزار خزنده وب امکان دسترسی و نمایه سازی آن را ندارد. این بخش از قلمرو پنهان وب را وب خصوصی گویند. به عبارت دیگر این بخش از اطلاعات وب، جزء دارایی های شخصی و خصوصی افراد یا سازمانهاست و درحقیقت بصورت آگاهانه از دسترس موتورهای جستجو خارج می شود. وب ملکی : برخی منابع اطلاعاتی مانند نشریات الکترونیکی ، بانکهای اطلاعاتی مبتنی بر وب بوده و دسترسی به آنها مستلزم پرداخت حق اشتراک و خرید اطلاعات است. لذا از حوزه دسترسی موتورهای کاوش خارج است. این بخش از وب پنهان را وب ملکی می نامند. منابع وب ملکی از اعتبار علمی بالائی برخوردارند . دانشگاه ها سالانه مبالغ زیادی برای اشتراک و برخورداری از امکان دسترسی به این منابع می پردازند. وب عمیق : پایگاه های اطلاعاتی متعددی در وب وجود دارند که اگرچه دارای صفحه جستجوی مبتنی بروب هستند اما مندرجات آنها در قالبهای دیگر ارائه می شود و فقط زمانی یک صفحه ابرمتن تولید می شود که جستجوی مستقلی در درون پایگاه مربوطه اجرا شود. اکثر پایگاه های اطلاعاتی منابع خود را از طریق این شبکه دسترس پذیر ساخته اند. این بخش ازوب را وب عمیق می نامند و از نظر کمی بزرگترین بخش از قلمرو پنهان وب است. حجم اطلاعات موجود در وب عمیق چندین برابر وب آشکار است. از نظر فنی میان وب ملکی و وب عمیق شباهت وجود دارد؛ اما از آنجا که در این بخش از وب پنهان ، منابع مالی تولیدکنندگان اطلاعات منجر به خارج کردن این منابع از حوزه دسترسی موتورهای جستجو شده است، این گروه در دسته ای جداگانه طبقه بندی می شوند. وب واقعا پنهان : منابع اطلاعاتی غیرمتنی جزء وب واقعا پنهان بشمار می روند. چون موتورهای کاوش برای نمایه سازی منابع ابرمتن طراحی شده اند؛ درحالیکه بسیاری از منابع موجود در وب در قالبهای دیگر و معمولا غیرمتنی ( تصویر ، منابع دیداری شنیداری ، ...) ظاهر می شوند و امکان نمایه سازی آنها در موتورهای کاوش وجود ندارد و یا به یک منبع متنی برای توصیف نیازمندند. روشهایی که می توان منابع اطلاعاتی را از دید رباتهای موتورهای جستجو ( نرم افزار خزنده وب) محفوظ نگهداشت: - استفاده از نام کاربری و گذر واژه - استفاده از فایلی با عنوان روبوت تکست - استفاده از کد no index یا no follow به گونه ای که با افزودن یکی از این کدها به مجموعه کدهای یک صفحه وب ، پیامی برای خزنده موتورجستجو به شمار می رود که آن را از نمایه سازی صفحه مذکور منع خواهد کرد. واقعیاتی درباره وب پنهان ● بهترین موتورهای جستجو فقط قادر به در دسترس قرار دادن حدود 14% اطلاعاتی هستند که بر روی شبکه جهانی وب قرار داده شده است، بنابراین 86% اطلاعات خارج از دسترس موتورهای جستجو است. ● اندازه وب پنهان550 بیلیون بزرگتر از وب آشکارظاهر است. ● وب پنهان حاوی حدود 550 بیلیون مدرک است، در حالیکه در مقام مقایسه با وب آشکار یک بیلیون صفحه است. ● وب پنهان بزرگترین رشد مقوله اطلاعات جدید را در وب دارد. ● 95% وب پنهان اطلاعات برای همگان قابل دسترسی است(اما از طریق موتورهای جستجو نمی‌توان به آنها رسید). ● بیش از نیمی از وب پنهان در پایگاههای اطلاعاتی معین است. منابع: 1. اردلان، رضا (1382) "بازیابی اطلاعات از طریق اینترنت" ، مجموعه مقالات ششمین همایش کتابداران سازمان مدیریت و برنامه ریزی کشور ، یزد 18-16 بهمن،1380تهران : سازمان مدیریت و برنامه ریزی کشور، معاونت امور پشتیبانی 2. خسروی، عبدالرسول(1383)، "وب نامرئی". نشریه علوم اطلاع رسانی، دوره20، شماره1و2، ص.51- 58 3. صادقی گورجی، شهربانو(سال)، " وب پنهان چیست". خبرنامه انجمن ریاضی ایران 4. مقدسی، علیرضا، ملک آبادی زاده، فاطمه(1387)، "آشنایی با وب پنهان( ابزاری برای گسترش سطح دسترس پذیری به اطلاعات در وب)" ، عصر فناوری اطلاعات، شماره33 5. منصوریان، یزدان(1384)، " تدوین مدل اطلاع یابی کاربران در محیط وب پنهان: مراحل مقدماتی". فصلنامه کتاب(63) 6. منصوریان، یزدان(1389)، " وب پنهان". کلیات کتاب ماه اطلاعات ارتباطات و دانش شناسی 7. هنینجر، مورین(1389)، "وب پنهان: راهنمای گام به گام جست و جوی اطلاعات عمیق از اینترنت" ترجمه زاهد بیگدلی، سمیه شریفی، علی نصرتی اردکانی، تهران: چاپار. 8. www.google.com 9. www.magiran.ir 10. www.sid.ir