استخراج اطلاعات

از دانشنامه آزاد علم اطلاعات و دانش شناسی
پرش به: ناوبری، جستجو

استخراج اطلاعات

ترجمه وحیده آریا منش و دکتر محمد باقر نگهبان

استخراج اطلاعات زبان ساده یعنی رفتن به سراغ اطلاعاتی مفقود شده که سال ها پیش شکل گرفته اند در بسیاری از موانع یک شرکت حتی فراموش می کند که زمانی چنین اطلاعاتی را در اختیار داشته است . این امر معمولا به دلیل مدیریت غیر متمرکز بانک های اطلاعاتی فقدان سیستم های منطقی بایگانی اطلاعات یا وجود سیستم های مملو از اطلاعات قدیمی یا مفقود شده است . ارزش واقعی اطلاعات ریشه در تحلیل داده ها برای آشکاری یا ایجاد کردن روابطی دارد که مثلا کشف شده اند اگر شما زحمت پردازش اطلاعات را به خود ندهید داشتن بانک اطلاعاتی شود هیچ ارزشی ندارد . ارزیابی و تحلیل اطلاعات به شما کمک می کند تا سوابق فروش خود را به روز و از شرایط مشتریان و عرضه کنندگان در بازارهای صنعتی و تجاری و مصرفی چه در بخش دولتی و چه در بخش خصوصی مطلع باشید .


استخراج اطلاعات استخراج اطلاعات IE ، عمل خودکار (اتوماتیکی) استخراج اطلاعات سازمان یافته است از اصلی غیر سازمان یافته و یا نیمهس ازمان یافته قابل خواندن توسط کامپیوتر در بیشتر موارد این فعالیت به پردازش متنهای زمان انسان که توسط پردازش زبان طبیعی NLP است مربوط می شود . فعالیتهای اخیر در پردازش اسناد چند رسانه ای مانند زیرنویسی خودکار و استخراج شدن در تاصویر صدا /فیلم توانسته است بعنوان مندراجات اطلاعات در نظر گرفته شد . نسبت به سختی مسئله رویکردهای اخیر در IE بر دامنه های محدود و موشوکافانه تمرکز کرده است . استخراج گزارشات سرویس خبری اینترنتی از تلفیقهای (انعام) مشترک و یکپارچه از قبیل نشانه گذاری ارتباط رسمی از این نمونه ها است . تلفیق این شرکت او شرکت 2- تاریخ از یک جمله خبر گذاری بر خط (آنلاین) از قبلی در بروز شرکت ، فو FOO مستقر در نیویورک از تملک شده از BAR CORP خبر داد . هدف گسترده IE اجازه دادن به محاسباتی است که بر روی اطلاعات اخیر غیر سازمان یافته انجام گرفته است . یک هدف اختصاصی می تواند اجازه دادن به استدلالهای منطقی است که بر اساس محتوای منطقیاطلاعات از یک دامنه هدف انتخابی هستند که با مد نظر داشتن طبقه و متن تعریف می شود . 1-تاریخچه – محتوا 2- اهمیت کنونی 3-وظایف زیر وظایف 4-کاربرد شبکه جهانی WWW 5-رویکرد 6-نرم افزار یا منبع باز و سرویسها 7-نرم افزار تجاری و سرویسها 8-همچنین بسیار 9-منابع 10-پیوستهای اضافی تاریخچه استخراج اطلاعات به اواخر 19704 در اولین روزی NLF بر می گردد . نزدیکترین سیستم تجاری ، بازرگانی (میانه ) دهه JASPERA80 بود که توسط گروه کارنژی CARNEGIE GROP به هدف تامین اخبار اقتصادی برای تجارت اختصاص ایجاد شد . در اوایل 1987 IE توسط سری کنفرانس درک پیغام بر انگیخته شده . MUC یک کنفرانس رقابتی پایه است که بر روی دامنه ای ذیل متمرکز کرده است . MUC1 Q&7 MUC 2 پیامهای کاربردی دریانوردی MUC 3 تروریسم در کشورهای آمریکای لاتین MUC 4 MUC5 (1993) اتصال کار مخاطره آمیز و دامنه میکرو الکترونیکها MUC6 (1995)عناوین خبر در تغییرات مدیریتی MUC7 (1998)گزارشات پرتاب ماهواره ماهیت قابل توجه از طرف آژانس پروژه های تحقیقاتی پیشرفته دفاعی آمریکاست که تمایل درد وظایف پیش پا افتاده ای را که توسط تحلیل های دولتی اجرا می شوند را ماشینی کرده از قبیل اسکن کردن روزنامه ها پیوستهای مناسب به تروریسم اهمیت کنونی اهمیت کنونی IE به مقدار رشد اطلاعات قابل دسترس در شکل غیر سازمان یافته مربوط می شود . تیم برنرزلی (timberners lee) خالق شبکه گسترده جهانی (word lived web) به اینترنت موجود بعنوان شبکه اطلاعات اشاره می کند و تبلیغ می کند که بیشتر محواهای بصورت شبکه ای از اطلاعات بصورت قابل دسترس ساخته شده اند . تا قبل از این اتفاق شبکه بصورت گسترده شامل انسان غیر سازمان یافته ای بود که فاقد اطلاعات جانبی معنا شناختی بودند . دانش موجود در این اسناد می تواند برای جریانات ماشینی توسط وسایل و ابزارهای تبدیلی به شکل ارتباطی و یا توسط سود افزوده با هدف xml قابل فهم تر ساخته شوند . استخراج رابطه شناسایی رابطه بین ماهیتها از قبیل شخص برای سازمان کار می کند (استخراج از جمله بیل برای ibh کار می کند . شخص در محل ساکن است (استخراج از جمله بیل در فرانسه است ) استخراج اطلاعات نیم ساختاری که ممکن است به هر IE مربوط شود . در این حالت سعی می کند که بعضی انواع ساختار اطلاعاتی را که بازیابی می کند از طریق انتشار یافتن از دست می روند و تبادل می شوند . استخراج جدول : پیدا کردن استخراج جداول انسان ها استخراج نظریات : استخراج نظریات از متن واقعی موضوع به منظور بازریابی پیوند بین نویسنده جمله تحلیل زبان واژه استخراج اطلاعات : پیدا کردن جمله مربوط برای پیکرده داده شده استخراج صوتی استخراج موسیقی با پایه الگویی : پیدا کردن خصوصیات مرتبط در یک واحد صوتی گرفته شده از منبع داده شده بعنوان مثال فهرست زمانی رویدادهای صداهای ضربه ای می تواند به منظور نشان دادن اجزا ریتم یک قطعه موسیقی استخراج شوند . به یاد داشته باشید که این لیست جامع نیست و اینکه معنی دقیق فعالیتهای IE بطور عموم پذیرفته نیست و رویکردهای بسیاری زیر وظایف چند منظوره IE را به منظور دستیابی به هدف گسترده ی با هم تلفیق می کند . آموزش ماشینی ، تحلیل آماری و یا پردازش زمان طبیعی اغلب در IE مورد استفاده قرار می گیرند . IE اسناد غیر متنی دارند موضوع جالبی در تحقیق می شوند و استخراج اطلاعات اسناد چند رسانه ای هم اکنون می تواند در متن اجرا می شود در ساختار سطح بالایی نیز بیان شود . بطور طبیعی این مسئله به ترکیب اطلاعات استخراج شده از نوع چندگانه و منابع منجر شود . کاربرد شبکه جهانی IE کانون توجه کنفرانس های MUC بوده است . به هر حال تکثیر شبکه نیاز افزایش سیستم IE را تشدید می کند که به مردم برای دستیابی به مقدار عظیمی از اطلاعات کمک می کند که این اطلاعات بصورت آنلاین قابل دسترسی هستند . یک نماینده هوشمند که تغذیه داده های جدید نظارت می کند در IE درخواست می کنند که راه های غیر سازمان یافته به چه چیزی تبدیل کند که بتوان به آن استدلال کرد . کاربرد هادی IE اسکن کردن دسته ای از اطلاعات نوشته شده در زبان طبیعی و مسکونی کردن یک پایگاه داده ای با اطلاعات استخراج شده است . وظایف زیر وظایف به کارگیری استخراج اطلاعات در متون به مسئله ساده سازی متون به منظور ایجاد دیگر سازمان یافته از اطلاعاتی متصل می شود که در متون آزاد موجود دارد . هدف کلی ایجا متون قابل خواندن توسط ماشینی ساده تر است که جملات را پردازش می کند . زیر وظایف عادی IE شامل استخراج ماهیت نام شفاهی می شود . که می تواند شامل تشخیص ماهیتی نام شناختی شود . تشخیص نامهای ماهیتی شناخته شده (برای افراد و سازمانها) یا اسامی محل ها توصیفهای موقتی ماد گونه های خاص توصیفهای عددی ، به کار گیری دانش موجود دامنه یا یک تشخیص دهنده منحصر به فرد به ماهیت استخراج یافته است . وظیفه ساده تر ، شناسایی ماهیت نام گرفته است که هدفش شناسایی ماهیتهایی بودن داشتن دانش موجود در مورد نمونه های ماهیتی است . بعنوان مثال در پردازش جمله ام ، اسمیت ماهیگیری را دوست دارد . تشخیص ماهیت نام شناسی ، دلالت بر کشف این دارد که عبارت ام اسمیت به یک شخص بر می گردد . بدون اینکه دانش را داشته باشد (یا استفاده کند) ام اسمیت معنی : وجود دارد (یا ممکن وجود داشته باشد ) که جمله درباره آن حرف می زند . قطعنامه کنفرانس : شناسایی کنفرانس و پیوندهای مرجع پیایند بین ماهیتهای متنی از وظایف IE این مسئله بطور عادی محدود شده است که پیوندهای بین ماهیتهای نام شناسی که اخیرا استخراج شده اند را پیدا کند. بعنوان مثال : ماشینهای تجاری بین المللی در IBM به یک ماهیت یکسان جهانی بر می گردد. اگر ما دو جمله این دو جمله را در نظر بگیریم ام اسمیت ماهیگری را دوست دارد . اما او دوچرخه سواری را دوست ندارد . ما برای تشخیص اینکه او به شخص اخیراً شناسایی شده ام اسمیت بر می گرد سودمندخواهد بود .

سیستمهای که IE را از متن آنلاین (بر خط) اجرا می کند باید نیازهای کم هزینه ای را برآورده کنند که در پیشرفت توسعه قبل تعبیر هستند و برای دامنه های جدید به آسانی تطبیق پیدا می کند . سیستمای MUC از عهده برآوردن این معیارها عاجز هستند علاوه بر آن تحلیلهای شناسی اجرا شده برای متن غیر سازمان یافته ازبرچسب های HTML-XML طراحی که در متن آنلاین قابل دسترسی است بهره برداری نمی کند . در نتیجه رویکردهای که از لحاظ زمانشاسی کمتر کار شده اند برای IE با روکش مورد استفاده از شبکه توسعه نیافته اند که این روکشها یک سری قوانین ثابت کرده اند که یک عمل وقت گیر هستند و نیاز به مهارت سطح بالایی دارند . تکنیکهای آموزش ماشینی چه نظارت شده برای ترغیب کردن چنین قوانینی به صورت خودکار مورد استفاده قرار می گیرند روکش ها بطور نمونه مجموها های بسیار سازمان یافته صفحات شبکه را در دست خود دارند از قیبل تولید کاتالوگها و دفترهای راهنمای تلفن اما به هر حال زمانی با شکست مواحه می شوند که نوع متن کمتر سازمان یافته است که البته آنهم در شبکه عادی است . تلاشهای اخیر در استخراج اطلاعات قابل انطباق پیشرفت سیستم های IE را ترغیب کرده است که این سیستم ها می تواند انواع مختلف متن را کنترل کنند . متنهایی از خوب سازمان بیافته تا متنهای تقریبا آزاد جایی که روکشهای عادی با شکست مواجه می شوند که شامل انواع متنهای ترکیبی می باشند . چنین سیستم هایی می توانند از دانش زبانی طبیعی کم مایه بهره برداری کنند و بنابراین می توانند مورد استفاده متنهای ضعیف سازمان یافته نیز قرار گیرند . رویکردها هم اکنون سه رویکرد استاندارد بطور گسترده ای پذیرفته شده اند . عبارتهای معمول دست نوشته (شاید بصورت توده ای) استفاده از طبقه کننده ها مولد : طبقه بندی کننده مبتدی بابلیس قابل تشخیص : مدلهایی با اغتشاش بالا مدل مخفی مارکوف (MARKOF) مدل شرطی مارکوفت (CMM) مدل حد بالای اغتشاش مارکوف MEMM زمینه های تصادفی شرطی CRF معمولا در پیوند IE مورد استفاده قرار می گیرند که وظایفی را به گوناگونی استخراج کردن اطلاعات از صفحات تحقیقاتی به سمت استخراج کردن دستورالعمل های جهت یابی ، انجام دهد . حوزه های تصادفی شرطی CRF معمولا برای وطایفی که هم تنوع استخراج کردن اطلاعات از مقالات تحقیقاتی تا استخراج دستورالعمل های جهت یابی هستند . از پیوندهای IE مورد استفاده قرار می گیرند . تحقیقات متعدد دیگری برای IE وجود دارد که شامل تحقیقات دو رگه ای می شوند که تعدادی از تحقیقات استاندارد از پیش لیست شده را با هم ترکیب می کند . سرویسها و نرم افزار منبع باز یا آیاد طراحی عمومی برای مهندسی متن طراحی عمومی برای مهندسی متن که با یک سیستم استخراج اطلاعات جمع شده اند . (دسته شده اند ) آپاچی NLP NLP باز یک کیسه ابزار آموزشی ماشینی جاوا برای پردازش زبان طبیعی است . کارلی باز سرویس شبکه ای استخراج اطلاعات خودکاری از تا متون رونیر (نسخه محدود آزاد) آموزش ماشینی برای کیسه ابزاری یابی( mallet) یک بسته پایه جاوایی برای وظایف پردازش گوناگون زمان طبیعی است که شامل استخراج اطلاعات می شود . نور افکن یا پویا db یک وسیله منبع باز در جاوا /اسکالا و (سرویس شبکه آزاد) است که می تواند برای تشخیص ماهیت نامم شناسی و تجزیه مورد استفاده قرار گیرد . رجوع شود به اجرای rf

نرم افزار، بازرگانی و سرویسها وب ها نیز نرم افزار بازرگانی برای استخراج اطلاعات خاص تصاویر و پوشه های وب سایت ها معنای 3- یک محصول بازرگانی الکترونیکی و پایگاه داده قیمت زنی است که داد ههای خود را از طریق استخراج اطلاعات از هزاران خرده فروش آنلاین تهیه می کند .


نتیجه گیری رابرت و عارسون می گوید : با رفتن به دنیای ناشناخته و استفاده از الگوریتم های خاص خود می توانید به استخراج اطلاعات بپردازید وقتی از روش استخراج اطلاعات استفاده می کنید . هدف گسما تقسیم بندی مناسب مشتریان است تا بتوانید به رضایت مندی مورد نظرتان دست یابید . در این صورت است که شما می توانید به اهعداف از پیش تعیین شده خود و درآمدی مناسب دست یابید . او در ادامه می گوید وقتی تلاش می کنید تا اطلاعات لازم را استخراج کند .می توانید در یابید که تعلقات خاطر مشتریان چه هستند و به این ترتیب یکی از مشکلاتی که در ابتدای کار داشته اید عملا مرتفع خواهد شد . اغلب شرکت ها تلاش می کنند این اطلاعات را تحلیل کنید آنها مشتریان خود را مبتلا به گروه های سنی مختلفی تقسیم می کنند . البته ممکن است برای خیلی ها این تقسیم بندی با هیچ معنا و مفهومی نداشته باشند . زیرا اختیاری و دلخواه هستند و. با این وجود شما باید مراقب باشید اگر مشتریان خود را به گروه های سنی خاص تقسیم کنید ممکن است به راحتی دیگر گروه ها نادیده بگیرید