در دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به دادهها را پیچیده میکند؛ بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند.
بهترین روش خلاصه کردن و سپس طبقهبندی اطلاعات است.
همه ما از خلاصهسازی به صورتهای گوناگون استفاده میکنیم. برای نمونه میتوان به موارد زیر اشاره کرد. اما کاربردهای دیگری هم وجود دارد:
سیستم خلاصهسازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت میکند و خلاصهٔ آن را به شکل خروجی تحویل میدهد.
خلاصهها را میتوان از جهات مختلف طبقهبندی کرد:
Extractive & Abstractive Summarization
Query & Generic Summarization
سند تکی (Single Doc) و سند چندتایی (Multiple Doc) از انواع اطلاعات ورودی هستند. چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته میشود. در Multi Document متنهای ورودی باید با هم اشتراک معنایی داشته باشند.
هر کدام از سبکهای روزنامهای، علمی و سندی ساختاری متفاوت با دیگری دارند. در نتیجه در پردازشهای انجام شده این تفاوتها میبایست لحاظ شود.
کاربر میتواند انسان یا کامپیوتر باشد. وقتی انسان کاربر سیستم است، متن خلاصه شده باید قابل خواندن باشد. وقتی کامپیوتر کاربر است، خوانا بودن مهم نیست، اما تمامی اطلاعات مهم باید استخراج شوند.
اولین فعالیتها در این زمینه در سال ۱۹۵۰ توسط فردی به نام Luhn شروع شد. اساس کار او، کلمات با بیشترین تکرار بود. او کلمات پر تکرار را مهم تر از سایر کلمات به حساب میآورد. جملاتی که تعداد بیشتری از این کلمات را داشتند، جملاتی بودند که باید در خلاصه میآمدند. روش وی خطای زیادی دارد و خود او، بعضی از این خطاها را اصلاح کرد. برای مثال برخی افعال و حروف اضافه در تمامی متنها به دفعات دیده میشوند ولی اطلاعات خاصی را در رابطه با عنوان مقاله در اختیار نمیگذارند. گرچه کار وی خطا ی زیادی داشت، ولی به علت اینکه از پایه گذاران این روش بود، بسیار مورد ستایش قرار گرفت. عدهٔ زیادی کار او را ادامه دادند و روشهای جدیدی ابداع شد که دقت بالاتری دارند.
از جمله افرادی که کار Luhn را ادامه داد، Edmundson بود. او مواردی مانند تعداد دفعات تکرار هر کلمه، تعداد کلماتی از جمله که در عنوان مقاله آمده، محل جمله در مقاله، تعداد کلماتی از جمله که نشان دهندهٔ اهمیت هستند (مانند در نتیجه، بهطور خلاصه و...) را مورد توجه قرار داد. وی برای مشخص کردن ارزش هر جمله از ترکیب خطی موارد بالا استفاده کرد.
Pourmasoumi. A, Kahani, M., Toosi, S.A., Estriri, A., and Qhaemi, H., “IJAZ: an operational system for single-document summarization of Persian news texts” vol. 0, no. 121, pp. 33–48, Jan. 2014.
>
This article uses material from the Wikipedia فارسی article خلاصهسازی خودکار, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). محتوا تحت CC BY-SA 4.0 در دسترس است مگر خلافش ذکر شده باشد. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki فارسی (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.