بخشی از مقاله
چکیده :
یکی از چالشهای موجود بر سر راه شناسایی کلمات پرتکرار، وجود زبانهای بسیار متنوع برای اطلاعات متنی و وابستگی روشهای موجود شناسایی کلمات پرتکرار به نوع زبان و ساختار کلامی آن زبان خاص میباشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور شناسایی کلمات پرتکرار میباشد. از این رو با تمرکز روی خاصیت تکرار کلمات در هر متن و نسبت تکرار آن در سایر متون این امر انجام شده ا ست و در نهایت ماکزیمم بی شترین تکرار به عنوان کلمه پرتکرار انتخاب میگردد. عملکرد الگوریتم پی شنهادی نیز تو سط معیار نرخ دقت ت شخیص مورد ارزیابی قرار گرفته ا ست. لازم به ذکر ا ست که این الگوریتم با الگوریتم مبتنی بر گراف مقای سه گردیده ا ست، که نرخ دقت کلی الگوریتم پیشنهادی %82,2درصد بوده است.
-1 مقدمه
یکی از شاخههای تحقیقاتی کارکرد فنآوری اطلاعات در تجارت اطلاعات، طراحی سیستمهای بازیابی اطلاعات از پایگاه دادههای بزرگ میباشد. امروزه با افزایش حجم اطلاعات به زبانهای مختلف در وب، تقاضا برای سیستمهای بازیابی اطلاعات که بتوانند از مرز بین زبانها عبور کنند، رشد فزایندهای داشته است.[1 -4] لذا با افزایش حجم اطلاعات الکترونیکی با زبانهای گوناگون، بازیابی اطلاعات، مستقل از زبان ا سناد اهمیت ویژه و م ضاعفی پیدا کرده ا ست. شنا سایی کلمات مهم مؤثر، یک کار زمان بر و مبتنی بر پردازش ان سان میباشد. اخیراً شنا سایی اتوماتیک کلمات به خ صوص شنا سایی کلمات پرتکرار به گونه ای که م ستقل از زبان با شد زمینه جالبی در تحقیقات Text Mining و بازیابی اطلاعات به وجود آورده است.[5-8 ,3]
روشهای مختلفی در شناسایی و استخراج کلمات پرتکرار تاکنون ارائه شده که میتوان براساس مشترکات آنها، آنان را در دو گروه روشهای بانظارت و روشهای بدون نظارت دستهبندی کرد .[9-14] در ادامه به صورت خلاصه به مرور تحلیلی روشهای ارائه شده، جهت شنا سایی چالشهای احتمالی تحقیق میپردازیم. برای راحتی کار در طی این مقاله از کلمات کلیدی به جای کلمات پرتکرار ا ستفاده شده ا ست. اولین گروه روشهای با نظارت میبا شند در این روشها، یک مجموعه داده آموز شی وجود دارد که با یادگیری از آنها، مدلی ساخته میشود و با به کار بردن این مدل بر روی سند جدید، عبارات آن به دو کلاس عبارات کلیدی و غیرکلیدی دسته بندی میشوند.
روشهایی همچون تورنی[15-17 ,3] ، [20-18 ,3]KEA، هالس[21-23] و وان[25 ,24] از جمله این گونه از روشهای استخراج کلمات کلیدی ه ستند. کارایی این روش ب سیار واب سته به دادههای آموز شی ا ست و عدم وجود دادههای آموز شی باکیفیت منجر به افت کارایی سی ستم استخراج عبارات کلیدی می شود. رویکرد دیگر در استخراج کلمات کلیدی مربوط به روش های بدون نظارت همچون لیو[26 ,22 ,3]، روش تارائو [27-30]، براسول [32 ,31 ,15 ,3] و روش بری [34 ,33] می باشند.
در روشهای بدون نظارت نیاز به دادههای آموزشی نیست و با کمک استراتژیهای رتبه دهی ،مهمترین عبارات داخل متن استخراج میشوند. این روشها برخلاف روشهای با نظارت برای هر متنی از هر نوع دامنهای، کاربرد دارد و به صورت مستقل از دامنه کاربرد عمل میکند. با تحلیل و مقایسه کیفی روشهای ارائه شده، مزایا و معایبی برای هر گروه از روشها یافت میشوند که بصورت خلاصه اینگونه جمع بندی شوند. اولین مزیت پیادهسازی روشهای بدون نظارت، کاربرد آنها در پیاده سازی بر روی مدلهای ساخته شده برای هر نوع متنی با هر دامنهای میباشد.
عدم افت کیفیت کارایی اینگونه از روشها در صورت وجود دادههای بی کیفیت، عدم وابستگی به دادههای آموزشی، کمتر بودن زمان صرف شده برای استخراج کلمات کلیدی نسبت به روشهای بانظارت، کاربرد مفید برای دادههایی با حجم بالا و توجه به معیار دقت از جمله مزایای دیگر روشهای بدون نظارت میباشند. در مقابل این مزایا، از دشواری تطبیق دقیق کلمات در اینگونه روشها به عنوان اصلی ترین عیب قابل لمس می توان یاد کرد.
همانطور که در پاراگراف قبل توضیح داده شده مزایا و معایبی برای روشهای با نظارت وجود دارد که از آن جمله میتوان به وجود دادههای آموز شی با کیفیت د سته بندی دادهها به طور منظم ا شاره کرد. و اما از معایب این روش این ا ست که کارایی واب سته به دادههای آموز شی است، عدم وجود دادههای آموزشی با کیفیت منجر به افت کارایی سیستم استخراج کلمات کلیدی میشود، مدل ساخته شده مختص یک دامنه ا ست، مدل ساخته شده واب سته به دامنه کاربرد عمل میکند، فراهم کردن دادههای آموز شی کار زمان بر و م شکلی ا ست، ارزیابی بر اساس فراوانی انجام میگیرد، برای دادههایی با حجم زیاد کاربرد ندارد.
از جمله چالشهای موجود در این روش این است که برای فراهم کردن دادههای آموز شی نیاز به زمان زیاد ا ست و اگر دادههای آموز شی منا سبی تهیه نگردد، الگوریتم با م شکل مواجه می شود و کارایی پایینی دارد، اما در روش بدون نظارت با این چالش مواجه نیست.[33 ,21 ,13 ,10 ,3 ,1] بنابراین برای الگوریتم پیشنهادی از این روش بدون نظارت استفاده میکنیم. هدف اصلی این پژوهش ارائه الگوریتمی برای استخراج کلمات به صورت مستقل از زبان می باشد که به منظور تحقق این هدف، با تمرکز بر روی ویژگی تکرار و توالی کلمات در متن و حذف حروف رابط، ا ضافی و افعال، تلاش شده ا ست الگوریتمی م ستقل از زبان سند طراحی گردد که بصورت مبسوط به آن پرداخته شده است.
به منظور نیل به اهداف تحقیق و ایجاد مناسب مقدمات و مأخرات آن، ساختار این مقاله اینگونه تدوین میگردد. در بخش بعدی فراخوانی اطلاعات، ساختار متن و اطلاعات ذخیره شده، کلمات کلیدی و غیر کلیدی توضیح داده شده است. در بخش سوم این مقاله الگوریتم مستقل از زبان توضیح داده شده است.نتایج بدست آماده و ارزیابی این نتایج در بخش چهارم صورت پذیرفته و در نهایت در قسمت آخر نتیجه گیری و ارائه پیشنهادات بیان گردیده است.
-2 مسئله شناسایی کلمات پرتکرار
بازیابی اطلاعات بطور گسترده در زندگی روزمره مورد استفاده قرار میگیرد. آنجه برای طراحان سیستم های بازیابی اطلاعات از اهمیت بالایی برخوردار ا ست، افزایش کارایی و بهبود عملکرد این سی ستمها در بازیابی اطلاعات میبا شد. همانگونه که ا شاره شد یکی از راههای افزایش بهره وری سی ستمهای بازیابی اطلاعات ا ستفاده از طرحهای آماری میبا شد. در این طرح ها به کلمات پرتکرار یک فرکانس ن سبت داده میشود، بر اساس آن کلمات با بالاترین فرکانس به عنوان کلمات پرتکرار انتخاب میشوند..[5 -8 ,3]
یکی از مشکلات بازیابی اطلاعات وجود زبان های گوناگون و حجم انبوه اطلاعات می باشد. که برای حل این مشگل الگوریتمها ی مستقل از زبان با حجم انبوه اطلاعات ارائه شده ا ست. با ا ستفاده از این الگوریتم ها، با بهرهگیری از الگوریتم های آماری می توان به این مهم د ست یافت. با مطالعه و برر سی کاربردهای بازیابی اطلاعات و متن کاوی م شخص می شود که کلمات مهم و پرتکرار موجود در متن، نقش ب سیار مهمی در این کاربردها دا شته و م سیر حرکت را در این زمینه ت سهیل میکند، به عنوان مثال با یافتن کلمات مهم موجود در اخبار و یافتن جملاتی که کلمات مهم بی شتری دارند، می توان با ا ستخراج آن جملات به خلا صه متن و درک بهتر متن د ست یافت.
با توجه به این که کلمات مهم اغلب در تیترها و بخشهای مهم یافت می شوند، بنابراین با م شخص نمودن ساختار متن و ا ستخراج کلمات مهم ازاین بخشها میتوان با حداقل زمان به آن کلمات دست یافت.[5-8 ,3] فید - - Rss، برای خواندن اخبار از فید یا آر اس اس آنها ا ستفاده شده ا ست که خبر را با ساختار XML و به صورت ساخت یافته در اختیار ما قرار میدهد.استفاده از دادههای ساخت یافته باعث میشود تا موتورهای جستجو بتوانند نتایج جستجو را مرتبسازی کرده و کیفیت جستجو را بالا ببرند .قالب خواندن و ذخیره اخبار به زبانهای گوناگون، قالب یونیکد بوده است.
برای استخراج کلمات کلیدی از متون اخبار ما به سایتهایی نیاز است که دارای آدرس فیدهای مناسب و معتبری باشند. به همین دلیل فیدهایی انتخاب میشوند که اطلاعات مناسبی را در اختیار قرار دهند. البته این فیدها برای هر زبانی انتخاب میشوند. اطلاعات پس از فراخوانی از فیدها در داخل دیتابیس ذخیره می گردند.بعضی از کلمات در همهی متون با فراوانی زیاد وجود دارندکه ارزش محتوایی ندارند، مثل ضمایر، قیود، حروف اضافه و ربط وبعضی از افعال پر تکرار به این کلمات، کلمات عمومی گفته میشود. با حذف کلمات عمومی در متن کاوی آماری میزان محاسبات کم شده و کارآیی نیز بیشترمیشود. به لغات یک وزن بر اساس فراوانی آن در سند داده میشود[5-8 ,3]