بخشی از مقاله

چکیده:

رشد سریع اینترنت و بهوجود آمدن صفحات وب متعدد با مطالب و موضوعات گوناگون، نیاز به روش هایی برای دستهبندی هرچه بهتر صفحات وب را فراهم کرده است. به دلیل اینکه حجم عمده صفحات وب را متون تشکیل می دهند ما در این پژوهش به توسعه دستهبندی متون در صفحات وب با برخی از روشهای متنکاوی و یادگیری ماشین پرداختهایم. ما در این پژوهش پس از یک پیشپرد ازش مناسب بر روی متون در قسمت انتخاب ویژگی یک روش ترکیبی که مبتنی بر ترکیب الگوریتمهای فیلتری و پوششی1 میباشد را استفاده کردهایم. در مرحله یادگیری نیز از الگوریتمهای خانواده بیز ساده استفاده شدهاست. در طی ارزیابی روش پیشنهادی استفاده از روش شاخصبندی 3گرم در مرحله پیشپردازش، و روش فیلتری بهره اطلاعاتی و سپس استفاده از روش پوششی با دستهبند MNB در مرحله انتخاب ویژگی، و همچنین استفاده از الگوریتم دسته بندی MNB در مرحله یادگیری بهینهترین روش در این پژوهش ارزیابی شده است. روش پیشنهادی در مقایسه با کارهای گذشته در این زمینه بهبود بسیار خوبی داشته است.

کلمات کلیدی: انتخاب ویژگی، بیز ساده، دستهبندی، فیلتری

-1 مقدمه

دستهبندی خودکار اسناد متنی همیشه مورد اهمیت زیادی برای کاربران بوده است. حجم عظیم متنهای آنلاین در دسترس از طریق شبکه جهانی وب، اخبار اینترنتی، پستهای الکترونیکی، پایگاهدادهها و کتابخانههای دیجیتال حجم اطلاعات وب را تشکیل دادهاند. محبوبیت فزاینده وب بخاطر اطلاعات بسیار زیاد در صفحات وب میباشد که این امر باعث ارائه سیستمهایی برای دستهبندی خودکار صفحات وب به منظور بهبود عملکرد موتورهای جستجو شده است.[1] امروزه بسیاری از منابع وب، منابع متنی هستند. در سالهای اخیر مدیریت مبتنی بر محتوای متون - تحت عنوان کلی بازیابی اطلاعات - به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت ویژهای برخوردار شده است.[2]

دستهبندی متون به عمل برچسبگذاری موضوعی متون زبان طبیعی برمبنای یک مجموعه از پیش تعیینشده میباشد. دستهبندی در بسیاری از زمینهها ازجمله فیلترکردن متونمخصوصاً نامههای الکترونیکی، دستهبندی صفحات وب، تشخیص طبقه - دسته - ، ابهامزدایی از کلمات، سیستمهای خودکار پاسخ به سؤالات و یا حتی نمرهدهی به مقالات در سیستمهای آموزشی و بهطورکلی در هر کاربردی که سازماندهی مستندات و یا توزیع انتخابی و تطبیقی خاصی از مستندات مدنظر باشد، کاربرد دارد.[3]

در سالیان اخیر با استفاده از متدهای یادگیری ماشین، سعی در طراحی سیستمهایی شدهاست که توانایی بیشتری در تفکیک صفحات وب از هم براساس محتوای آنها داشته باشند. هدف این تحقیق، ارائهی یک روش برای دسته بندی متون با استفاده از الگوریتمهای بیز ساده و بکارگیری روشهای تلفیق ویژگیها برای بالابردن کارایی در تفکیک صفحات وب از هم میباشد. ساختار مقاله به این صورت است که در بخش 2 به کارهای گذشته در این زمینه پرداختهایم. در بخش 3 به روش پیشنهادی و در بخش 4 به ارزیابی روش پیشنهادی با استفاده از معیارهای مختلف ارزیابی پرداختهایم. در نهایت در بخش 5 نتیجهگیری در خصوص این پژوهش آمده است.
 
-2کارهای گذشته

در طول سالیان اخیر، تحقیقات مختلف و با نگرشهای متفاوتی برای دستهبندی متون مطرح شده و روشهای مختلفی ارائه شده است. از جمله روشهای ارائهشده میتوان به دستهبندی متون مبتنی بر ویژگی[4]، دستهبندی متون با استفاده از الگوریتم [5] KNN2، روش -7] Naive Bayes [6، دستهبندی متن با استفاده از هوش مصنوعی[8]، دستهبندی متون با استفاده از دادهکاوی[9] و موارد دیگر اشاره کرد. آنچه وجه تمایز این روشها از یکدیگر می باشد، متفاوت بودن تکنیکها و الگوریتم های دادهکاوی و همچنین ترکیب تکنیکهایی می باشد که جهت استخراج ویژگیها و دستهبندی متون بر طبق ویژگیهای استخراجشده مورد استفاده قرار گرفتهاند.

دیوی و همکاران [10] یک روش انتخاب ویژگی مبتنی بر روش PSO را با استفاده از اصول تکاملی بهبود دادند سپس ویژگیهای استخراج شده را در مجموعه داده WebKB با استفاده از یک شبکه عصبی موازی به منظور کاهش هزینه های محاسباتی مورد آزمایش قرار دادند. اوزل و همکاران[11] با اعمال تکنیکهای بهینهسازی به الگوریتم کرم شبتاب - FA - ، به انتخاب بهترین ویژگیها برای دستهبندی صفحات وب پرداختند. الگوریتم کرم شب تاب یک زیر مجموعه از ویژگیها را انتخاب و برازندگی آنها را ارزیابی می کند و سپس با دسته بند J48 به دسته بندی صفحات وب پرداختند.

ریک وال و همکاران [12] به منظور بدستآوردن تکنیکهای متن کاوی کارآمد الگوریتمهای مختلف یادگیری ماشین را مورد مطالعه قرار دادند و دو روش دستهبندی، یعنی دستهبندی بیزی و تکنیکهای دستهبندی KNN را برای دستهبندی کارآمد و دقیق مورد استفاده قرار دادند. با استفاده از هر دو الگوریتم یک روش ترکیبی جدید توسعهیافته محقق شد که قادر به دستهبندی کاراتر صفحات وب شد.

-3روش پیشنهادی

در این پژوهش به منظور بهبود کارایی و دقت در سیستمهای دستهبندی تکنیکهایی بررسی شدهاست. ابتدا در مرحلهی اول که پیشپردازش اسناد متنی میباشد پس از جداسازی کلمات و حذف کلمات زاید از روش شاخص بندی 3 -گرم و همچنین از روش وزن دهی TF-IDF3 استفاده شده است. انجام این عملیات در مرحله پیش-پردازش باعث بهبود عمل دستهبندی میشود. از این پس در مرحله بعدی دادههایی که در مرحله قبل برروی آنها پیش-پردازش انجام شده برای بهینه کردن عمل دستهبندی برروی آنها روشهای انتخاب ویژگی تست میشود که با توجه به بررسیهای انجام شده و مطالعاتی که برروی تحقیقات گذشته انجام شد

در این پژوهش در مرحله انتخاب ویژگی ابتدا از روش انتخاب ویژگی فیلتری IG4 که پیچیدگی کمی دارد و با سرعت بالا ویژگیهای زاید را حذف میکند استفاده شدهاست و سپس از روش پوششی - رپر - با استفاده از دستهبند MNB استفاده شدهاست تا ویژگیهای موثرتر نگه داشته شوند و به این ترتیب ابعاد مساله کاهش پیدا کند و یادگیری سریعتر و بهتر انجام شود. در طی تمام این مراحل برای تست و ارزیابی تک تک این روشها در مرحله یادگیری و دستهبندی از الگوریتمهای بهطور کلی در روش پیشنهادی به منظور بهینه کردن کارایی و دقت عمل دستهبندی سه عمل مهم صورت گرفته است:

-1 ابتدا در مرحله پیشپردازش پس از جداسازی و حذف کلمات زائد و روش ریشهیابی porter و همچنین استفاده از روش شاخصبندی 3گرم و روش وزندهی اسناد به شکل بهینه و مناسبی در آمده است.

-2 در مرحله انتخاب ویژگی از ترکیب روشهای انتخاب ویژگی فیلتری و پوششی استفاده شده است تا بدین صورت از مزایای هر دو روش در کنار هم استفاده شود تا به این ترتیب بهینهترین مجموعه ویژگیها بدست آید تا سرعت و کارایی در مرحله یادگیری بالا برود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید