بخشی از مقاله
دسته بندی متون بوسیله تکنیک های ترکیبی داده کاوی
خلاصه
با توجه به گستردگی حجم اطلاعات متنی الکترونیکی که به طور قابل توجهی از طریق اینترنت و سایر منابع قابل دسترسی می باشند، در صورت نبودن ایندکس گذاری و دسته بندی مناسب، کار بازیابی و پردازش اطلاعات متنی دسته بندی نشده با مشکلات زیادی مواجه می گردد .دسته بندی متون، کاربردهای زیادی از جمله پیگیری اسناد، مدیریت اسناد، گسترش اسناد و کاهش حجم اطلاعات دارد .روش های یادگیری زیادی در زمینه دسته بندی متن ها در سالهای اخیر بکار برده شده است. بررسیها و مطالعات نشان میدهند که روشهای دستهبندی متون مانند بیز ساده و ماشین بردار پشتیبان نمی توانند کیفیت دستهبندی را از یک حدی بیشتر افزایش دهند اما با بهرهگیری از روشهای ترکیبی، میتوان کیفیت دستهبندی را ارتقا داد. در این پژوهش سعی خواهد شد تا یک مدل دستهبندی خودکار را با استفاده از ترکیبی از الگوریتمها و تکنیکهای متنکاوی باکار آیی و دقت بالا دستهبندی کرد.
کلمات کلیدی: متن، متن کاوی، روش ترکیبی، رای گیری
.1 مقدمه:
دسته بندی متن یک مسئله پردازش زبان طبیعی می باشد و می تواند به عنوان انتساب سندهای دسته بندی نشده به یک یا بیشتر دسته های از پیش تعریف شده، بر اساس محتوایشان دیده شود. دسته بندی متن خودکار در مصرف زمان و هزینه بسیار مفید می باشد و روش ها و الگوریتم های متفاوتی برای دسته بندی متن بکار برده شده است، که این روش ها در دقت و محاسبات متفاوت می باشند.[12]
با توجه به حجم بالای اطلاعات و منابع، نیاز به افزایش سرعت و دقت در مواردی همچون جستجوها، بایگانی اسناد و مدارک، دستهبندی مقالات جدید و دستهبندی صفحات وب،کاملاً محسوس است. پس مهم است که بتوانیم این منابع را بهصورت دقیق و با سرعتبالا دستهبندی کنیم. در پژوهش های پیشین، طبقهبندیهای مختلف و با نگرشهای متفاوتی
برای این کار مطرحشده است. نکته قابلتوجه، امکان خودکارسازی این طبقهبندیها به ازای متون جدید است. درزمینه پردازش زبان طبیعی و بهخصوص پردازش متن، یکی از پایهای ترین کارها دستهبندی یا طبقهبندی خودکار متون است. شناسایی رده، دسته یا طبقه یک متن میتواند اطلاعات مفیدی برای فرایندهای همچون ترجمه ماشینی، تبدیل نوشتار به گفتار و غیره فراهم کند.
.2 دسته بندی متون
دسته بندی میتواند به سه صورت دستهبندی دودویی1، دستهبندی چند دسته2 و دستهبندی چند برچسبی3 پیادهسازی
گردد .[9]
· در دستهبندی دودویی سند متنی تنها به یکی از دودسته موجود متعلق است. بنابراین دستهبند باید سند متنی را به یکی از دستهها نسبت دهد.
· در مورد دستهبندی چند دسته، چندین دسته وجود دارد که در این مورد، سند متنی تنها به یکی از دستههای از پیش تعریفشده موجود تعلق دارد.
· در مورد دستهبندی چند برچسبی همانند دستهبندی چند دسته، چندین دسته مختلف وجود دارد که یک سند متنی میتواند به یک یا تعدادی از دستهها تعلق داشته باشد. به عبارتی میتوان گفت که دستهها ممکن است با یکدیگر تداخل داشته باشند.
.3 مروری بر کارهای پیشین در زمینه دسته بندی متون
.4 روش پیشنهادی:
استفاده از دستهبند ترکیبی باعث افزایش کارایی دسته بندی توسط ترکیب چند دستهبند منفرد میشود. روشهای ترکیبی به دو صورت ترکیب ویژگیها و ترکیب خروجیها می باشند. روش پیشنهادی بر روی ترکیب خروجی دستهبندها عمل میکند که نسبت به ترکیب ویژگیها از دو جنبه برتری دارد: اول اینکه درصورت افزایش بردار ویژگی موجب افزایش پیچیدگی روش ترکیب نمیشود و دوم اینکه به دلیل این که نیازی به دانستن ساختار دستهبندها و بردارهای ویژگی آنها نمیباشد، دارای پیچیدگی کمتری میباشد. روش پیشنهادی از نوع همگن میباشد بدین معنی که از دستهبندهای یکسان استفاده میکند. روش پیشنهادی با استفاده از نمونهگیریهای متفاوت همراه با جایگزینی1 از مجموعه آموزشی، چندین مجموعه آموزشی جدید را به دست میآورد و بدین طریق از هر کدام یک دستهبند جداگانه را آموزش میدهد. این کار باعث افزایش کارایی در روش پیشنهادی میشود.
.4.1 مجموعه داده: