بخشی از مقاله
چکیده
در چند سال اخیر الگوریتمهای زیادی برای مساله دستهبندی اسناد، پیشنهاد شده است. اغلب کارهای انجام شده بر روی اسناد به زبان انگلیسی بوده و اخیرا در مورد زبانهایی مثل چینی و عربی کارهایی انجام شده است. در این مقاله یک دسته بندی کننده اسناد فارسی با استفاده از روش نیو بیز پیشنهاد شده است و دلیل استفاده از این الگوریتم موفقیت زیاد آن در دستهبندی اسناد مشابه در زبان انگلیسی بوده است. این دستهبند بوسیله متون فارسی پیکره همشهری 2 مورد آزمایش قرار داده شد. در این آزمایش 6 دسته مختلف از پیکره انتخاب شده بود که در این میان، برای دستههای هنری، مذهبی، ورزشی و علمی دقت و بازخوانی یک بدست آمد که بهترین عملکرد ممکن میباشد و برای دسته پزشکی دقت 0,917 و بازخوانی یک و برای دسته رایانه بازخوانی 0,9 و دقت 1 بدست آمد.
-1 مقدمه
سازماندهی فایلهای متنی در دستههای از قبل مشخص شده را دستهبندی متن مینامند. دستهبندی متون یک موضوع مطالعاتی خیلی مهم در دو دهه اخیر بوده است - Feldman and Sanger, 2006, Sebastiani, 2008 - . چندین الگوریتم دستهبندی متن وجود دارد که بر اساس معیارهای شباهت یا تفاوت دو متن توسعه داده شدهاند. در دستهبندی متون اسناد معمولا با کلمات و تعداد تکرار آنها نمایش داده میشوند. این روش نمایش یک روش متداول می باشد که به نمایش کیسه کلمات1معروف است.
در این روش نمایش هر کلمه مستقل از سایر کلمات، یک بعد از فضای بردار یک فایل متنی را تشکیل می دهد - . - Salton and Yang, 1973 هر چند این روش معایبی هم دارد، از جمله اینکه کلمات مترادف را به صورت مجزا در نظر میگیرد - . - Wang and Domeniconi, 2008 به طور کلی مساله دستهبندی متن با روشهای تشخیص الگو قابل حل میباشد بدین صورت که متون به صورت بردراهای عددی به الگوریتمهای دستهبندی کننده وارد میشود . - Sebastiani, 2008 - این نوع از نمایش متون به مدل فضای برداری معروف است.
- . - Salton and Buckley, 1988 در مدل فضای برداری هر متن به صورت یک فضای -nبعدی در نظر گرفته میشود و فایلهای متنی که به آن فضا نزدیکتر هستند به همدیگر شبیهتر میباشند - Turney and Pantel, .2010 - در بین تمام روشهای نمایش مدل فضای برداری، روش کیسه کلمات علاوه بر پردازش متن در سایر زمینهها هم نتایج موفقیتآمیزی داشته است که میتوان به کاربرد آن در پردازش تصویر - - Csurka, 2004، ویدئو - Sivic and Zisserman, 2003 - ، سیگنالهای صوتی - - Manchala, 2014، سریهای زمانی - Wanga, 2013 - اشاره کرد.
یک جزء اساسی در نمایش کیسه کلمات، نحوه وزندهی به عبارات است که میزان مربوط بودن یک کلمه به متن را نشان میدهد - Altyncay and Erenel, 2010, Debole and Sebastiani, 2003, Feldman and .Sanger, 2006, Lan and et al., 2009 - روشهای معمول عبارتند از: تکرار کلمه2، که اهمیت کلمه بر اساس تعداد تکرار آن در متن مشخص میشود. روش دودویی3، که در صورت وجود کلمه در متن مقدار آن 1 و در غیر اینصورت مقدار آن صفر است. روش تکرار کلمه در معکوس تکرار سند4، که اهمیت یک کلمه در یک سند با محاسبه تعداد رخداد آن کلمه در معکوس تکرار کلمه در سایر اسناد بدست می آید.
علاوه بر وزندهی به کلمات یکی دیگر از قسمتهای مهم سیستم دستهبندیکننده متون روش انتخاب ویژگی - Forman, 2003, Yang and Pedersen, 1977 - و فرایند یادگیری خودکار - Agarwal and Mittal, 2014, Aggarwal, 2012, Djuric and et al., 2013 - است. در این مقاله نیز از روش کیسه کلمات و و وزن دهی تکرار کلمه در معکوس تکرار سند برای پیش-پردازش متون استفاده شده است و برای دستهبندی نیز از نیوبیز بهره گرفته شده است. ساختار مقاله به این صورت می باشد که در بخش 2 پیشینه تحقیق بیان شده است و در بخش 3 روش پیشنهادی ارائه شده است و در بخش 4 پیادهسازی و ارزیابی روش ارائه شده آورده شده است.
-2 پیشینه تحقیق
روش های مختلفی برای دستهبندی متن بکار رفته است که در این میان می توان ماشین بردار پشتیبان - Mesleh and Kanaan, 2008, Leopold and Kindermann, 2002, Wang and et al., 2006 - ، شبکه های عصبی - Ramasundaram and Victor, 2010 - و نزدیکترین همسایه - Al-Shalabi and Kanaan, 2006, Kanaan, 2006 - را نام برد. در زمینه دستهبندی متون فارسی تحقیقات کمی انجام شده است که برخی از آنها در زیر آورده شده است.
در - bina and et al. 2007 - دسته بندی متون فارسی با شاخص گذاری 3 و 4 تایی5 انجام شده است. در - Basiri and et al . 2007 - دسته بندی با روش k نزدیکترین همسایه انجام شده است. در - Tam and et al., 2002 - به روش های انتخاب ویژگی پرداخته شده است. در - Amiri and et al., 2008 - یک روش شاخص گذاری کارا معرفی شده است. در - Maghsoodi and homayounpour, 2011 - سیستمی برای دستهبندی خودکار متون فارسی ارائه کردهاند که شامل دو مرحله اصلی پیشپردازش و دستهبندی است در مرحله اول با پردازش دادههای آموزشی بهترین ویژگیهای نماینده هر دسته استخراج شده و برای آموزش دستهبندیکنندهی مبتنی بر ماشینبردار پشتیبان استفاده میشوند و سپس در مرحله دستهبندی، ماشین بردار پشتیبان قادر خواهد بود دادههای آزمایشی را به یکی از دستههای آموزش دیده شده نسبت دهد.
در - Jafari et al., 2011 B - تاثیر بردار ارایه6 را روی دستهبندی متون فارسی بررسی نموده و برای دستهبندی از الگوریتم ماشین بردار پشتیبان استفاده شده است. در - Bina and et al., 2008 - نتایج دستهبندی خودکار متون فارسی با استفاده از شاخصگذاریهای 3 تایی7 و 4 تایی و تکرار کلمه بررسی شده است. در - - Elahimanesh et al., 2012 دستهبندی متون با کمی اصلاح الگوریتم k همسایه نزدیک انجام شده است و از پیکره همشهری یک و مقالاتی از سایر روزنامههای فارسی استفاده شده است. روش k همسایه نزدیک از همسایههای یک سند برای تعیین دسته آن سند استفاده میکند. برچسبهای k همسایه نزدیک به سند به عنوان برچسب سند وارده انتخاب میشود و در نهایت سندی با بیشترین تعداد همسایه برنده میشود. در - Yari et al., 2010 - دستهبندی متون فارسی با استفاده از مجموعههای فازی انجام شده است.
-3 روش پیشنهادی
در این مقاله برای دستهبندی متون فارسی از روش تکرار کلمه در معکوس تکرار سند و دستهبندی کننده نیوبیز استفاده شده است. مراحل کلی یک سیستم دستهبندیکننده متن در شکل 1 نشان داده شده است. کاری که در این پژوهش انجام شده است سنجش کارایی دستهبندی کننده نیوبیز برای زبان فارسی میباشد. هر کدام از مراحل موجود در شکل 1 به ترتیب توضیح داده می شوند.