بخشی از مقاله

چکیده

با رشد روز افزون منابع اطلاعاتی و حجم مقالات و مطالب تولید شده در زمینههای مختلف و به شکلهای متنوع اعم از رسانههای مختلف دیجیتال، نیاز به دسترسی آسان اطلاعات نیز افزایش مییابد. یکی از نیازهای اولیه در بالا بردن سرعت دسترسی به اطلاعات و پردازش این مطالب که غالبا دارای حجم بالایی نیز میباشند، دستهبندی این اطلاعات در طبقات مختلف میباشد. دستهبندی متون به عمل برچسبزدن یا تفکیک یک متن در قالب یکی از دستههای از پیش تعیین شده گفته میشود.

تاکنون از روشهای مختلفی برای دستهبندی متون استفاده شده است اما کارایی شبکه عصبی تابع پایه شعاعی در این زمینه برای هیچ زبانی مورد بررسی قرار نگرفته است در این مقاله برای اولین بار به بررسی عملکرد شبکه عصبی تابع پایه شعاعی با استفاده از معیار وزندهی تکرار کلمه در معکوس تکرار سند پرداخته شده است. نتایج بدست آمده از تفکیک متون فارسی با استفاده از این روشها نشان دهنده میانگین دقت 0/88 و بازخوانی 0/87 میباشد.

.1 مقدمه

طبقهبندی متون، فرایندی است که در آن متنها را به یک یا چند طبقه از قبل تعریف شده بر اساس محتوا یا زبان نگارش متن نسبت میدهند - . - Berger and Merkl, 2005 در زمینه پردازش زبان طبیعی و به خصوص پردازش متن، یکی از پایهایترین کارها ردهبندی یا طبقهبندی خودکار متون است - . - Baeza-Yates, R., Ribeiro-Neto, 1999 شناسایی رده، دسته یا طبقه یک متن میتواند اطلاعات مفیدی در کارهایی همچون ترجمه ماشینی - Khreisat, 2009 - ، تبدیل نوشتار به گفتار - براری و همکاران، - 1384، نویسهخوان نوری - بینا و همکاران، - 1386 و جستجوی مقالات جدید علمی - Swanson and oil, 1986 - به دست دهد.

طبقهبندی ایمیلها، تشخیص موضوع و فیلتر نمودن متون از جمله کاربردهای دیگر سیستم طبقهبندی خودکار متون میباشد - . - Nather, 2005 در مسائل مربوط به دستهبندی متون یکی از مشکلات، ابعاد بسیار بالای فضای ویژگیها است - - Yang and Pederson,1997، روشهای مختلفی جهت انتخاب خصیصههای متنی و در نتیجه کاهش فضای آنها وجود دارد در - Yang and Pederson,1997 - به پنج روش آماری مختلف انتخاب خصیصه اشاره شده است و تاثیر آنها روی دو دستهبند نشان داده شده است و در - lang, 1995 - نیز به هشت روش آماری انتخاب خصیصه در پردازش متن اشاره شده است.

در این مقاله از روش تکرار کلمه در معکوس تکرار سند برای انتخاب کلمات کلیدی استفاده شده است، و همچنین برای دستهبندی از شبکه عصبی تابع پایه شعاعی استفاده شده است. بقیه مقاله به این صورت تنظیم شده است که در بخش 2 پژوهشهای انجام شده در زمینه دستهبندی متون آورده شده است و در بخش 3 روش پیشنهادی ارائه شده است و در بخش 4 نیز پیادهسازی و ارزیابی روش ارائه شده آورده شده است.

.2 پیشینه تحقیق

روشهای مختلفی برای دستهبندی متن وجود دارد - . - Hearst, 1999 دستهبندی متون با روشهای مختلف برای زبان انگلیسی صورت گرفته است - - Yang and Liu, 1999، که از آن میان میتوان به روشهای زیر اشاره کرد. دستهبندی کننده بیزین - Li and Jain, 1998 - ، الگوریتم نزدیکترین همسایه - Soucy and Mineau, 2001 - ، ماشین بردار پشتیبان - - Thorsten,1998 و - Joachims, 1998 - ، روش آنالیز معنایی پنهان - Bellegarda, 2000 - ، شبکه های عصبی هیبرید - Wood, S.A., Gedeon, 2001 - ، آنالیز تمایزی خطی - Torkolla, 2001 - ، روش دیریکله پنهان - Blei and Jordan, 2003 - ، روش تحلیل معنایی پنهان احتمالی - Guandong et al, 2005 - و تکنیکهای مختلف دیگری که در این زمینه مورد استفاده قرار گرفتهاند. تحقیقات انجام گرفته در زمینه دستهبندی متون برای زبان فارسی تاکنون اندک بوده است، که به برخی از آنها اشاره میشود.

در زمینه دستهبندی متون به زبان فارسی تکنیکهایی مانند روشهای بدون ناظر - Arabsorkhi and Shamsfard, 2006 - ، دستهبندی کننده بیزین - باقری و همکاران، - 1387، الگوریتمهای نزدیکترین همسایه - بصیری و همکاران، - 1386، شاخصگذاری n-gram - بینا و همکاران، - 1386 ، استفاده از دانش معنایی - مقصودی و همایون پور، - 1388 و غیره استفاده شدهاند، در - عرب سرخی و فیلی، - 1385 دستهبندی متون با استفاده از بردارهای فراوانی ریشه کلمات و الگوریتم بیزین ساده انجام شده، سپس با ترکیب روش بیزین با ایده نگهداری کلمات همنشین، این روش بهبود بخشیده شده است. این روش هزینه محاسباتی کمی دارد و همچنین دادههای آموزشی زیادی را نیاز ندارد و برای دادههای متنی هم مناسبتر است؛ اما در این روش وابستگی کلمات به همدیگر نادیده گرفته میشود و در شروع کار نیاز به تخمین پارامترها است.

در - حاج حسینی و الماس گنج، - 1385 یک روش بانظارت برای دستهبندی متون فارسی با استفاده از تحلیل معنایی پنهان پیشنهاد شده است. این روش بردارهایی را در یک فضای برداری کاهش یافته برای هر متن در اختیار قرار میدهد. با استفاده از این بردارها، از روش شبکه عصبی برای آموزش دستهبندی کننده و تعیین دسته مربوط به متون جدید استفاده شده است. این روش باعث میشود که تعداد کلمات کلیدی کمتری انتخاب شود و در نتیجه زمان و هزینه محاسبه دستهبندی کننده کاهش یابد اما این روش دارای دقت زیادی نیست و به دلیل انتخاب کلمات کلیدی کمتر بیشتر دچار اشتباه در دستهبندی میشود. در - - Pilehvar et al, 2009 با استفاده از یادگیری چندیسازی برداری، دستهبندی مستندات متنی فارسی از روی پیکره همشهری انجام شده است.

روش چندیسازی از آنجایی که باعث کاهش ابعاد مساله میشود سرعت خیلی بالایی در دستهبندی دارد و برخلاف روشهایی مثل نزدیکترین همسایه یک روش یادگیری تنبل نیست که یادگیری را در مرحله دستهبندی انجام دهد اما اگر مقدار اولیه1 الگوریتم به خوبی تنظیم نشود نتایج خوبی به همراه نخواهد داشت. در - farhoodi, 2009 - با استفاده از روش بهرهگیری از گنجواژه و انتخاب ویژگی دو مرحلهای دستهبندی انجام شده است.

این روش دقت خیلی بالایی دارد اما به دلیل افزایش تعداد کلمات کلیدی با گنجواژه، هزینه محاسباتی زیادی به همراه دارد. از آنجایی که روشهای ارائه شده برای دستهبندی متون فارسی از دقت بالایی برخوردار نیستند و همچنین به دلیل اینکه تاکنون شبکه عصبی تابع پایه شعاعی برای دستهبندی متون و بالاخص متون فارسی استفاده نشده است، در این مقاله کارایی این نوع از شبکههای عصبی در زمینه دستهبندی متون فارسی مورد سنجش قرار گرفته است.

.3 روش پیشنهادی

مراحل مختلف یک سیستم دستهبندی کننده متون در شکل 1 نشان داده شده است. کاری که در این مقاله انجام شده، دستهبندی متون فارسی با دستهبندی کننده شبکه عصبی تابع پایه شعاعی میباشد، که تاکنون کارایی این شبکه عصبی برای دسته بندی زبان های طبیعی مورد استفاده قرار نگرفته است و برای اولین بار در این پژوهش مورد استفاده قرار می-گیرد. در بخشهای بعدی تمامی مراحل نشان داده شده در شکل 1 توضیح داده میشوند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید