بخشی از مقاله
چکیده
با افزایش حجم اطلاعات، نیاز به ابزارهایی که بتوانند در مدیریت منابع موثر باشند، کاملاً احساس میشود. دستهبندی متون،فرآیندی است که در آن متنها در یک یا چند دسته از قبل تعریف شده براساس محتوا قرار میگیرند. در این مقاله از ترکیب خبرهها، به طور خاص شبکه عصبی در دستهبندی مستندات نیمه ساختیافته XML بر روی پایگاه داده روزنامه همشهری استفاده شده است.البته برای دستهبندی مستندات انتخاب ویژگیهای مهم، نقش بسزایی دارد؛ لذا تمرکز بر روی تکنیکهای پیش پردازش و به گونه ویژه، روشهای وزندهی ویژگی مورد بررسی قرار گرفته و یکی از روشها برای وزندهی به مستندات، انتخاب شده است؛ سپس به کمک روش تجزیه و تحلیل مولفههای اصلی به ارزشدهی ویژگیها پرداخته و با الگوریتم نزدیکترین همسایگی تعدادی از آنها انتخاب و به عنوان ورودی یکی از خبرهها استفاده میشود، در مرحله بعد از ویژگیهای ارزشدهی شده، یک بار به کمک الگوریتم جداکنندهی خطی و بار دیگر به کمک الگوریتم ژنتیک تعدادی ویژگی انتخاب و به طور مجزا به عنوان ورودی به خبرهها اعمال می-شود، سپس نتایج خروجی این سه خبره با یکدیگر ترکیب شده، در نهایت مورد تست و ارزیابی قرار میگیرد. نتایج بدست آمده نشان میدهد دستهبندی متون با دقت بالایی انجام گرفته است.
کلمات کلیدی:استخراج ویژگی، دستهبندی متون، شبکهعصبی چندلایه پرسپترون، مستندات نیمهساختیافته، وزندهی ویژگی.
-1 مقدمه
در آینده کتابها و مجلات کاغذی بخشی از تاریخ بشریت خواهند بود و مستندات الکترونیکی به عنوان اصلیترین ابزار ارتباطات نوشتاری مطرح خواهند شد. از سوی دیگر با گسترش شگرف اینترنت و استفاده روزافزون از آن، شاهد حجم انبوهی از مستندات و مقالات الکترونیکی خواهیم بود. در این میان دسترسی تند و صحیح به منابع مهم و مورد علاقه، یکی از دغهغههای استفادهکنندگان از این منابع اطلاعاتی بسیار بزرگ است. در حالیکه حجم دادههای متنی قابل دسترس به صورت مداوم افزایش مییابد، توانایی ما برای درک و پردازش این اطلاعات ثابت مانده است. بنابراین نیاز به کشف و استخراج خودکار اطلاعات مفید از این حجم بالای دادههای متنی برای کمک به تجزیه و تحلیل انسانی امری اجتناب ناپذیر است. دستهبندی مستندات، بر اساس محتوی یا زبان نگارش به یک یا چند دسته از قبل تعیین شده، متن کاوی نام دارد.
اساس کار دستهبندیکننده مستندات بر اساس ویژگیهای کلیدی و مهمی است که از خود مستندات استخراج میشود. بدیهی است بهبود فرآیند شناسایی و استخراج ویژگیها از مستندات نقش بسزایی در بالا بردن کارایی دستهبندی کننده مستندات دارد. هر چه ویژگیهای استخراج شده از مستندات بهتر باشد عملکرد و کارایی دستهبندی بهتر خواهد شد. در دنیای امروز، روش
متداول دستهبندی استفاده از ماشینها، فراگیر است که در آنها یادگیری از طریق نمونههایی موسوم به نمونههای آموزش و آزمون انجام میگیرد تا یک دستهبندیکننده بتواند فرآیند دستهبندی را به خوبی انجام دهد. از میان روش-هایی که جهت دستهبندی متون استفاده میشوند میتوان به روشهای نزدیکترین همسایگی1]،[2، درخت تصمیم گیری[3]، یادگیری آماری - نظیر مدلهای رگرسیون [4] و مدل بیزین5]، - [6 و غیره اشاره کرد.
اکثر سیستم-های دستهبندی متون، جهت دستهبندی متون انگلیسی طراحی شدهاند و تحقیقات کمی بر روی دستهبندی متون فارسی انجام شده است. از میان کارهای انجام شده میتوان به مقاله Yang و [4] Liu که در آن شش روش بازیابی اطلاعات با استفاده از پیکره متنی همشهری ارزیابی شده است، اشاره کرد. در سال Lewis 1998 در مقاله[ 5] خود مدل بازیابی بردارهای فاصلهی چندگرمی1 را با دو روش وزندهی بررسی و آن را بهبود داده است. از جمله کارهای دیگر میتوان به ساخت یک ریشه یاب فارسی توسط Lewis و همکارانش اشاره کرد.[6] در سال 1389 مقصودی به کمک همکارش روشی پیشنهاد کرد که در آن[7] از دانش معنایی موجود در گنجواژه جهت دستهبندی بهره گرفته میشود.مشکل اساسی دستهبندی متون، حجم بالای ویژگیهایی است که از متن استخراج میشوند>8@؛ ویژگیهایی وجود دارند که نه تنها باعث دستهبندی بهتر اسناد نمیشوند، بلکه دقت دستهبندی را نیز کم میکنند. این ویژگیها در واقع نویز میباشند که جهت جلوگیریاز دخالت و کاهش ابعاد آنها عموماً از روشهای انتخاب ویژگی استفاده میشود.[9]
برای استخراج و انتخاب ویژگیها، روشهای بسیاری پیشنهاد شدهاست که برای نمونه میتوان به بهره اطلاعاتی2، اطلاعات متقابل3، قدرت ویژگی4 و آستانهیابی تکرار سند5 اشاره کرد10@،9،.>8هدف از مقاله حاضر دستهبندی متون فارسی با استفاده از ترکیب خبرهها بر روی متنهای نشانهگذاری استاندارد نظیر XML6 و انتساب اسناد به دستههای از پیش تعیین شده، با استفاده از روش وزندهی ویژگیهای مبتنی بر اطلاعات کلاس7 ، براساس استخراج ویژگیهای مهم و کلیدی این مستندات، با روش تعداد تکرار کلمات، و استفاده از روش تجزیه و تحلیل مولفههای اصلی8 جهت ارزشدهی به ویژگیها و انتخاب مؤثرترین آنها، به کمک الگوریتمهای نزدیکترین همسایگی9 ، جداکنندهی خطی10 ، ژنتیک11 و اعمال آنها به شبکهعصبی پرسپترون چندلایه12 به عنوان خبره و در نهایت ترکیب خروجی آنها میباشد.
-2 روند دستهبندی متون
برای استفاده از اسناد متنی جهت یادگیری باید آنها را به شکل مناسبی تبدیل کرد. به همین دلیل ابتدا مراحل پیش پردازش، شاخصگذاری و کاهش ابعاد روی اسناد متنی انجام گرفته و سپس ساختن دستهبند و در نهایت دستهبندی صورت میگیرد. در مرحله پیش پردازش معمولا سه عمل حذف کلمات زائد، حذف برچسبها و ریشهیابی روی کلمات اسناد صورت میگیرد. کلمات زائد کلماتی هستند که حاوی اطلاعات چندانی نمیباشند مانند حروف ربط، کلمات وصل و... . برچسبها نیز مانند برچسبهای XML، از محتوای سند حذف میگردند. بدین ترتیب تعداد کلمات سند تا حدودی کاهش مییابد. در مرحله شاخصگذاری در واقع شیوه نمایش سند تعیین میگردد. معمولترین شیوه، استفاده از مدل فضایبرداری است که یک روش غیرمعنایی است. یعنی هرسند را میتوان به صورت یک بردار نشان داد که هر عنصر آن، حضور یا عدم حضور یک کلمه یا تعداد دفعات تکرار آن کلمه میباشد.
-3 وزندهی به ویژگیهای استخراج شده
وزندهی ویژگی به عنوان یکی از تکنیکهای بسیار مهم در حوزه دستهبندی مستندات برای بالا بردن دقت دستهبندی به شمار میرود. روشهای متنوعی برای وزندهی ویژگیها وجود دارد که میتوان به موارد زیر اشاره کرد.
-1-3 روش وزندهی TF13
این روش ساده و بسیار کاربردی مشابه روش باینری است با این تفاوت که در صورت وجود ویژگی tk در مستند di وزن آن برابر تعداد تکرار آن ویژگی در مستند مربوطه میباشد. رابطه - 1 - طریقه محاسبه وزن ویژگی tk در مستند di را به این روش نشان میدهد.که در آن - - برابر تعداد تکرار هر ویژگی tk در مستند di است.>11@
-2-3 روش وزندهی TFIDF14
روش وزن دهی TFIDF از رایجترین روشهای وزندهی ویژگی است که اولین بار در حوزه بازیابی اطلاعات مطرح شده و سپس در دستهبندی مستندات برای وزندهی ویژگیها از آنها استفاده شده است. در این روش، وزن هر ویژگی در هر مستند رابطه مستقیم با تعداد تکرار ویژگی در آن مستند و رابطه معکوس با تعداد مستنداتی که دارای آن ویژگی هستند، دارد.>11@
-3-3 روش وزندهی Norm TFIDF15
برای اطمینان از اینکه همه مستندات با طولهای مختلف شانس برابری برای بازیابی شدن داشته باشند روش TFIDF به صورت نرمال به شکل رابطه - 3 - ارائه شده است.>11@
-4-3 روش وزندهی TFCRF
در روشهای ذکر شده وزن هر ویژگی رابطه معکوس با تعداد مستنداتی دارد که دارای آن ویژگی هستند. در روش پیشنهادی وزندهی مبتنی بر اطلاعات کلاس - TFCRF - ، برای وزندهی دقیقتر به ویژگیها دو فاکتور ارتباط مثبت16 و منفی17 تعریف میشود. فاکتور ارتباط مثبت، نسبت تعداد مستنداتی از دسته cj که ویژگی tk دارند، به کل مستندات آن دسته و فاکتور ارتباط منفی نسبت مجموع تعداد مستنداتی از دسته غیر cj که ویژگی tk دارند، به کل مجموع مستندات طبقات غیر cj را نشان میدهد که عبارتند از:
در روابط فوق | - - | تعداد مستندات دسته cj و | - - | تعداد مستنداتی از مجموعه D و دسته cj که دارای ویژگی tk میباشند است. از دو رابطه - 4 - و - 5 - مقدار ارزش فاکتور ارتباط هر دسته18 عبارتند از:
مشخص است ارزش فاکتور ارتباط هر دسته رابطه مستقیم با فاکتور ارتباط مثبت و رابطه معکوس با فاکتور ارتباط منفی دارد. از این رو رابطه پیشنهادی برای وزن دهی ویژگی tk در مستند di به صورت رابطه - 7 - است:
که در آن دسته مستند di است. برای از بین بردن اثر طول مستندبر دقت و کارایی دستهبندی کننده، از نرمال کردن استفاده شده تا وزن ویژگیها در دامنه 1 - و - 0 محدود شود. در نتیجه رابطه TFCRF نهایی پیشنهادی به صورت رابطه - 8 - در خواهد آمد:
که نشان داده میشود این روش وزندهی ویژگی، برای دستهبندی مستندات نسبت به سایر روشهای شرح داده شده برای وزندهی ویژگیها از کارایی بالاتری برخوردار است.>11@
-4 انتخاب و کاهش ویژگیهای استخراج شده
در روشهای انتخاب ویژگی، بهترین ویژگیها انتخاب و ویژگیهایی که حاوی اطلاعات نیستند حذف میگردند. برخی از این روشها در زیر آمدهاند:
-1-4 اطلاعات متقابل
اطلاعات متقابلمعیاری است که عموماً در زبانهای آماری از آن استفاده میشود. اگر A تعداد ظاهر شدن ویژگی tk در دسته ci باشد و B تعداد ظاهر شدن ویژگی tk در طبقاتی غیر از ci و C تعداد ویژگیهای غیر از tk در طبقه ci و N تعداد کل مستندات مجموعه آزمایشی باشد؛ در این صورت معیار اطلاعات متقابل ویژگی tk در طبقه ci از رابطه - 9 - محاسبه میشود.مقدار اطلاعات متقابل یک ویژگی در یک دسته بیانگر میزان وابستگی آن ویژگی در دسته مزبور و نشان دهنده میزان اهمیت آن ویژگی است. در نتیجه برای اندازه گیری میزان مناسب بودن یک ویژگی در یک دسته در طی فرآیند انتخاب ویژگی، اطلاعات متقابل آن ویژگی در طبقه مزبور محاسبه میشود. ویژگیهایی که دارای اطلاعات متقابل بیشتری باشند؛ به عنوان ویژگیهایی مناسب جهت انتخاب شناخته خواهند شد.>12@
-2-4 تجزیه و تحلیل مولفههای اصلی
این تکنیک بهترین روش برای کاهش ابعاد داده به صورت خطی است. یعنی با حذف ضرایب کماهمیت بدست آمده از این تبدیل، اطلاعات از دست رفته نسبت به روشهای دیگر کمتر است>13@، در این روش محورهای مختصات جدیدی برای دادهها تعریف شده و دادهها براساس این محورهای مختصات جدید بیان میشوند. اولین محور باید در جهتی قرار گیرد که واریانس دادهها ماکسیمم شود - یعنی در جهتی که پراکندگی دادهها بیشتر است - . دومین محور باید عمود بر محور اول به گونهای قرار گیرد که واریانس دادهها ماکسیمم شود. به همین ترتیب محورهای بعدی عمود بر تمامی محورهای قبلی به گونهای قرار میگیرند که دادهها در آن جهت دارای بیشترین پراکندگی باشند. این روش به عنوان تصویر متعامد دادهها درون یک فضای خطی با ابعاد کمتر است به قسمی که واریانس بین دادههای تصویر شده، حداکثر شود.[14]
-3-4 جداکنندهی خطی
الگوریتم جداکننده خطی برای کلاسبندی میباشد، که بر اساس فاصلهی بین دادههای هر کلاس از میانگین آن و فاصله بین کلاسها استوار شده است. فرض کنید یک مجموعه D بعدی مانند {x1,x2,..xN} وجود داشتهباشد که در آن N1 متعلق باشد به 1 و N2 متعلق به 2 باشد؛ آنگاه: از بین همهی خطهایی که میتواند انتخاب شود، یک خط که بیشترین جداکننده برای بردارهااست، انتخاب میگردد:
در اینجا دو مفهوم به وجود میآید، فاصلهی درون کلاسها و فاصلهی بین کلاسها که از رابطه - 12 - و - - 13 بدست میآید:
در جداکننده خطی باید نسبت SB به SW به بیشترین مقدار برسد برای همین از این نسبت مشتق گرفته شده و برابر صفر قرار میگیرد؛ در نهایت برای C کلاس رابطه - 14 - را خواهیم داشت:
که در رابطه - 14 - W* ماتریس هدف است، که هر ستون آن یک بردار ویژه براساس ارزش مقدار ویژه مرتب شدهاند، میباشد.>15@
-4-4 الگوریتم ژنتیک
در این روش یک جمعیت از زیرمجموعههای کاندید تولید میکنیم. در هر بار تکرار الگوریتم، با استفاده از عملگرهای جهش و بازترکیبی بر روی عناصر جمعیت قبلی، عناصر جدیدی تولید میکنیم. با استفاده از یک تابع ارزیابی، میزان شایستگی عناصر جمعیت فعلی را مشخص کرده و عناصر بهتر را به عنوان جمعیت نسل بعد انتخاب میکنیم.
در این مقاله از روش حدآستانه برای کاهش ویژگیها استفاده شده است، ولی باز هم با وجود این روش تعداد ویژگیهای استخراج شده از متون بسیار زیاد بوده به همین علت از روش تجزیه و تحلیل مولفههای اصلی برای ارزشدهی به ویژگیها استفاده شدهاست؛ سپس در مرحلهی اول با الگوریتم نزدیکترین همسایگی تعدادی از آنها انتخاب و به عنوان ورودی یکی از خبره-ها استفاده میشود، در مرحله بعدمجدداً، از ویژگیهای ارزشدهی شده، به کمک الگوریتم جداکننده خطی تعدادی ویژگی انتخاب و به عنوان ورودی