بخشی از مقاله
چکیده
یک فرض عمده در بسیاری از الگوریتم های یادگیری ماشین یکسان بودن ابعاد ویژگی و توزیع داده ها است. اما بسیاری از کاربرد های واقعی دارای این خصوصیت نیستند. به طوری که داده هایی که الگوریتم در آینده دریافت میکند ممکن است دارای ابعاد ویژگی متفاوت و یا از توزیع دیگری باشند. در اینجا یادگیری انتقالی مطرح میشود. یادگیری انتقالی یک مسئله تحقیقاتی در حوزه یادگیری ماشین است که تمرکز آن بر روی ذخیره کردن دانش به دست آمده از حل یک مسئله و به کار بردن آن برای حل مسئله متفاوت اما مرتبط دیگری است. هدف ما در این پایان نامه استفاده از یادگیری انتقالی مبتنی بر شبکه های بیزین برای حل مسئله دسته بندی متون فارسی است.
مجموعه آزمایش همشهری یکی از معتبرترین منابع در زبان فارسی در حوزه متون زبان طبیعی است. از این مجموعه، زیرپیکره ای دارای 3500 متن به عنوان مجموعه ی آموزش و آزمون و همچنین به منظور استخراج کلمات کلیدی انتخاب گردید. برای ارزیابی روش پیشنهادی دو کلاس مجموعه داده یکی بدون برچسب و دیگری برچسب دار انتخاب شده و طبقه بندی نایو بیز انتقالی و نایو بیز ساده روی مجموعه داده انتخابی اعمال می شود. در این مقاله 10 جفت کلاس مختلف را تحت 10 آزمایش جداگانه مورد بررسی قرار گرفته است . نتایج سه معیار دقت، بازخوانی و معیار F حاصل از پیاده سازی، نشان دهنده دقت قابل قبول مدل بیشنهادی برای دسته بندی متون فارسی با استفاده از یادگیری انتقالی میباشد.
-1 مقدمه
واضح است که در سازمان های جدید، دانش یک فاکتور کلیدی برای رقابت سالم می باشد. دستیابی به موفقیت و باقی ماندن در صحنه رقابت به صورت گسترده به قابلیت یافتن اطلاعات مفید در زمان مناسب بستگی دارد. توجه به این نکته ضروری است که بخش قابل توجهی از اطلاعات موجود در پایگاه های داده ای متنی، ذخیره شده اند. لذا از متن کاوی1 برای مقایسه متون مختلف، رتبه بندی مهم ترین و مرتبط ترین متون و یا یافتن الگو ها و رفتار های بین متون مختلف استفاده می باشد. یکی از این وظایف طبقه بندی مستندات زبان طبیعی به طبقه های از قبل مشخص شده می باشد که از جمله روش های مهم برای سازماندهی اطلاعات آنلاین می باشد.
ازجمله کاربرد های طبقه بندی می توان به طبقه بندی صفحات وب، شاخص گذاری آیتم های خبری در منابع مختلف اینترنتی و دسته بندی موضوعی 2در زمینه های تجارت، پزشکی و بیوانفورماتیک اشاره نمود. - تشکری و میبدی ، - 1380 روش یادگیری ماشین با ساختن قوانین طبقه بندی متن می تواند بر همه این کمبود ها فائق آید. برمبنای این روش، تعدادی از مستندات آموزشی طبقه بندی شده به صورت دستی، داده می شود. مراحل انجام کار طبقه بندی به این صورت است که ابتدا پردازش زبان طبیعی انجام شده، سپس با به کارگیری روش یادگیری اتوماتیک، این نتایج تفسیر می شود. وظایفی نظیر بازیابی متن و طبقه بندی متن از این تفسیر استفاده می کنند. هدف نهایی، طبقه بندی متون در تعداد ثابتی از دسته های از قبل معرفی شده می باشد.
سازماندهی اطلاعات آنلاین، در قالب طبقه بندی مستندات زبان طبیعی در دسته های از قبل مشخص شده یکی از روشهای مهم مدیریت اطلاعات محسوب می شود. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام گرفته است، نیاز به طبقه بندی متون فارسی به خوبی احساس می شود سیستم طبقه بندی متون فارسی در فاز یادگیری، مجموعه ای از متون آموزشی را برای استخراج ویژگیهای دسته ها بررسی می کند تا خصوصیات اصلی هر دسته را به دست آورد. به طوری که در فاز تست سیستم طبقه بندی متون فارسی، این ویژگیهای مختص دسته، برای طبقه بندی متون دسته بندی نشده به کار می روند.
یک فرض عمده در بسیاری از الگوریتمهای یادگیری ماشین یکسان بودن ابعاد ویژگی3 و توزیع داده ها است. اما بسیاری از کاربرد های واقعی دارای این خصوصیت نیستند. برای مثال در حل یک مسئله کلاسبندی4 در یک حوزه خاص دارای تعدادی داده آموزشی مناسب در حوزه متفاوت - اما مرتبط - دیگری هستیم به طوری که داده هایی که الگوریتم در آینده دریافت میکند ممکن است دارای ابعاد ویژگی متفاوت و یا از توزیع دیگری باشند. - تشکری و میبدی ، - 1380
در اینجا یادگیری انتقالی مطرح میشود. یادگیری انتقالی یک مسئله تحقیقاتی در حوزه یادگیری ماشین است که تمرکز آن بر روی ذخیره کردن دانش به دست آمده از حل یک مسئله و به کار بردن آن برای حل مسئله متفاوت اما مرتبط دیگری است. هدف ما در این مقاله استفاده از یادگیری انتقالی مبتنی بر شبکه های بیزین برای حل مسئله دسته بندی متون فارسی است. در بخش 2 مروری بر کارهای گذشته در زمینه دسته بندی متون فارسی ارائه می شود. در بخش 3 روش پیشنهادی برای دسته بندی متون فارسی معرفی و توضیح داده می شود. در بخش 4 نتایج آزمایشات روی مجموعه داده انتخابی ارائه می شود. در بخش 5 نتیجه گیری انجام شده و کارهای آینده در زمینه طبقه بندی متون معرفی می شود.
-2 کارهای گذشته
- تشکری ، - 1380 ارزیابی سیستم بازیابی متن و استفاده از تکنیک ریشه یاب خودکار را مورد مطالعه قرار داد، دقت 89درصدی در پاسخ به پرس و جوهای اِعمال شده و بهره برداری بدون اصلاح برای زبان های غیر فارسی به ادعای نویسنده از مزایا و و استفاده از تنها منون تخصصی کامپیوتر در فرایند یادگیری ، استفاده از پارامترهای معدود در فرایند تست 2 - پارامتر - از معایب عمده کار او به شمار می رود.