مقاله دسته بندی متون فارسی با NAIVE BAYES

فایل pdf

10 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

در چند سال اخیر الگوریتمهای زیادی برای مساله دستهبندی اسناد، پیشنهاد شده است. اغلب کارهای انجام شده بر روی اسناد به زبان انگلیسی بوده و اخیرا در مورد زبانهایی مثل چینی و عربی کارهایی انجام شده است. در این مقاله یک دسته بندی کننده اسناد فارسی با استفاده از روش نیو بیز پیشنهاد شده است و دلیل استفاده از این الگوریتم موفقیت زیاد آن در دستهبندی اسناد مشابه در زبان انگلیسی بوده است. این دستهبند بوسیله متون فارسی پیکره همشهری 2 مورد آزمایش قرار داده شد. در این آزمایش 6 دسته مختلف از پیکره انتخاب شده بود که در این میان، برای دستههای هنری، مذهبی، ورزشی و علمی دقت و بازخوانی یک بدست آمد که بهترین عملکرد ممکن میباشد و برای دسته پزشکی دقت 0,917 و بازخوانی یک و برای دسته رایانه بازخوانی 0,9 و دقت 1 بدست آمد.

-1 مقدمه

سازماندهی فایلهای متنی در دستههای از قبل مشخص شده را دستهبندی متن مینامند. دستهبندی متون یک موضوع مطالعاتی خیلی مهم در دو دهه اخیر بوده است - Feldman and Sanger, 2006, Sebastiani, 2008 - . چندین الگوریتم دستهبندی متن وجود دارد که بر اساس معیارهای شباهت یا تفاوت دو متن توسعه داده شدهاند. در دستهبندی متون اسناد معمولا با کلمات و تعداد تکرار آنها نمایش داده میشوند. این روش نمایش یک روش متداول می باشد که به نمایش کیسه کلمات1معروف است.

در این روش نمایش هر کلمه مستقل از سایر کلمات، یک بعد از فضای بردار یک فایل متنی را تشکیل می دهد - . - Salton and Yang, 1973 هر چند این روش معایبی هم دارد، از جمله اینکه کلمات مترادف را به صورت مجزا در نظر میگیرد - . - Wang and Domeniconi, 2008 به طور کلی مساله دستهبندی متن با روشهای تشخیص الگو قابل حل میباشد بدین صورت که متون به صورت بردراهای عددی به الگوریتمهای دستهبندی کننده وارد میشود . - Sebastiani, 2008 - این نوع از نمایش متون به مدل فضای برداری معروف است.

- . - Salton and Buckley, 1988 در مدل فضای برداری هر متن به صورت یک فضای -nبعدی در نظر گرفته میشود و فایلهای متنی که به آن فضا نزدیکتر هستند به همدیگر شبیهتر میباشند - Turney and Pantel, .2010 - در بین تمام روشهای نمایش مدل فضای برداری، روش کیسه کلمات علاوه بر پردازش متن در سایر زمینهها هم نتایج موفقیتآمیزی داشته است که میتوان به کاربرد آن در پردازش تصویر - - Csurka, 2004، ویدئو - Sivic and Zisserman, 2003 - ، سیگنالهای صوتی - - Manchala, 2014، سریهای زمانی - Wanga, 2013 - اشاره کرد.

یک جزء اساسی در نمایش کیسه کلمات، نحوه وزندهی به عبارات است که میزان مربوط بودن یک کلمه به متن را نشان میدهد - Altyncay and Erenel, 2010, Debole and Sebastiani, 2003, Feldman and .Sanger, 2006, Lan and et al., 2009 - روشهای معمول عبارتند از: تکرار کلمه2، که اهمیت کلمه بر اساس تعداد تکرار آن در متن مشخص میشود. روش دودویی3، که در صورت وجود کلمه در متن مقدار آن 1 و در غیر اینصورت مقدار آن صفر است. روش تکرار کلمه در معکوس تکرار سند4، که اهمیت یک کلمه در یک سند با محاسبه تعداد رخداد آن کلمه در معکوس تکرار کلمه در سایر اسناد بدست می آید.

علاوه بر وزندهی به کلمات یکی دیگر از قسمتهای مهم سیستم دستهبندیکننده متون روش انتخاب ویژگی - Forman, 2003, Yang and Pedersen, 1977 - و فرایند یادگیری خودکار - Agarwal and Mittal, 2014, Aggarwal, 2012, Djuric and et al., 2013 - است. در این مقاله نیز از روش کیسه کلمات و و وزن دهی تکرار کلمه در معکوس تکرار سند برای پیش-پردازش متون استفاده شده است و برای دستهبندی نیز از نیوبیز بهره گرفته شده است. ساختار مقاله به این صورت می باشد که در بخش 2 پیشینه تحقیق بیان شده است و در بخش 3 روش پیشنهادی ارائه شده است و در بخش 4 پیادهسازی و ارزیابی روش ارائه شده آورده شده است.

-2 پیشینه تحقیق

روش های مختلفی برای دستهبندی متن بکار رفته است که در این میان می توان ماشین بردار پشتیبان - Mesleh and Kanaan, 2008, Leopold and Kindermann, 2002, Wang and et al., 2006 - ، شبکه های عصبی - Ramasundaram and Victor, 2010 - و نزدیکترین همسایه - Al-Shalabi and Kanaan, 2006, Kanaan, 2006 - را نام برد. در زمینه دستهبندی متون فارسی تحقیقات کمی انجام شده است که برخی از آنها در زیر آورده شده است.

در - bina and et al. 2007 - دسته بندی متون فارسی با شاخص گذاری 3 و 4 تایی5 انجام شده است. در - Basiri and et al . 2007 - دسته بندی با روش k نزدیکترین همسایه انجام شده است. در - Tam and et al., 2002 - به روش های انتخاب ویژگی پرداخته شده است. در - Amiri and et al., 2008 - یک روش شاخص گذاری کارا معرفی شده است. در - Maghsoodi and homayounpour, 2011 - سیستمی برای دستهبندی خودکار متون فارسی ارائه کردهاند که شامل دو مرحله اصلی پیشپردازش و دستهبندی است در مرحله اول با پردازش دادههای آموزشی بهترین ویژگیهای نماینده هر دسته استخراج شده و برای آموزش دستهبندیکنندهی مبتنی بر ماشینبردار پشتیبان استفاده میشوند و سپس در مرحله دستهبندی، ماشین بردار پشتیبان قادر خواهد بود دادههای آزمایشی را به یکی از دستههای آموزش دیده شده نسبت دهد.

در - Jafari et al., 2011 B - تاثیر بردار ارایه6 را روی دستهبندی متون فارسی بررسی نموده و برای دستهبندی از الگوریتم ماشین بردار پشتیبان استفاده شده است. در - Bina and et al., 2008 - نتایج دستهبندی خودکار متون فارسی با استفاده از شاخصگذاریهای 3 تایی7 و 4 تایی و تکرار کلمه بررسی شده است. در - - Elahimanesh et al., 2012 دستهبندی متون با کمی اصلاح الگوریتم k همسایه نزدیک انجام شده است و از پیکره همشهری یک و مقالاتی از سایر روزنامههای فارسی استفاده شده است. روش k همسایه نزدیک از همسایههای یک سند برای تعیین دسته آن سند استفاده میکند. برچسبهای k همسایه نزدیک به سند به عنوان برچسب سند وارده انتخاب میشود و در نهایت سندی با بیشترین تعداد همسایه برنده میشود. در - Yari et al., 2010 - دستهبندی متون فارسی با استفاده از مجموعههای فازی انجام شده است.

-3 روش پیشنهادی

در این مقاله برای دستهبندی متون فارسی از روش تکرار کلمه در معکوس تکرار سند و دستهبندی کننده نیوبیز استفاده شده است. مراحل کلی یک سیستم دستهبندیکننده متن در شکل 1 نشان داده شده است. کاری که در این پژوهش انجام شده است سنجش کارایی دستهبندی کننده نیوبیز برای زبان فارسی میباشد. هر کدام از مراحل موجود در شکل 1 به ترتیب توضیح داده می شوند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/91518

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله دسته بندی متون فارسی با NAIVE BAYES

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله شناسایی ارقام دستنویس فارسی با استفاده از گرادیان و دسته بندی کننده ماشین بردار پشتیبان

دانلود فایل پاورپوینت اسپم و فیلترکردن عمومی آن با استفاده از روش Naïve Bayesian

دانلود فایل پاورپوینت طبقه‌بندهای مبتنی‌بر تئوری بیز Classifiers based on Bayes Decision Theory

مقاله بهبود دسته بندی سرطان ریه با استفاده از دسته بند جنگل تصادفی

مقاله دسته بندی متون بوسیله تکنیک های ترکیبی داده کاوی

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله توجه به فرهنگ در تدوین متون آموزش زبان فارسی به غیر فارسی زبانان

مقاله دسته‌بندی متون لاتین با روش‌های انتخاب ویژگی فیلتری ، پوششی و الگوریتم‌های بیزساده

مقاله دسته بندی موضوعی پرس وجوهای زبان فارسی

مقاله خوشه بندی متون فارسی به کمک الگوریتم K - means

مقاله حماسه عرفانی و تجلی آن در متون ادب فارسی

مقاله دسته بندی متون فارسی با شبکه عصبی تابع پایه شعاعی

مقاله دسته بندی متون فارسی با استفاده از ترکیب خبره ها و بهره گیری از روش های PCA ، LDA و GA جهت کاهش ویژگی

مقاله دسته بندی موضوعی متون فارسی با استفاده از تکنیکهای یادگیری انتقالی

مقاله دسته بندی قطعات به دسته های سازگار از لحاظ نیاز به پردازش عملیات قطعات هر دسته با ابزارهای مشابه در برنامه ریزی تولید FMS

مقاله دادهکاوی و رده بندی متون فارسی مبتنی بر الگوریتم بهینه سازی ازدحام ذرات ( PSO ) و بهینه سازی پارامترهای ماشین بردار پشتیبان ( SVM )

مقاله شبکه باور عمیق فازی برای دسته بندی ارقام دست نوشته انگلیسی و فارسی با استفاده از اعداد فازی

مقاله طراحی یک نظام هوشمند جهت بررسی صحت املایی کلمات متون خبری زبان فارسی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله دسته بندی متون فارسی با NAIVE BAYES

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله شناسایی ارقام دستنویس فارسی با استفاده از گرادیان و دسته بندی کننده ماشین بردار پشتیبان

دانلود فایل پاورپوینت اسپم و فیلترکردن عمومی آن با استفاده از روش Naïve Bayesian

دانلود فایل پاورپوینت طبقه‌بندهای مبتنی‌بر تئوری بیز Classifiers based on Bayes Decision Theory

مقاله بهبود دسته بندی سرطان ریه با استفاده از دسته بند جنگل تصادفی

مقاله دسته بندی متون بوسیله تکنیک های ترکیبی داده کاوی

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله توجه به فرهنگ در تدوین متون آموزش زبان فارسی به غیر فارسی زبانان

مقاله دسته‌بندی متون لاتین با روش‌های انتخاب ویژگی فیلتری ، پوششی و الگوریتم‌های بیزساده

مقاله دسته بندی موضوعی پرس وجوهای زبان فارسی

مقاله خوشه بندی متون فارسی به کمک الگوریتم K - means

مقاله حماسه عرفانی و تجلی آن در متون ادب فارسی

مقاله دسته بندی متون فارسی با شبکه عصبی تابع پایه شعاعی

مقاله دسته بندی متون فارسی با استفاده از ترکیب خبره ها و بهره گیری از روش های PCA ، LDA و GA جهت کاهش ویژگی

مقاله دسته بندی موضوعی متون فارسی با استفاده از تکنیکهای یادگیری انتقالی

مقاله دسته بندی قطعات به دسته های سازگار از لحاظ نیاز به پردازش عملیات قطعات هر دسته با ابزارهای مشابه در برنامه ریزی تولید FMS

مقاله دادهکاوی و رده بندی متون فارسی مبتنی بر الگوریتم بهینه سازی ازدحام ذرات ( PSO ) و بهینه سازی پارامترهای ماشین بردار پشتیبان ( SVM )

مقاله شبکه باور عمیق فازی برای دسته بندی ارقام دست نوشته انگلیسی و فارسی با استفاده از اعداد فازی

مقاله طراحی یک نظام هوشمند جهت بررسی صحت املایی کلمات متون خبری زبان فارسی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران