بخشی از مقاله

چکیده

داده کاوی و رده بندی متون می تواند اطلاعات فضای مجازی را در حداقل زمان طبقه بندی و زمینه فعالیت وب سایت ها و کاربران فضای مجازی را شناسایی و کنترل کند. در این روش برای رده بندی متن ها بطور معمول از کلمات متن به عنوان ویژگیهای آن متن استفاده میشود، با توجه به اینکه بعضی از ویژگی های انتخاب شده برای رده بندی متون مناسب نمی باشد و سبب افزایش خطا در رده بندی متون شده،به منظور داده کاوی، کاهش تعداد ویژگیها ابتدا با استفاده از الگوریتم ژنتیک با تابع هدف حداقل خطای SVM، ویژگی های بهینه را انتخاب و سپس این ویژگی ها به عنوان داده های آموزشی برای رده بندی متون به ماشین بردار پشتیبان SVM چند لایه داده می شوند،در این روش یکی از عوامل موثر در افزایش کارایی SVM بهینه سازی پارامترها می باشد، برای این کار با استفاده از الگوریتم بهینه سازی ازدحام ذرات - - PSO ،بهینه ترین مقدار پارامترهای ماشین بردار پشتیبان که سبب می شود خطای ردهبندی SVM به حداقل برسد جستجو و انتخاب می شوند. داده های آموزشی که در این مقاله استفاده شده از روزنامه همشهری پیش پردازش می شوند، و در محیط Matlab پیاده سازی شده است.دراین روش که یکی از روشهای یادگیری با نظارت است اطلاعات را ازفضای حاضر به فضای برداری دیگری عموما با ابعاد بیشتر که در آن الگوریتم های یادگیری خطی قابل کاربرد است نگاشت میکند.که این روش میتواند با دقت %93.5 عمل ردهبندی را انجام دهد.

واژگان کلیدی:ردهبندی متون، الگوریتم ازدحام ذراتPSO، بهینه سازی پارامترهایSVM،داده کاوی، الگوریتم ژنتیک، هوش مصنوعی

.1 مقدمه

امروزه با توجه به گستردگی شبکه های اجتماعی و تهدیدهای سایبری در فضای مجازی جمع آوری اطلاعات و شناسایی زمینه فعالیت کاربران در فضای مجازی یکی از عوامل مهم برای مقابله با انواع تهدیدهای ناشی از جنگ سایبر است که با داده کاوی و ردهبندی متون با استفاده از ماشین بردار پشتیبان و شبکه های عصبی می توان اطلاعات فضای مجازی را در حداقل زمان طبقه بندی و زمینه فعالیت وب سایت ها و کاربران فضای مجازی را شناسایی و کنترل کرد. در این روش برای رده بندی متن ها بطور معمول از کلمات متن به عنوان ویژگیهای آن متن استفاده میشود در نتیجه روشهای ردهبندی متون با تعداد زیادی ویژگی مواجه میباشند به منظور داده کاوی، کاهش تعداد ویژگیها و انتخاب ویژگیهای مرتبط از روشهای متعددی استفاده میشود.

دراین مقاله از الگوریتم ژنتیک با تابع هدف حداقل خطای SVM برای این منظور استفاده شده است. از جمله روشهای موجود در ردهبندی متون نیز میتوان به روشهای بیزین ساده، -k نزدیکترین همسایه - K-NN - ، رگرسیون، درختهای تصمیمگیری ، شبکههای عصبی، ماشین بردار پشتیبان - - SVM، روشهای مبتنی بر قاعده و تکاملی اشاره نمود. روش SVM یکی از بهترین روشها در ردهبندی متون میباشد. دراین روش که یکی از روشهای یادگیری با نظارت است اطلاعات را ازفضای حاضر به فضای برداری دیگری عموما با ابعاد بیشتر که در آن الگوریتم های یادگیری خطی قابل کاربرد است نگاشت میکند.براری و همکارانش یکی از اولین کارها در زمینه طبقهبندی متون فارسی را انجام دادهاند.

آنها در ذیل مقالهشان - - 2005 اشاره کردهاند که پیکره خود را از سایت خبری ایسنا تهیه کردهاند. آزمایشهای انجام شده توسط ایشان %97 را در بهترین حالت برای ردهبندی سه کلاسی متون فارسی نشان میدهد.روش به کار رفته این مقاله،نوعی از ردهبند بیزین است. در کاری دیگر، بینا و همکارانشان با استفاده از روش k نزدیکترین همسایه و معیارهای مختلف فاصلهسنجی و نیز با کمک حذف کلمات توقف - stop words - در بیشترین حالت درصد دقت %78 را ثبت نمودهاند . - Bina.B .et al,2007 - این نکته را یادآوری میکنیم که ما نیز بر روی همان دادهها و با یکی از روشی مشابه با روش به کار رفته آنان تحقیقاتمان را انجام دادهایم؛ اما نتایج ما بسیار بهتر به دست آمده است.

در سال 2007 بصیری و همکارانش طی آزمایشهای خود نشان دادند که ردهبند فازی شده K نزدیکترین همسایه - FKNN - قابلیت بالاتری نسبت به خود آن ردهبند دارد - Basiri. M B .et .al,2007 - آنها پیکره آموزشی خود را با انتخاب 600 سند متنی از دو روزنامه آنلاین ایران و جامجم انجام دادهاند. بهترین درصد اعلام شده توسط ایشان %8 دقت معیار-F1 بوده است. در یکی از آخرین کارها در سال 2009، مقصودی و همایونپور روشی مبتنی بر دانش معنایی و گنجواژه - فرهنگ طیفی - ارائه کردهاند - Maghsoodi. N. and Homayoonpour. .M. M.,2009 - این روش با استفاده از دادهگان فارسی پایگاه ویکی پدیا و استفاده از رده بند ماشین بردار پشتیبان در بهترین حالت به مقدار %86 معیار F-measure دست پیدا کرده است.

در روش پیشنهادی رده بندی و انتخاب ویژگی متون فارسی بر مبنی بهینه سازی ازدحام ذرات - - PSO و بهینه سازی پارامترهای ماشین بردار پشتیبان - - SVM، داده های آموزشی که در این مقاله استفاده شده از روزنامه همشهری پیش پردازش می شوند، باتوجه به اینکه بعضی از ویژگی های انتخاب شده برای رده بندی متون مناسب نمی باشد و سبب افزایش خطا در رده بندی متون شده، در این روش ابتدا با استفاده از الگوریتم ژنتیک با تابع هدف حداقل خطای SVM، ویژگی های بهینه را انتخاب و سپس این ویژگی ها به عنوان داده های آموزشی برای رده بندی متون به ماشین بردار پشتیبان SVM چند لایه داده می شوند، یکی از عوامل موثر در افزایش کارایی SVM بهینه سازی پارامترها می باشد،برای این کار با جستجو و انتخاب پارمترهای SVM با استفاده از الگوریتم بهینه سازی ازدحام ذرات - - PSO ، به حداقل رساندن خطای رده بندی SVM از طریق الگوریتم بهینه سازی ازدحام ذرات - PSO - به دست می آید پارامترهای SVM بهینه و در نتیجه دقت رده بندی متون بهبود می یابد.

.2  تعریف مسئله

اگر فرض کنیم که متنهای مورد بررسی ما، در n رده تقسیمبندی شوند - برای نمونه، حوزههای: ورزشی، سیاسی، خانواده، تغذیه و ... - که مجموعه این ردهها به صورت C = {c1c2 … cn} نشان داده شده است، به عمل مشخص کردن حوزه یک متن ناشناخته، عمل ردهبندی آن متن گفته میشود. رابطه 1 تابع ردهبندی کننده f را که با گرفتن متن نمونه t رده متناظر آن را - c - محاسبه میکند، نشان میدهد.برای نمونه، اگر حوزهها یا همان ردههای متنهای ما، به دو رده »علمی« و »اجتماعی« تقسیمبندی شده باشد، بایستی رده متناظر با متن نمونه زیر در حوزه علمی، »علمی« باشد.در دومین دوره مسابقات روباتیک جهانی تیم دانشگاه آزاد اسلامی بوشهر مقام اول را کسب کرد و این پیروزی را به تمام ایرانیان تبریک عرض می نمایم.

.1-2  الگوریتم بهینه سازی ازدحام ذرات

گروهی ازپرندگان درفضایی به صورت تصادفی دنبال غذا می گردند .تنها یک تکه غذا در فضای مورد بحث وجود دارد . هیچ یک ازپرندگان محل غذا را نمی دانند .یکی ازبهترین استراتژی ها می تواند دنبال کردن پرندهای باشدکه کمترین فاصله را تاغذاداشته باشد.این استراتژی درواقع جانمایه الگوریتم است.هرراه حل که به آن یک ذره گفته میشود،PSOدرالگوریتم معادل یک پرنده درالگوریتم حرکت جمعی پرندگان می باشد .هرذره یک مقدار شایستگی داردکه توسط یک تابع شایستگی محاسبه میشود .هرچه ذره درفضای جستجوبه هدف - غذادرمدل حرکت پرندگان -نزدکترباشد،شایستگی بیشتری دارد .. همچنین هرذره دارای یک سرعت است که هدایت حرکت ذره را برعهده دارد . هرذره بادنبال کردن ذرات بهینه درحالت فعلی،به حرکت خوددرفضای مساله ادامه میدهد. به این شکل است که گروه ی ازذرات PSO آغازکاربه صورت تصادفی به وجودمی آیند وبا به روزکردن نسلها سعی دریافتن راه حل بهینه می نمایند .درهرگام،هرذره بااستفاده از دوبهترین مقداربه

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید