بخشی از مقاله
چکیده – با توجه به حجم بالاي داده ها در سازمانها و مراکز دولتی تمایل به استخراج اطلاعات مفید ازدرون این داده ها توسط ابزار هاي داده کاوي افزایش پیداکرده است.در مقاله پیشین روشی براي تعیین درصد جانبازي با استفاده از مدل ماتریس هزینه ارائه شده بود ، در این مقاله رویکرد نوینی جهت بهبود روش قبلی ارائه شده است که ازتکنیک هاي داده کاوي با استفاده از الگوریتم هاي ترکیبی طبقه بندي با نرم افزار RapidMiner استفاده شده است . پایگاه داده مورد استفاده ، پایگاه داده ایثارگران و پرونده هاي مشاوره اي آنان می باشد. که شامل 10324رکورد که 217 نفر زن و 10107 نفر مرد میباشد. %70 از داده ها را براي آموزش و %30 را براي تست در نظر گرفتیم .بالاترین دقت در بین روش هاي پیشنهادي استفاده از مدل معروف بیز - Bayesian - به دقتی برابر با %97.34 بدست آمده است .
-1 مقدمه
فرایند تعیین درصد جانبازي به منظور تعیین میزان از کارافتادگی و ناتوانی جانبازان با مقیاس درصد ، با توجه به آسیب وارده به جسم یا روان وي می باشد. این درصد در جانبازان تحت عنوان درصد جانبازي نامیده میشود.در سالهاي اخیر تحقیقات زیادي در زمینه از کارافتادگی ایثارگران در حیطه رشته هاي علوم اجتماعی5 و روانشناسی6 صورت گرفته است که هرکدام به بررسی تعدادي از شاخص هاي موثر از کارافتادگی پرداخته اند،در این تحقیق از روشهاي علمی داده کاوي براي کشف وبررسی شاخص هاي موثربر میزان از کارافتادگی استفاده شده است . داده هاي استفاده شده دراین تحقیق از طریق پایگاه داده7 سیستم جامع ایثارگران استان همدان جمع آوري شده است.پس از جمع آوري داده ها ،آماده سازي وپیش پردازش داده ها ،تکنیک هاي دسته بندي و الگوریتم هاي ترکیبی دسته بندي را برروي این داده ها بکار بردیم.از نتایج بدست آمده این روشها می توان در طبقه بندي ایثارگران با توجه به مقیاس درصد استفاده کرد. .[1]
-2 مروري بر کار گذشته
دانشجویان رشته هاي آموزشی وروانشناسی وعلوم اجتماعی وسایر دست اندرکاران تعلیم وتربیت تحقیقات زیادي با دیدگاه آماري وتئوري در خصوص جانبازان صورت گرفته است ولی ازدیدگاه داده کاوي تحقیقاتی در این زمینه صورت نگرفته بود. این مقاله براي دومین بار،جهت تشخیص درصد از کارافتادگی جانبازان با رویکرد داده کاوي انجام شده است،در تحقیق پیشین با استفاده از الگوریتم ماتریس هزینه به دقت مناسبی دست پیدا کردیم از آن جهت که کار مشابهی تا قبل از آن وجود نداشت امکان مقایسه مقدور نبود و بعنوان کار نو ارائه گردید. در این مقاله در ادامه کار گذشته با استفاده از روش ریاضی بیز درصد تشخیص جانبازي را بهبود بخشیدیم.
-3 پایگاه داده
پایگاه داده استفاده شده در این مقاله نمونه ضایعات از کار افتادگی بنیاد شهید و امور ایثارگران استان همدان می باشد. سیستم جامع ایثارگران یکی از بزرگترین مجموعه داده هاي به دست آمده در زمینه ضایعات جانبازي می باشد. روش به دست آمدن این ضایعات از طریق مدارك پزشکی ارائه شده توسط متقاضی و فرم هاي پزشک مشاوردر سازمان مورد نظر می باشد. رکوردهاي موجوددر این پایگاه داده شامل 10324 می باشدکه از این تعداد 217 نفر زن و 10107 نفر مرد می باشد. همچنین تعداد کدینگ ضایعات موجود در این پایگاه بیش از1820 مورد می باشدکه با دقت تمامی ضایعات بر حسب تعیین درصد طبق جدول کاملا علمی و پزشکی تهیه گردیده است.
-4 داده کاوي
داده کاوي عبارت است از فرآیند استخراج اطلاعات معتبر ،از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده هاي بزرگ واستفاده از آن در تصمیم گیري در فعالیت هاي تجاري سازمانی و اداري ، که در آن از الگوریتم هاي خاصی به امید شناسایی الگوهاي مفید در داده ها بکار می رود .[2] به طوردقیق تر ،این اصطلاح از الگوریتم هاي کاربردي بر اساس اصول درست دررشته هاي متعدد ازجمله آمار،هوش مصنوعی ،یادگیري ماشین ،علوم پایگاه داده وبازیابی اطلاعات استفاده می کند.[5]
-1-4 مراحل مختلف عملیات داده کاوي
فرآیند داده کاوي شامل سه مرحله است :آماده سازي داده،یادگیري مدل،ارزیابی و تفسیر مدل شکل 1 مراحل سه گانه را به همراه زیر مراحل و همچنین ورودي و خروجی هاي آن نشان می دهد در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت .
-5 آماده سازي
هدف از آماده سازي ، آماده کردن داده ها بمنظور بالا بردن دقت آن براي استخراج ویژگی است .الگوریتم ها و روش هاي مختلفی براي این کار میتوان استفاده کرد .کارهاي انجام شده براي پیش پردازش در این مقاله به شرح زیر است.
-1-5 پاکسازي وتشریح داده ها
داده هاي مورد استفاده در این تحقیق از دوبخش تشکیل شده است ، بخش اول شامل داده هاي ضایعات جانبازي به همراه کد ضایعه ، ریز درصد و جمع درصد نهایی که ازپایگاه داده مذکور استخراج شده است و بخش دوم شامل داده هاي که از طریق پرونده ، فرم پزشک مشاوردر جلسه توجیهی پزشک با متقاضی تهیه و استخراج شده است.
-2-5 استخراج داده ها و متغیرها
متغیر هاي مورد استفاده در این تحقیق شامل 1820متغیر مربوط به ضایعات و کد ضایعه و درصد مربوطه ذکر شده اند.جمع درصد ضایعه در کدینگ، از آنجایی که یک فرد ایثارگر ممکن است بیش از یک ضایعه داشته باشد و براي هر ضایعه درصدي تعریف شده که از مجموع این درصد ها بعنوان درصد جانبازي متقاضی مشخص می گردد.
-3-5 تولید متغیر هاي جدید
از آنجاکه هدف این مقاله تشخیص درصدایثارگري فرد با توجه به ضایعات جانبازي می باشدعوامل موثر بر میزان از کارافتادگی فرد با توجه به نوع ضایعاتی که دارد محاسبه و به فرد درصد جانبازي تعلق می گیرد ،که بعضا ممکن است بعضی از این ضایعات مانند ضایعات شیمیایی در طول زمان بر روي فرد تاثیر گذاشته و ضایعات ایشان را افزایش دهد از این رو درصد جانبازي شامل 3 بازه می باشد ،افرادي که درصد ایشان کمتر از 24 درصد است ، افرادي که درصد ایشان بین 25 تا 49 درصد و افرادي که درصد ایشان از50 تا 70می باشد. از این رو در این تحقیق متغییر Isargar براي تعیین نوع ایثارگري مشخص شده است ،بطوري که وقتی درصد افراد از 25 تا 70 درصد باشد بعنوان ایثارگر شناخته خواهند شد .
-6 مدلسازي
در این مرحله مدل یادگیر روش را بر اساس کدینگ ضایعات ، که رابطه مستقیم در میزان از کارافتادگی فرد متقاضی دارد طراحی کرده ایم. با توجه به استفاده از تکنیک هاي طبقه بندي دادهکاوي ، نیاز به یک برچسب جهت ارائه مدل ضروري است . که این برچسب در مدل هاي پیشنهادي متغیر Isargar تعریف شده است.که داراي 2مقدارYes,NOمیباشد.دراین مقاله الگوریتم هاي طبقه بندي که استفاده شده است عبارتنداز: Decision Tree،Metacost، Bagging,Stacking, Bayesian .لازم به ذکر است که با استفاده از هر الگوریتم مدل مورد نظر را ساخته و خروجی هاي لازم اخذ شده است و مقایسه هاي لازم بین این الگوریتم ها صورت گرفته که درادامه توضیحات لازم داده خواهد شد.
-1 -6 ارزیابی مدل - Decision Tree
معروف ترین تکنیک در طبقه بندي الگوریتم درخت تصمیم می باشد.در ابتدا از این الگوریتم استفاده کرده و چون این تکنیک پایین ترین دقت را به ما داده است نسبت به استفاده از سایر تکنیک ها می پردازیم وآنها را با درخت تصمیم مقایسه می کنیم تا دقت مدل بدست آمده را با لا برده و در نهایت به بهترین مدل برسیم. با توجه به فرمول 1یا2 ارزیابی مدل را با استفاده از یک ماتریس درهم ریختگی - جدول انطباقی - بدست می آوریم.در این ماتریس سطرها نمایانگر مقدار پیش بینی متغیر هدف وستونها نمایانگر مقادیر واقعی متغیر هدف - Isargar - می باشند.که این دقت از مجموع قطر فرعی یعنی مقدار پیش بینی منفی ومنفی واقعی وپیش بینی مثبت ومثبت حقیقی تقسیم بر مجموع کل داده ها بدست آمده است.[6]