بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
ارائه مدل داده کاوي خوشه بندي اطلاعات حقوق ودستمزد با استفاده از شاخص جيني
چکيده
داده هاي حقوق و دستمزد از مهمترين داده هاي هر سازمان مي باشند که در معيارهاي فراواني همچون عملکرد ،کيفيت و عمده هزينه هاي آن سازمان نقشي اساسي و حياتي ايفا مي کنند ، يافتن قواعد والگوهاي اساسي ميان اينگونه داده ها، مي تواند در تصميمات مهمي از جمله چگونگي افزايش حقوق ويا استخدام نيروهاي جديد تاثير گذار باشد ؛ با توجه به اهميت اين موضوع در اين مقاله ، سيستم حقوق و دستمزد سازمان آموزش وپرورش به عنوان يک مطالعه موردي تحت بررسي قرار گرفته و براساس تکنيکهاي داده کاوي وعلي الخصوص با تغييردر قواعد ساخت درخت تصميم با استفاده از ضريب شاخص جيني به نوعي خوشه بندي با توجه به درنظرگرفتن معيار هدف نائل گرديده ، روش کار بدين صورت است که در ابتدا فاکتورهاي تاثير گذار در حقوق ، با اين شاخص ، شاخه شاخه جدا ودر انتها تک تک خوشه ها را با ميزان حقوق دريافتي ازهمان شاخه مقايسه و تاثير حقوق برنتيجه بدست آمده بررسي مي گردد ودر انتها جهت بررسي اعتبار اين آزمون بوسيله الگوريتم k-means داده هاي موجود خوشه بندي گرديده وهمچنين به روش c٤٥ درخت تصميم توليدمي گردد و نتايج بدست آمده درهر سه روش با هم مقايسه خواهد شد؛ که پس از ذکر دلايل نتيجه گرفته مي شود ، خوشه بندي انجام گرفته با ضريب جيني ، يعني روش و متد بکارگرفته شده در اين پژوهش با k-means (با کمي تغييرات ) قابل اثبات مي باشد.
کلمات کليدي
داده کاوي -حقوق ودستمزد ، خوشه بندي ، ضريب جيني ، مجموعه تواني ، رضايت شغلي- k-means- -c٤٥
١- مقدمه
جامعه مبتني بر اطلاعات را مي توان به عنوان جامعه اي تعريف نمود که بخش غالب اجتماع به جاي کارهاي فيزيکي در گير کارهاي فکري هستند . در چنين جامعه اي بيشترين توجه به فعاليت هاي اطلاعاتي از قبيل فراهم آوري، پردازش ، توليد، ثبت ، انتقال ، اشاعه و مديريت اطلاعات م ب ذول مي گردد و بيشترين هزينه ها صرف فرايندهاي اطلاعاتي مي شود. با گسترش سيستم هاي پايگاهي و حجم بالاي داده هاي ذخيره شده در اين سيستم ها، به ابزاري نياز است تا بتوان اين داده ها را پردازش کرد و اطلاعات حاصل از آن را در اختيار کاربران قرار داد .يکي از اين ابزارها روش داده کاوي مي باشد که با کمترين دخالت نيروي انساني و به صورت خودکار ،الگوها و رابطه هاي منطقي را بيان و الگوهاي مفيد را در ميان داده ها تشخيص داده و در اختيار افراد مورد نياز قرار مي دهد. [١١]
يکي از پايگاههاي داده اي بزرگ که نياز به پردازش داده ها در آن به وفور احساس مي گردد ،پايگاه داراي داده هاي مربوط به سيستمهاي مالي (حسابداري) مي باشد. ، در اينگونه سيستمها ودر واحد هاي اقتصادي مختلف ؛ الگوها وقواعد ويژه وجود دارد که مخصوص همان واحد ويا واحد هاي مشابه مي باشد ، بدين جهت دريک سيستم داراي چنين پايگاهي ، الگوها وقواعد براساس استانداردهاي از پيش تعيين شده قابل کشف وارائه نمي باشند .
پرداخت حقوق يکي از فرايندهاي سيستمهاي مالي و حسابداري مي باشد که از اهميت ويژه اي برخوردار است ،امروزه در اکثر سازمانها وواحدهاي توليدي وخدماتي ميزان حقوق ومزايا وهمچنين پاداش ، براساس عملکرد کارکنان سنجيده وبراساس معيارهاي درون سازماني پرداخت مي گردد، اما در سازمانهاي دولتي ومخصوصاً در بخش آموزش وپرورش حقوق و مزايا ثابت و براساس قوانين دولتي و معيارهايي به جز عملکرد کارکنان ، محاسبه وپرداخت مي گردد.
آيا معيارهاي پرداخت حقوق به صورت فعلي وبدون توجه به عملکرد، مي تواند تاثيري در عملکرد و کيفيت کارايي کارکنان داشته باشد؟ سئوالي که اکثرًا با پاسخ منفي روبرو مي شود وبيان مي گردد چگونه افراد بدون داشتن معيار و انگيزش مادي در قبال عملکرد بهتر ، حقوق ودستمزد دريافتي را در کيفيت خدمات خود تاثير مي گذارند، پاسخي که به ظاهر صحيح مي باشد.
اما تاثير رضايت شغلي بر عملکرد مثبت کارکنان فرضيه انکارناپذيري مي باشد که يکي از فاکتورهاي تاثير گذار بررضايت شغلي، ميزان درآمد فرد در شغل مورد نظر مي باشد .
در اين تحقيق ، تاثير مثبت حقوق ومزاياي دريافتي در عملکرد آموزشي کارکنان به جهت رضايت شغلي اثبات مي گردد که جهت دست يافتن به اين هدف و اثبات فرضيه مورد نظر از تکنيکهاي داده کاوي استفاده شده است .
در حال حاضر در کشور ايران جهت پرداخت حقوق ودستمزد کارکنان آموزش وپرورش از قانون خريد خدمات کشوري استفاده مي گردد که در اين قانون ميزان حقوق براساس پارامترهايي مانند مدرک تحصيلي ، سابقه ، تاهل وتعداد فرزندان ، مسئوليت و... موردارزشيابي ومحاسبه قرارمي گيرد در اين قانون به افراد با عملکرد بهتر پرداخت پاداش به صورت بسيار محدود در نظر گرفته شده اما به علت نبود معيارهاي صحيح سنجش کيفيت ، قوانين اينچنيني تاثير چنداني ندارند.
ابتدا روش جمع آوري داده هاي مورد نياز وهمچنين چگونگي تعيين معلمان با کارايي بهتربررسي و توضيح داده خواهد شد و سپس روش وتکنيک بررسي داده ها بيان و در انتها فرضيه مورد بحث ،تحت آزمون قرار خواهد گرفت .
٢- داده کاوي
دانش داده کاوي فرآيند کشف دانش پنهان درون داده هاست که با برخورداري از دامنه وسيع زمينه هاي تخصصي با توصيف ، تشريح ، پيش بيني و کنترل پديده هاي گوناگون پيراموني، امروزه داراي کاربرد بسيار وسيع در حوزه هاي مختلف از جمله صنعتي، پزشکي، ارتباطات ، کشاورزي، انرژي، علوم اجتماعي، فرهنگي، سياسي، اقتصادي، بازرگاني، دفاعي و آموزشي و... است به گونه اي که امروزه محدوديتي براي کاربرد اين دانش در نظر گرفته نشده و زمينه هاي کاري اين دانش را در تمامي عرصه هاي برخوردار از داده مي دانند. داده کاوي در واقع پل ارتباطي ميان علم آمار، علم رايانه ، هوش مصنوعي، الگوشناسي، فراگيري ماشين و بازنمايي بصري داده است ؛ به عبارت ديگر فرآيندي است پيچيده براي شناسايي الگوها و مدل هاي صحيح ، جديد و به صورت بالقوه مفيد، در حجم وسيعي از داده ، به طريقي که اين الگوها و مدل ها براي انسان ها قابل درک باشند ؛ البته به صورت يک محصول هم قابل خريداري نيست ، بلکه يک رشته علمي و فرآيندي است که بايد به صورت يک پروژه پياده سازي شود. [٣]
فرآيند کشف دانش پنهان درون داده ها در حقيقت بدنبال کشف ساختارهاي جالب توجه ، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است » [٤]
به صورت خلاصه داده کاوي به بررسي وتجزيه وتحليل مقادير عظيمي از داده ها به منظور کشف الگوها وقوانين معني دار اطلاق مي شود[٥]
-١-٢ فرآيند داده کاوي
ميتوان فرآيند داده کاوي را طي مراحل زير به صورت نمودار نشان داد.[٧]
با توجه به اين امر که داده کاوي فرآيند اکتشاف مدل هاي گوناگون ، خلاصه ها و ارزش هاي نشات گرفته ازمجموعه خاصي از داده هاست [٨]، براي پياده سازي جنين فرآيندي بايد از روش نظام يافته استفاده کرد . در اين راستا متدولوژ ي «فرآيند استاندارد ميان صنعتي داده کاوي » (Crisp Data Mining )که يک پروژه چرخه عمري متشکل از ٦ گام دارد را مبنا قرار داده و اين گام ها به صورت مستمر و تکراري در تمام فرآيند به کار گرفته مي شوند .
گام هاي متدولوژي داده کاوي CRISP به اختصار بدين صورت مي باشد[٦],[٩] .
١-٢ درک موقعيت کسب و کار
٢-٢ گام درک داد ه ها:
٣-٢ گام پيش پردازش داد ه ها.
٤-٢ گام مدل سازي
٥-٢ گام ارزيابي و استنتاج مدل
٦-٢ گام به کارگيري
٣- فرايند داده کاوي در مطالعه موردي
٣-١ درک موقعيت کسب وکار
آموزش وپرورش بزرگترين سازمان از نظر تعداد پرسنلِ حقوق بگيرِ رسمي و غير رسمي مي باشد و اساس خدمات ارائه شدهِ اين سازمان برپايه نيروي انساني بنا نهاده شده است ، بدين جهت مديريت نيروي انساني و همچنين تخصيص منابع محدودِ موجود در راستاي اهداف ، مهمترين مسئله مديران مي باشد .
تخصيص بودجه محدودِ در اختيار، در راستاي رسيدن به هدف ، که همانا دستيابي به بالاترين کيفيت آموزشي مي باشد، دغدغه اصلي دراين سازمان مي باشد.کدام گروه از کارکنان و با چه ميزان ودر کدام زمينه افزايش بودجه ، تاثير بيشتري دارد و... سئوالات فراوان ديگري که در راستاي رسيدن به اهداف متعالي مطرح مي گردد ، نياز به پاسخهايي شفاف وهمه جانبه نگر دارند.
٣-٢ – گام درک داده ها
٣-٢-١ ( داده هاي حقوق ودستمزد پرداختي )
با توجه به تفاوت سال مالي با سال تحصيلي آموزش وپرورش ، اطلاعات پرداختي کارکنان آموزش وپرورش از اول مهر ١٣٨٧ تا خرداد ١٣٨٨ يعني اپ يان سال تحصيلي جمع آوري گرديده که اين اطلاعات شامل کل هزينه هاي صورت گرفته وهمچنين خالص بانک پس از کسورات ، جهت هر فرد مي باشد. دليل عدم توجه به ساير سالها نبود داده هاي واقعي وبا کيفيت مرتبط با افراد کارآمد مي باشد.
٣-٢-٢– انتخاب افراد با کارايي بهتر
روشهاي مختلفي در سيستم ارزشيابي آموزش وپرورش جهت تعيين ميزان عملکرد معلمين وجود دارد، از آن جمله مي توان به ارزشيا بي هاي کيفي توسط مديران ، نمره دانش آموزان و يا پرسشنامه هايِ تکميل شده توسط دانش آموزان نام برد.
اما با توجه به هدف آموزش وپرورش که تعليم وتربيت دانش آموزان مي باشد ومعيار خروجيِ دانش آموزان که همان امتحانات مي باشد، معيار نمره دانش آموزان در امتحانات ملاک قرارگرفته شده است ، ايراد نمره عمدتاً به اين مطلب بر مي گردد که مقايسه نمرات يک معلم با معلم ديگر صحيح نمي باشد زيرا ممکن است معلمي اصطلاحاً خوش نمره يا بد نمره باشد ويا اينکه معيار نمره او با ديگران تفاوت داشته باشد، بنابراين امتحانات نهائي دانش آموزان سال سوم متوسطه در نظر گرفته شد که نمره توسط معلم مربوطه ثبت نمي گردد ودر مکان ديگر وبراساس ضوابط يکسان توسط ساير کارکنان ثبت وتعيين مي گردد. گرچه توجه به نمره ايرادات فراواني دارداما تنها روشِ در دسترس و قابل اطمينان نسبت به ساير گزينه ها مي باشد.
در نتيجه ١٤١٥ نفر از بين ١٦٤٥٤ نفر معلمين مقطع متوسطه انتخاب شده اند که در رشته خودشان بيشترين درصد وميانيگن قبولي را داشته اند والباقي کارکنان در مقاطع ديگر که امتحانات متمرکز ندارند، ازجامعه آماري حذف گرديد.
٣-٣ -گام پيش پردازش داد ه ها
در اين مرحله داده هاي زائد وهمچنين داده هايي که براثر اشتباه ثبتي، وارد مجموعه شده ويا اينکه داده ها مرتبط با هم نمي باشند ،حذف مي گردد مثلاً در مجموعه داده هاي تحقيق ،حدودًا ٧٠ هزارنفرکارمنددر٤٨ منطقه جغرافياييِ مختلف وجود دارند ، اما داده هاي مربوط به کارمندان نمونه ١٨ منطقه قابل استخراج ودريافت نبود ، دليل اين امر عدم همکاري کارکنان مناطق فوق در ارسال اطلاعات مربوط به افراد کارآمد خود مي باشد،با توجه به اينکه ، نبود اطلاعات مربوطه با توجه به گستردگي و فراواني داده هاي در دسترس وهمچنين نزديکي وشباهتهاي فراوان تعدادي از داده هاي موجود با داده هاي از دست رفته ، چندان تاثيري در نتيجه نهائي متصور نمي باشد؛ اين داده ها از مجموعه حذف گرديد.
با توجه به تصميم انتخاب افراد برتر براساس نمره امتحانات نهايي مقطع متوسطه بنابراين نياز به حذف داده هاي معلمين مقطع ابتدايي وراهنمايي احساس گرديد. درنتيجه پس از طي اين گام ١٦٤٥٤ نفر انتخاب شده ، که از ميان انها ١٤١٥ نفر داراي رتبه برتر والبته با کيفيت بودند.
٣-٤ گام مدل سازي
٣-٤-١- تکنيک وروش تحليل اطلاعات
همانطور که در مقدمه بيان گرديد ميزان حقوق کارکنان براساس فاکتورهاي مختلفي تعيين مي گردد بنابراين فاکتورهايي مانند مدرک تحصيلي ، سابقه کاري ، تعداد فرزندان وتاهل که تاثير مستقيم برحقوق ودستمزد دارند به مسئله اضافه مي گردد .
جهت بررسي وآناليز اطلاعات مورد نظر پس از بررسيهاي اوليه تصميم به خوشه بندي داده ها گرفته شد ودرجهت ايجاد خوشه بندي از شاخص ضريب جيني استفاده شده است .
شاخص ضريب جيني در اقتصاد براي اندازه گيري تنوع جمعيتي استفاده مي شود. اما چنين مفهومي جهت تعيين ميزان خلوص يک طبقه خاص به عنوان مبنايي براي شکست يک تصميم يا يک متغير خاص نيز بکار مي رود.
معمولا از ضريب جيني با توجه به مفهوم فوق جهت توليد درخت تصميم استفاده مي گردد.
روشهاي خوشه بندي رايج بدون توجه به فيلد هدف (کارا بودن يا نبودن ) داده ها را طبقه بندي کرده ودر صورت در نظر گرفتن فيلد هدف به عنوان يک پارامتر ممکن است به ميزان زيادي در طبقه بندي وشباهتهاي ساير معيارها تاثير بگذارد واگر هم در نظر گرفته نشود به هدف اصلي که طبقه بندي داده ها براساس معيار هدف مي باشد، نخواهد رسيد.
بنابراين طبقه بندي دادها را در اين پروژه با استفاده از شاخص جيني وتشکيل شبه درخت تصميم انجام خواهيم داد که تشکيل هر درخت تصميم صرفا براساس معيار هدف خواهد بود.
با انتخاب روش شاخص جيني که براساس متغير هدف (معلمين با کارايي بهتر) ميزان خلوص هر طبقه تعيين وسپس از آن نقطه شکست طبقه آغاز وخوشه جديد استخراج مي گردد.
آنچه به عنوان نقطه مينيمم ضريب جينيِ سطح در آمد بدست مي آيد اينگونه تفسير مي گردد که در اين نقطه حداکثر برابري بين افراد کارامدو ناکارامد وجود دارد اما در ساير سطوح درامدي، فاصله بيشتري وجود دارد بنابراين اين نقطه را نقطه سر به سر خواهيم خواند.
٣-٤-٢ - ضريب جيني
ضريب جيني يک واحد اندازه گيري پراکندگي آماري است که معمولا براي سنجش ميزان نابرابري در توزيع درآمد يا ثروت در يک جامعه آماري استفاده مي شود. اين ضريب با نسبتي تعريف مي شود که ارزشي بين صفر و يک دارد: ضريب جيني پايين برابري بيشتر در توزيع درآمد يا ثروت را نشان مي دهد در حاليکه ضريب جيني بالاتر، توزيع نابرابر را مشخص مي کند.
صفر يعني همه افراد ، درآمد و ثروت يکسان دارند (برابري مطلق ) و عدد يک يعني نابرابري مطلق به گونه اي که ثروت تنها در دست يک نفر است و مابقي هيچ درآمدي ندارد. درآمد جيني مشروط بر اين است که هيچ کس داراي درامد و ثروت خالص منفي نباشد. در دنياي حاضر، ضريب جيني بين
٠.٢٣٠ در سوئد تا ٠.٧٠٧ در ناميبيا متغير است البته تمامي کشورها در اين ارزيابي وارد نشده اند . در شکل [١] گزارش مربوط به ضريب جيني کشورهاي مختلف را مي توان مشاهده نمود..[١٠]
شکل شماره ١
در اين مقاله با استفاده از همين مفهوم در جه خلوص هر طبقه بدست آمده واز همان نقطه آن طبقه خوشه خوشه مي گردد . بدين معني که با استفاده از ضريب جيني ، نقطه اي که برابري بيشتري بين افراد کارامد ونا کارمد در آن طبقه را دارد به عنوان نقطه مياني وشکست آن طبقه مد نظر قرار داده مي شود.
٣-٤-٢-١ فرمول ضريب جيني(فرمول ١)
S يک مجموعه از داده شامل مثالهايي از n طبقه و pj فراواني نسبي طبقه j در S است
طبقه j براساس فرمول مجموعه تواني انتخاب مي گردد مثلا براي يک فاکتور ٣ کاراکتري داريم ( n ٢ ) يعني ٨ عضو وطبقه متفاوت مي تواند تشکيل يابد سپس ضريب جيني هر کدام يکبار انتخاب وکوچکترين ضريب جيني به عنوان شاخص شکست آن طبقه انتخاب مي گردد.
وهمانطور که قبلاً بيان شد جهت هر مجموعه يکبار بايد ضربي جيني محاسبه گردد.
٣-٤-٣- خوشه بندي داده ها
جهت محاسبه ضريب جيني وبدست آوردن مجموعه تواني هر طبقه با توجه به نبود نرم افزار مناسب به ناچار جهت اين پروژه يک نرم افزار تهيه گرديد
، بعضي از محاسبات مثلاً تعيين نقطه شکست در سابقه کاري با يک رايانه پنتيوم ٤ حدودًا ٤ ساعت زمان طول کشيد تا نقطه شکست محاسبه گردد.
الف – طبقه بندي مدارک تحصيلي براساس متغير هدف
با توجه به داده هاي اوليه ، فاکتور مدرک تحصيلي به عنوان اولين طبقه انتخاب گرديد ، در اين طبقه ١٢ عضو وجود دارد با آناليز داده هاوجدول اوليه اين نتيجه بدست خواهد آمد که در سطح مدارک تحصيلي تا ديپلم هيچ کارمندي مطلوبيت ندارد، بنابراين اين افراد در ابتدا به خوشه ١ انتقال داده والباقي با ضريب جيني بررسي مي گردند که نقطه شکست مدرک دکترا انتخاب گرديد، همانطور که در جدول شماره ١ مشاهده مي گردد ميانگين مدرک دکترا از هر ١٧ نفر يکي به عنوان کارامد انتخاب گرديده است بنابراين مدرک ليسانس وفوق ليسانس که هر ١٠ و٧ نفر يکي انتخاب شده در يک خوشه وديپلم وفوق ديلم خوشه ديگر را تشکيل مي دهند.
مدرک دکترا هم در خوشه ليسانس وفوق ليسانس طبقه بندي مي گردد،
بنابراين خوشه بندي اوليه به صورت چارت ذيل تعيين مي گردد
ب – طبقه بندي تعداد اولاد براساس متغير هدف
درجدول شماره ٢ اعداد نمايش داده شده در هر طبقه نشانگر تعداد فرزندان هر کارمند مي باشد بدين معني که افراد با مدرک ديپلم وفوق ديپلم با تعداد فرزندان ٠ و ٥ و٦ در يک طبقه وافراد با تعداد فرزند ١ و٢ در طبقه ديگر قرار گرفته اند.
در اين طبقه بندي در شاخه B-A و همچنين C-A هيچ فرد برتري وجود ندارد بنابراين اين شاخه ها بسته خواهند شد.
در اين طبقه به علت داشتن ضريب جيني مينيمم مساوي در چندين عدد با توجه به اطلاعات موجود، عدد ٢ در خوشه B وهمچنين ٥ در خوشه C انتخاب گرديد.
ج – طبقه بندي سابقه خدمتي براساس متغير هدف
در اين مرحله براساس طبقه بندي صورت گرفته ، سابقه هر فرد به فرمول وارد گرديد ، در طبقه B-B افرادي با سابقه ١و١٠و٣٣و٣٠ ضريب جيني مينيمم داشته اند بنابراين عدد ١٠ را مبنا وشاخص شکست در اين طبقه قرار مي گيرد ، در طبقه B-C افرادي با سابقه ١٠،١١و١٢و١٣ ضريب جيني مينيمم داشته اند که در اين مرحله هم عدد ١٠ مبنا قرار مي گيرد.
در طبقه C-B و C-C نيز شاخص ٢١ محاسبه گرديد
جدول نهايي ومحاسبه ميانگين حقوق هر طبقه در جدول پيوست مشاهده مي گردد ( جدول شماره ٣ پيوست ) همانطور که در جدول مورد اشاره ملاحظه مي گردد به جز ٢ خوشه ، درالباقي خوشه ها افراد برتر داراي ميانگين حقوق بالاتر از ساير افراد مي باشند.
در ادامه ابتدا به تحليل اين دو خوشه پرداخته وسپس داده ها از روش ديگري مورد تحليل قرار مي گيرند.
طبقه بندي براساس مدارک تحصيلي ليسانس وبالاتر وسابقه بالاي ٢١ سال ( جدول شماره ٤پيوست )