بخشی از مقاله
چکیده:
از آنجا که اعطای تسهیلات اعتباری توسط بانکها با مشکلات متعددی مانند ریسک اعتباری مشتریان مواجه شده است، برای بانک ها ضروری ا ست تا از سی ستمهای پیچیده تری جهت تایید م شتریان ا ستفاده نمایند. هدف این مقاله طبقه بندی م شتریان بانک هایی ا ست که پیش ازین تسهیلات اعتباری دریافت کرده اند. در این تحقیق فرآیند داده کاوی بر روی داده های اعتباری مشتریان که در سیستم اطلاعاتی بانک در درسترس است انجام پذیرفت. در ابتدا، داده های مورد نیاز جمع آوری شده و عملیات پیش پردازش بر روی آنها صورت پذیرفت. سپس تکنیک های طبقه بندی1 از جمله رگرسیون لجستیک2، درخت تصمیمC4.5 3 و ماشین بردار پشتیبانی4 با سه روش مختلف، شامل: - 1 طبقه بندی بدون انتخاب ویژگی 5 ها و خوشه بندی. - 2 طبقه بندی بر اساس الگوریتم انتخاب ویژگی ها - 3 طبقه بندی بر اساس خوشه بندی6 اطلاعات؛ بر روی داده های پیش پردازش شده اعمال شد و نتایج حاصل مورد قیاس قرار گرفت. نتایج نشان می دهد که روش طبقه بندی بر اساس خوشه بندی، از دقت بالاتری در پیشبینی ریسک اعتباردر مقایسه با سایر روشهای آزمایش شده برخوردار است.
واژگان کلیدی: ریسک اعتبار، درخت تصمیم، رگرسیون لجستیک، ماشین بردار پشتیبانی.
مقدمه
بسیاری از کارشناسان بر این باور است که جمع آوری و آنالیز اطلاعات افراد و اشخاص قانونی و در دسترس گذاشتن آنها برای شرکت ها و سازمان ها به عنوان امکاناتی برای اعطای تسهیلات، یکی از معیارهای کلیدی جهت ارزیابی عملکرد بانک ها میباشد. از نظر بانک مشتری خوشحساب شخصی است که قسط وام را پیش از موعد مقرر پرداخت میکند. از دیدگاه بسیاری از بانک ها، عدم پرداخت به موقع تسهیلات نشان دهنده ناتوانی مالی مشتری یا عدم تمایل به پرداخت توسط وی میباشد. اضطراب مشروع بانک ها از عدم بازگشت دارایی ها و سود متعلقه و همچنین عواقب و هزینه های آن باعث شده است که تحقیقاتی گسترده در مورد بررسی اعتبار و طبقه بندی مشتریان انجام شود.
داده کاوی یکی از تکنیک های است که برای پیش بینی ریسک اعتباری در بانکداری استفاده می شود. در [1]؛ روش های آماری، روش های آماری غیر پارامتری و تکنیک های هوش م صنوعی جهت سنجش اعتبار م شتریان ت سهیلات اعتباری پی شنهاد شده اند. روش های آماری مانند رگر سیون خطی، مدل های تفکیکی تجزیه و تحلیل خطی [2] و غیر خطی [3,4,5] در مدل اعتبار سنجی م شتریان ت سهیلات اعتباری ا ستفاده شده اند. م شکل ا صلی این روش ها این ا ست که برای داده های ورودی بزرگ و اندازه نمونه کوچک منا سب نیستند، و در بسیاری از این روش ها فرض بر این است که یک رابطه خطی بین متغیرها وجود دارد، در حالی که معمولا این رابطه غیر خطی است.
بنابراین، فرآیند مدل سازی خودکار دشوار است. در [6]، نشان داده شده است مدل های استاتیک معمولا هنگامی که محیط در حال تغییر است، مدل محکوم به شکست است و به همین ترتیب ممکن است دوباره از نو ساخته شود. علاوه بر این، در سال های اخیر مدل های کلاسیک از هوش مصنوعی دراولویت بندی اعطای تسهیلات اعتباری استفاده می شوند، که شامل نزدیکترین همسایه [7] - KNN - ، شبکه ع صبی 9] - NN - ،[8، برنامه نوی سی ژنتیک [10]، مدل های درخت ت صمیم [11] و ما شین بردار پ شتیبانی [12] - SVM - می با شند. با این حال، تحقیقات امیدوار کننده ای در زمینه تکنیک های داده کاوی ترکیبی در سال های اخیر انجام شده است 15]،14،.[13 در این پژوهش ترکیبی از تکنیک های هوش مصنوعی و داده کاوی جهت تایید اعتبار مشتریان استافاده گردید.
این مقاله به بررسی کارایی تکنیک های طبقه بندی مبتنی بر خوشه بندی و انتخاب ویژگی، جهت پیش بینی ریسک اعطای تسهیلات اعتباری به اشخاص میپردازد. بخش های بعدی این مقاله به شرح زیر ا ست. امتیاز بندی اعتبار و مقدمات داده کاوی به همراه برر سی از کارهای پی شین در این حوزه ها در بخش دوم ارایه شده است. روش های طبقه بندی که در این مقاله مورد بررسی قرار گرفته اند در بخش سوم معرفی شده اند. شرح مفصل از روش پیشنهادی، که در این مقاله استفاده شده است در بخش چهارم ارائه شده است. در بخش پنجم نتایج پژوهش و یافته ها، مورد بحث قرار گرفته اند. در بخش آخر، نتیجه گیری نهایی ارایه گردیده است.
بخش دوم پیشینه و کارهای مرتبط
امتیازدهی اعتبار
[16] امتیازدهی اعتبار را به عنوان یک روش که به بانک ها و شرکت های اعتباری دراعطای تسهیلات اعتباری به مشتریان بر اساس معیارهای از پیش تعیین شده کمک می کند تعریف میشود .کاهش هزینه تجزیه و تحلیل اعطای اعتبار، تصمیم گیری سریع جهت اعتبار سنجی م شتریان، ت ضمین اعتبارات و کاهش خطرات بالقوه برخی از مزایای اعتبار سنجی م شتریان ه ستند18]،[19] .[17دو معیار - 1نظارت بسته بر روی حسابها و - 2تعیین اولویت برای مزایای اعتبارات را جهت اعتبار سنجی مشتری پیشنهاد نمود. اکثر تحقیقات در حوزه اعتبار سنجی مشتری بر مبنای این روشها انجام شده اند - 1 رگرسیون لجستیک سنتی، لاجیت7 و مدلهای پروبیت - 2 8 روش های داده کاوی .[20] مدل های اعتبار سنجی می توانند به مدلهای پارامتری مانند تجزیه و تحلیل تفکیکی، رگرسیون خطی، پروبیت و لاجیت و مدل های غیر پارامتری مانند درخت های تصمیم گیری، شبکه های عصبی، و سیستم های خبره [20] تقسیمبندی میشوند.
ریسک اعتبار و دادهکاوی
داده کاوی به طور گسترده ای برای مدیریت ری سک در صنعت بانکداری استفاده می شود. مدیران بانک باید از قابل اطمینان بودن مشتریان خود را قاطمینان یابند. [21] معتقد ا ست، اگر بانک ها اطلاعات کاملی از و ضع یت مالی و خو شح سابی م شتریان خود ندا شته با شند، ارائه کارت های اعتباری به آنها، همچنین افزایش اعتبار تسهیلات و تایید وام ممکن برای مشتریان؛ ممکن است تصمیم گیری مخاطره آمیزی برای بانک ها باشد. با این حال، داده کاوی میتواند از طریق شناسایی آن دسته از مشتریان که ممکن است در بازپرداخت تسهیلات تاخیر داشته باشند ریسک بانکها را کاهش دهد. ارزیابی حساب های سپرده مشتریان روشی معمول برای تصمیم گیری در مورد احتمال دیرکرد در بازپرداخت وامها میباشد؛ تا بانکها از این طریق رفتار مالی مشتریان خود را بررسی نمایند. رتبه بندی اعتباری برای وام دهندگان در تصمیم گیری حائز اهمیت است. وام دهندگان پس از ارزیابی ریسک مناسب، هدفمند و کنترل شده نسبت به دادن وام اقدام مینمایند. رتبه بندی به وام دهندگان کمک میکند تا مشتریان خود را ارزیابی نمایند و در مورد مناسب بودن متقاضی وام تصمیم گیری نمایند.
مروری بر روشهای پیشین
تکنیک های هوش مصنوعی مانند شبکه های عصبی مصنوعی، منطق فازی و الگوریتم ژنتیک با توجه به قابلیت های بالای خود در مدل سازی از مشکلات پیچیده استفاده گسترده ای در زمینه های مختلف پژوهشی دارند. روش جمعی طبقه بندی، الگوریتم شبکه های عصبی، الگوریتم بردار پشتیبانی، و روش طبقه بندی مبتنی بر کلاس، توسط [23] برای طبقه بندی مشتریان بانک استفاده می شود. یافته ها نشان دهنده ی دقت بالای روش های ذکر شده در مقایسه با روش های سنتی طبقه بندی می باشند. با استفاده از مدل های هوش مصنوعی، [24] متقاضیان وام را طبقه بندی نمودند. آنها از الگوریتم ژنتیک جهت انتخاب ویژگی های ورودی استفاده نمودند، پس از آن با استفاده ازالگوریتم SOM مشتریان خوشه بندی شدند، و در نهایت شبکه عصبی برای مدل ساز ی و کشف دانش استفاده گردید.
نتایج استفاده از این روش بر روی داده های اعتباری م شتریان بانک آلمان و ا سترالیا حاکی از دقت بالای این روش در مقای سه با روش لاجیت بود. سی ستم های یادگیری ما شین مبتنی بر الگوریتم ژنتیک به عنوان یک روش ب سیار منا سب برای ک شف دانش و طبقه بندی م شکلات در نظر گرفته میشوند .[25] سیستم های یادگیری ماشین مبتنی بر الگوریتم ژنتیک، سیستمهای مبتنی بر قانونی هستند که قادر به شناسایی دسته مربوط به نمونه های ورودی بر ا ساس ویژگی های آنها می با شد. ترکیب منطق فازی و الگوریتم ژنتیک یکی از روش های رایج در هوش م صنوعی میباشد که به ساخت سیستم های قوی ای تحت عنوان ژنتیک فازی منتج شده است. یک سیستم ژنتیک فازی از الگوریتم ژنتیک برای بهینه سازی پارامترهای پایگاه داده یک سی ستم فازی و غنی سازی قوانین با ساختار - if-then - ا ستفده میکند. در طول سال های اخیر، مقالات