بخشی از مقاله
چکیده
صنعت بانکداری از ارکان اصلی اقتصاد به حساب میآید و مشتریان نقش کلیدی در آن دارند . بنابراین توجه ویژه به نیازها و خواستههای مشتریان از جمله موضوعات پر اهمیت محسوب میشود.
نقش و اهمیت مشتری در شرکتها و بانکها به سبب تأثیر مستقیمی که بر رشد و بقای بانک در بازار رقابت میگذارد و نیز کسب منافعی که برای ایشان دارد، سبب گردیده تا امروزه لزوم کسب رضایت مشتری درک و پذیرفته شود. هدف ما در این پژوهش استفاده از روشهای داده کاوی، برای شناسایی مشتریان و همچنین سود آوریها و مدیریت ریسک در امر بانکداری است. در این مقاله با استفاده از الگوریتم درخت تصمیم مانند J48 و دیگر الگوریتمها، مانند Naïve Bayes و AdaBoost، میزان رضایت مشتریان را نشان خواهیم داد.
-1مقدمه
بازاریابی بانکی فرآیندی است که بانک ها و مؤسسات مالی و اعتباری برای ارائه خدمات مورد نیاز مردم و اینکه آنها چه خدمت و یا خدماتی را باید تولید و یا عرضه نمایند ، طی می کنند و این یک فرآیند کوتاه مدت نیست بلکه یک فرآیند سرمایه گذاری در بلند مدت است چرا که به کارگیری شیوه صحیح بازاریابی قبل از تولید و یا عرضه خدمات به بازار می تواند تا مدت ها پس از فروش خدمت نیز ادامه داشته باشد. در واقع هدف بازاریابی بانکی تنها فروش خدمت یا خدمات نیست بلکه ایجاد روابط طولانی مدت سود آور به صورت متقابل با مشتری است و بالطبع ارزش کسب و کار نیز هرگز فراتر از ارزش مشتریان مادام العمر نخواهد بود.
بازاریابی مستقیم فرآیند شناسایی خریداران بالقوه برخی از محصولات و تبلیغ محصولات بر این اساس است. در اینجا دو روش تبلیغات یعنی بازاریابی انبوه و بازاریابی مستقیم وجود دارد. هدف بازاریابی انبوه به این صورت است که بازاریابی مردم با استفاده از رسانه ها از جمله روزنامه ها، رادیو و تلویزیون انجام می شود. این نتایج باعث هزینه اضافه و سرعت پاسخ کم مشتریان برای خرید محصول بوده است
در بازار رقابتی امروز بازاریابی انبوه روش قابل اعتماد و کارآمدی نیست. از این رو، بازاریان در حال تغییر تمرکز خود را از بازاریابی انبوه سنتی به بازاریابی مستقیم را دارند. بازاریابی مستقیم به مطالعه ویژگی های مشتریان می پردازد مشتریان خاص را به عنوان هدف خود برای ارتقاء انتخاب می کند. برای مقابله با افزایش هزینه ها و کاهش میزان پاسخ به مشتریان، بازاریابی مستقیم با استفاده از مدل سازی و پیش بینی داده های مشتریان - اطلاعات خرید جمعیت شناختی و تاریخی - به منظور انتخاب مشتریانی که احتمال دارند استفاده می شود
بخش های بعدی مقاله به قسمتهای زیر تقسیم می شود. بخش 2 مهمترین الگوریتم های داده کاوی یعنی الگوریتم های درخت تصمیم و الگوریتم بیز شرح داده می شود در بخش 3 مجموعه داده Bank Marketing به اختصار توضیح داده خواهد شد. در بخش 4 روشهای دسته بندی تجمیعی و در بخش 5 نتایج و ارزیابی را خواهیم داشت. در نهایت در بخش 6 نتیجه گیری کلی از این پژوهش آمده است.
-2الگوریتم های درخت تصمیم و بیز ساده
در این روش هدف مسئله در قالب یک درخت نمایش داده میشود که در آن درخت با استفاده از اصلاِفراز بندی بازگشتی ساخته شده است. در این روش ویژگیهایی هستند که به عنوان یک ویژگی جهتاِفراز بندی هستند و یا به عنوان یک گره بر اساس معیارهای اطلاعات مفید هستند و پس از آن این روند ادامه پیدا میکند و بارها و بارها برای هر گره فرزند انجام میشود تا زمانی که همه ویژگیها در نظر گرفته شوند و یک درخت تصمیمگیری ساخته شود. برخی از تکنیک های هرس ممکن بیشتر در نظر گرفته شود به طوری که اندازه درخت کاهش مییابد و در نتیجه از اندازه بیش از حد اجتناب میشود - McGraw . - Hill , 1997 در این بخش به مهمترین الگوریتم های درخت تصمیم پرداخته میشود.
1-2 درخت تصمیم J48
دستهبندی درخت تصمیم بر اساس معیار انتخاب ویژگی در گرههای تصمیم، به دو دسته CART3 و C4.5 تقسیم میشود. CART الگوریتم دستهبندی و رگرسیون است. درخت تصمیم J48 درخت بهبود یافته C4.5 که درخت هرس شده یا هرس نشده C4.5 را ایجاد میکند.
2-2 درخت تصمیم RandomTree
الگوریتم درخت تصمیمگیری به صورت تصادفی اقدام به ساختن درختهای تصمیمگیری متعدد به طور تصادفی میکند. در زمان ساخت هر درخت، الگوریتم یکی از ویژگیهای باقیمانده را به طور تصادفی انتخاب میکند که در هر گسترش بایستی گره بدون هیچگونه خالصی بررسی شود.
3-2 درخت تصمیم RandomForest
یک مجموعه از درختان رگرسیون و طبقهبندی هرس نشده است و شامل نمونههای خود راهانداز از دادههای آموزشی بوده که با استفاده از انتخاب ویژگی تصادفی در فرآیند استنتاج درخت است. پیشبینی با جمعآوری پیشبینیهای از مجموع رأی اکثریت یا Voting برای طبقهبندی ساخته شده است. بازده آن نرخ خطای تعمیم و نویز قوی تر را ایجاد خواهد کرد. بهر حال شبیه بسیاری از طبقه بندهای دیگر است RF همچنین میتواند باعث عدم یادگیری درست از مجموعه دادههای آموزشی و بسیار نامتوازن شود. از آنجای که برای به حداقل رساندن میزان خطا کلی ساخته شده است تمایل آن بیشتر بر تمرکز پیشبینی دقت کلاسهای اکثریت میباشد که اغلب شامل نتایج دقت پایین برای تعدادی از کلاسها میباشد.
4-2 درخت تصمیم NBTree
در واقع الگوریتم NBTree یا Naive Bayes Tree یک رویکرد یادگیری ترکیبی از درخت تصمیمگیری و NBC میباشدNBTree مجموعه داده را با استفاده از الگوریتم آنتروپی و بر اساس استاندارد NBC در گره برگ برای دسترسی به ویژگیها تجزیه میکند همچنین از درخت تصمیمگیری و NBC میتوان به طور همزمان استفاده کرد - . - Kohavi,2007 این کاملاً معقول است که انتظار داشته باشیم NBTree نسبت به NBC بهتر عمل کند اما در عوض ممکن است سرعت کاهش پیدا کند.
5-2 بیز ساده
شبکه های بیز یکی از مدل های گرافیکی است که به طور گسترده استفاده می شود و برای نشان دادن و کنترل اطلاعات نامشخص - Jensen, Kaufmman, Los Altos, 1988 - کاربرد دارد. شبکه های بیز از دو جزء اصلی و مشخص تشکیل شده است : یکی از اجزای گرافیکی متشکل از یک گراف جهت بدون دور - DAG - است که در آن راس نشان دهنده رخدادها و لبه ها روابط بین آنها می باشد.یکی مولفه های عددی که شامل یک تعریف کمی از لینک های مختلف در DAG بوده و توسط یک توزیع احتمال شرطی هر گره در محتوای والدین آن است.
شبکه بیز ساده بسیار ساده بوده که از DAGs تنها با یک گره ریشه - به نام والدین - و چند فرزند تشکیل شده است و نماینده گره های مشاهده نشده است و مربوط به گره های مشاهده شده با فرض قوی مستقل در میان محتوای گره های فرزند والدین است. طبقه بندی با در نظر گرفتن گره والد به عنوان یک متغیر پنهان بیان می کند که کلاس هر شی در مجموعه تست باید متعلق به کدام باشد و گره فرزند نشان دهنده ویژگی های مختلف این شیء است. از این رو در صورت وجود یک مجموعه آموزشی ما فقط باید احتمالات شرطی از ساختار منحصر به فرد را محاسبه کنیم. هنگامی که شبکه اندازه گیری شده است