بخشی از مقاله
تشخیص تقلب در بانکداری الکترونیکی با استفاده از داده کاوی
چکیده:
موسسات مالی و پولی به دنبال تسریع در شناخت فعالیتهای کلاهبرداران و متقلبان میباشند . علت این امر اثر مسقیم آن روی خدمترسانی به مشتریان این موسسات، کاهش هزینههای عملیاتی و باقی ماندن به عنوان یک ارائه دهنده خدمات مالی معتبر و قابل اطمینان میباشد. از طرفی در سالهای اخیر با گسترش فناوری اطلاعات و ارتباطات، بانکداری الکترونیک رواج زیادی پیدا کرده است. در این بین به کارگیری تکنیکهای شناسایی تقلب به منظور جلوگیری از اقدامات متقلبانه در سیستمهای بانکداری به خصوص سیستمهای بانکداری الکترونیک، امری اجتنابناپذیر است. در این تحقیق، روش های داده کاوی به منظور تشخیص تقلب در بانکداری الکترونیک بررسی می گردد. بدین منظور از یک روش ترکیبی شامل خوشه بندی به منظور تفکیک مشتریان و رده بندی به منظور ساخت مدلی جهت کشف تقلب استفاده می شود. در مرحله خوشه بندی از روش های K میانگین، کوهنن و روش دو مرحله ای و در مرحله رده بندی از روش های تکی رده بندی شامل درخت تصمیم ،شبکه عصبی و ماشین بردار پشتیبان و همچنین روش های جمعی ردهبندی مانند بگینگ، بوستینگ استفاده خواهد شد. در نهایت، نتایج بدست آمده نشان می دهد در مرحله خوشه بندی روش K میانگین خوشه بندی بهتری را انجام می دهد و مدل بگینگ شبکههای عصبی در پیشبینی ردههای موجود در مجموعه داده نسبت به سایر مدلها دقت بهتری دارد.
واژه های کلیدی: بانکداری الکترونیک، داده کاوی، خوشه بندی، رده بندی، درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان
-1مقدمه
با توجه به رشد تکنولوژی و توسعه فناوری امکان تقلب در حوزههای گوناگونی از جمله بانک، بیمه، تقلبهای اوراق بهادار، تقلبهای کالا و دیگر حوزهها برای سودجویان فراهم شده است .[1] تقلب یکی از دلایل مهم شکست بسیاری از سازمانها محسوب میشود و علاوه بر این به بازارهای سرمایه نیز آسیب میرساند زیرا سرمایهگذاران و تحلیلگران مالی در تصمیمگیریهای خود به صورتهای مالی متکی میباشند و به آنها اعتماد میکنند .[2]تقلب عبارت است از اقدامی هدفمند برای کسب منفعت مالی غیر مجاز که برخلاف قوانین، قواعد یا سیاستهای معمول است. در سالهای اخیر تقلبات مالی در بانکها و موسسات مالی تبدیل به یک مشکل جدی شده است و توجهات و نگرانیهای زیادی را سمت خود جلب کرده است. کشف این تقلبات مالی به منظور جلوگیری از به وقوع پیوستن نتایج مخرب ناشی از آن امری حیاتی میباشد .[3]درتعاریف دیگر از تقلب به عنوان سوءاستفاده از سود یک شرکت یا سازمان بدون در نظر گرفتن عواقب قانونی و حقوقی آن نام برده میشودتقلب. همچنین فرآیندی است که در آن یک یا چند نفر، عمداً و به صورت پنهانی دیگران را از هر چیز با ارزشی، به خاطر منافع شخصی خود محروم میکنند. همراه با پیشرفتهای فناوری اطلاعات، تقلبات و انواع آن نیز در حال گسترش هستند و این قضیه موجب ضرر و زیانهای بسیار زیادی برای موسسات مالی و بانکها شده است. افراد متقلب با توجه به ضعفهای موجود در سیستمهای الکترونیکی مالی– بانکی به این گونه سیستمها ورود پیدا میکنند و اهداف غیر قانونی خود را اجرایی میسازند .[4]تقلب در بانکداری الکترونیک در بستر خدمات الکترونیک وبه صورت برخط اتفاق میافتد و حاصل آن انتقال پول الکترونیکی از یک حساب به حساب دیگر، به صورت نامشروع و غیر قانونی میباشد. امروزه حجم زیادی از معاملات و نقل و انتقالات پولی و مالی در سطح اینترنت و در بستر الکترونیکی انجام میشود و رشد روزافزون این خدمات و تراکنشها از یک طرف و همچنین ناشناس ماندن مجرمان در بستر اینترنت از طرف دیگر باعث تشویق و تحریک متقلبان و شیادان جهت ورود به این حوزه میگردد. در نتیجه اهمیت اجرای این تحقیق از دیدگاه موسسات مالی و پولی بسیار حیاتی میباشد.به طور کلی ضرورت اجرای این تحقیق از چند دیدگاه قابل بررسی میباشد:
- افزایش حجم دادهها در بانکداری الکترونیکی و کارتهای اعتباری: از آنجا که میزان ایجاد دادهها در صنایع بانکداری با گسترش بانکداری الکترونیک روز به روز در حال افزایش میباشد، این زمینه فرآهم میشود تا با شناخت دادهها و تحلیل آنها بتوان به کشف زودهنگام تقلب دست یافت .[5]
- متغیرهای زیاد موجود در این نوع مجموعه دادهها: مجموعه دادههای مربوط به تقلب در بانکداری الکترونیک عموما دارای ترکیبی از متغیرهای گسسته و پیوسته متعددی میباشند. این دادهها حاوی اطلاعات مربوط به کاربران موجود در شبکههای رایانهای موسسات مالی میباشند. این ترکیب متغیرهای گسسته و پیوسته ضرورت استفاده از روشهای دادهکاوی و یادگیری ماشین را در این حوزه افزایش داده است .[6
و افزایش روند تقلبات بانکداری الکترونیک: با توجه به رشد روزافزون خدمات مالی بانکها و موسسات مالی و اعتباری گوناگون به صورت الکترونیکی در سطح کشور و همچنین افزایش ظریف نفوذ استفاده کاربران از خدمات بانکداری الکترونیک، رویکرد کلاهبرداران متقلبان به سمت بانکداری الکترونیک نیز رو به افزایش است. به عنوان نمونه در کشور انگلستان، در بین سالهای 2005 تا 2006 تقلب در بانکداری الکترونیک %44 افزایش یافته است .[7] بدین ترتیب در صورت عدم به کارگیری سازو کارهای تشخیص و جلوگیری از تقلب در بانکداری الکترونیک، باید شاهد افزایش آمار تقبلها در فضای بانکداری الکترونیک باشیم.نیاز به کشف هر چه زودتر تقلبات: ارزش کشف تقلب تابعی از زمان میباشد. به این ترتیب که تقلبات هرچه زودتر کشف شوند، جلوگیری از آن راحتتر خواهد بود. از این رو نیاز به یافتن تکنیکهایی میباشد که هرچه سریعتر توانایی کشف تقلب را در حوزههای مختلف از جمله کارت اعتباری داشته باشند.در این تحقیق قصد بر این است تا با استفاده از روشهای بی نظارت مانند خوشهبندی، متغیرهای جدیدی تولید نمود که بتوانند دقت روشهای ردهبندی را در مجموعه دادهها افزایش دهند. بدین منظور ابتدا دادهها خوشهبندی میشوند و سپس در یک مدل ترکیبی به صورت زیر، روشهای ردهبندی بر روی آنها اعمال میگردند. برای تعیین رفتار مشتریان بر روی داده ها، دو مرحله عملیات صورت میگیرد که عبارتند از:
مرحله اول: خوشه بندی داده ها بر اساس ویژگی های موجود مشتریان
در این مرحله باید از ویژگیهای هر یک از مشتریان آن دسته از ویژگیها که بر امر دسته بندی تاثیر گذارند استخراج شود، انجام این کار باید به نحوی صورت گیرد که بتوان قوانین و نتایج قابل قبولی را از آن استخراج کرد. سپس بر اساس ویژگیهای تعیین شده، خوشه های موجود در میان مشتریان تعیین میگردد. این مرحله باید به گونه ای صورت گیرد که رفتار مشتریان را حداقل به دو دسته عادی و غیر عادی تقسیم کند.
مرحله دوم: بررسی، تعیین و تفکیک رفتار مشتریان
حال بر اساس خوشههای تعیین شده و ویژگیهای مرحله اول کلیه مشتریان دستهبندی می شوند.این تحقیق با بحثی در مورد تعریف بانکداری الکترونیک و داده کاوی شروع شده و پس از آن روش اجرای مدل بررسی شده توضیح داده می شود و به دنبال آن ارائه تنظیمات تجربی و نتایج ارائه خواهد شد.
-2بانکداری الکترونیک
بانکداری الکترونیک به کلیه خدمات بانکی و پولی گفته میشود که در بستر الکترونیک و به صورت کاملاً متمرکز و حضوری و/یا غیر حضوری به مشتریان ارائه میشوند. به عبارت دیگر بانکداری الکترونیکی سامانههای یکپارچه است که کلیه محصولات و خدمات بانکی و عملیات راهبری و مدیریت آنها را از طریق تجهیزات الکترونیکی به پایگاه داده متمرکز در قالب یک سیستم ارائه میکند. [8]
1-2 انواع تقلب در بستر بانکداری الکترونیک
رویکردهای تشخیص حمله بر اساس مدل حملات به طور گسترده به دو دسته تقسیم میشوند:
· تشخیص سوءاستفاده:1
تشخیص سوء استفاده به این ترتیب است که مجموعهای از قواعدی که باعث نفوذ شدهاند در پایگاهی نگهداری میشوند و تمامی تراکنشها و دادههای موجود با این مجموعه قواعد امتحان میشوند. هر تراکنش یا دادهای که از این قواعد تبعیت کند به عنوان فعالیت متقلبانه شناخته میشود. آنتی ویروسهای موجود در رایانهها نیز با استفاده از این روش عمل میکنند به این ترتیب که پایگاه دادهای از نوع فعالیتهای خرابکارانه دارند و فعالیتهای درون رایانه را مرتب با این فعالیتها مقایسه میکنند و در صورت تطابق، آن را به عنوان فعالیت خرابکارانه تشخیص میدهند. در حقیقت این کار نوعی شناسایی فعالیتهای قبلی و درک آنها به منظور پیشبینی و شناسایی فعالیتهای آتی میباشد. این روشها معمولا دقت زیادی دارند ولی از یک ضعف عمده رنج میبرند. ضعف عمده آنها این است که این نوع روشها نمیتواند فعالیتهای خرابکارانه و متقلبانه جدید را پیشبینی نمایند زیرا قواعد مربوط به آنها را در اختیار ندارند. .[8]
· تشخیص ناهنجاری:1
در این روش بر خلاف روش قبل قواعد نفوذ مشخص نیستند بدین ترتیب فعالیتهایی که بر اساس دادههای موجود انحراف زیادی از فعالیتهای معمول دارند به عنوان فعالیتهای خرابکارانه و متقبانه شناخته میشوند. در حقیقت این روش بسیار مناسب حالتی است که الگوهای تقلب مشخص نباشند و بدین ترتیب میتوان الگوهای جدید تقلب را نیز بر اساس دادهها پیدا کرد. در این روش قواعد خاصی به منظور متقلبانه بودن دادهها و یا تراکنشها وجود ندارد بدین ترتیب در این روش فقط انحراف هر داده از میزان نرمال محاسبه شده و اگر این انحراف زیاد بود آن داده یا تراکنش به عنوان تقلب محسوب میگردد. مشکل اصلی این روش این است که ممکن است گاهی اوقات تراکنشها یا فعالیتها معمول مشتریان را نیز به عنوان تقلب محسوب کند. به عنوان نمونه ممکن است در پایگاه داده بانکی فعالیتهایی نظیر؛ حجم زیادی از حسابهای متعدد که توسط یک مشتری یکسان دسترسی پیدا کردهاند، تراکنشهایی که حاوی مبالغ کوچک و از حسابهای متعدد و زیاد میباشد، تراکنشهای پرداخت بیش از حد معمول در یک حساب خاص، افزایش دفعات ثبت رمز ورود با شکست، قبل از وقوع تقلب به عنوان فعالیتهای متقلبانه محسوب شوند. بدین ترتیب اینگونه رفتارهای مشتریها میتوانند به عنوان رفتارهای مشکوک در نظر گرفته شوند و به محض مشاهده مجدد،تقلب منظورگردند .[8]
-3دادهکاوی
داده کاوی امروزه به یکی از چالش برانگیزترین علوم دنیا تبدیل شده است چرا که دانشمندان و محققان به این مسئله پی بردهاند که با استفاده از تکنیکهای دادهکاوی میتوان به دانش پنهان موجود در دادهها پی برد. امروزه نیز با گسترش حجم روزافزون دادهها در صنایع، سازمانها و مراکز دولتی و خصوصی نیاز به استخراج دانش و استفاده از داده کاوی بیشتر حس میشود. دادهکاوی در هر سازمانی که با دادههای زیاد مواجه است کاربرد دارد .[9]به طور کلی هدف داده کاوی توصیف و پیشگویی است. پیشگویی فرآیند کشف مقادیر مجهول یا مربوط به آینده برخی از مشخصه ها با استفاده از سایر مشخصه های موجود در داده است در حالیکه هدف از توصیف، یافتن الگوهایی است که برای انسان قابل تفسیر باشد. انواع روشهای دادهکاوی را میتوان به ترتیب زیر دستهبندی نمود :[10, 11 , 12]
• روشهای منتج به اهداف مربوط به پیش بینی عبارتند: طبقه بندی2 یا ردهبندی، پیشبینی3 ، رگرسیون، سری های زمانی
· روشهای منتج به اهداف مربوط به توصیف عبارتند : خوشه بندی1، خلاصه سازی2، مدل سازی وابستگیها3 (مانند مدلهای تصویری یا تخمین چگالی)
· روشهایی که هم جنبه پیش بینی و هم جنبه توصیفی عبارتند: اکتشاف قواعد وابستگی4 ، اکتشاف الگوی ترتیبی .5
از طرفی دیگر عملیات یا وظایف مختلف دادهکاوی به طور کلی به دو دسته زیر تقسیم بندی میشوند:
(1 الگوریتمهای یادگیری با نظارت (2 الگوریتمهای یادگیری بدون نظارت
در الگوریتمهای یادگیری با نظارت هدف دادهکاوی معلوم است و مشخص است که به دنبال چه نوع دانشی باید گشت و در واقع به دنبال پیشبینی پارامترهای مشخص و از پیش تعیین شده باید بود. در روشهای یادگیری بدون نظارت هدف مورد بررسی به صورت آشکارا تعریف نشده است و باید به دنبال درک توصیفی از روابط و شباهتهای دادهها بود.
-4پیشینه تحقیق
در برخی از تحقیقات نیز از روشهای بدون نظارت به منظور کشف تقلبات استفاده شده است. به عنوان نمونه در سال 2006 زاسلاویسکی6 [13] از نگاشتهای خودسازمانده7 به منظور ساخت مدلی جهت کشف رفتار کاربران کارت اعتباری و تحلیل انحراف تراکنشهای آنها و همچنین به منظور یافتن تراکنشهای مشکوک به تقلب استفاده کرده است. در این تحقیق از نگاشتها کوهنن دو بعدی برای ساخت مدل استفاده شده است و رفتار دارندگان کارت اعتباری به سه خوشه تقسیم بندی شدهاند. این خوشهها عبارتند از (1 تراکنشهای ATM استاندارد، (2 تراکنشهای POS استاندارد و (3 تراکنشهای غیرعادی.
کوا8 و همکاران در سال [14] 2008تحقیقی را به منظور کشف کلاهبرداری هم زمان در کارتهای اعتباری انجام داده است. در این تحقیق با استفاده از الگوریتم نگاشتهای خودسازمانده، الگوهای رفتاری مشتریان مشکوک به تقلب توسط روش خوشهبندی استخراج شده است. نویسندگان ذکر کردهاند که با استفاده از خوشهبندی میتوان الگوهای پنهان جدیدی را در دادههای ورودی کشف کرد که در روشهای آماری سنتی قابل شناسایی نمیباشند.
باتاچاریا 9در سال [15] 2010 تحقیقی بر روی تقلبات کارت اعتباری انجام داده است. آنها در این مقاله از دو تکنیک پیشرفته دادهکاوی یعنی ماشینهای بردار پشتیبان10 و جنگلهای تصادفی به همراه مدل رگرسیون لجستیک به منظور کشف تقلبات استفاده کردهاند. در میان مدلهای به کار گرفته شده مدل جنگلهای تصادفی به عنوان بهترین مدل انتخاب شده است.
در سال 2011 تحقیقی به منظور کشف تقلبات در وجه اشتراک در ارتباطات از راه دور توسط فرورش[16] 1صورت گرفته است. این مقاله شامل پیشپردازش دادهها، خوشهبندی و ردهبندی میباشد. به طوری که در فاز خوشهبندی دو الگوریتم نگاشتهای خودسازمانده و K میانگین باهم ادغام شدهاند و در مرحله ردهبندی از مدلهای درخت تصمیم (C4.5)، شبکههای عصبی، ماشینهای بردار پشتیبان به عنوان ردهبندهای انفرادی و از روشهای بگینک2، بوستینگ3 ، استکینگ4 و رای اکثریت به عنوان روشهای ردهبندی گروهی استفاده شده است. علاوه بر استفاده از خوشهبندی به منظور شناسایی نقاط دورافتاده از نتایج خوشهبندی در مرحله ردهبندی نیز استفاده شده است.با مطالعه در تحقیقات صورت گرفته می توان دریافت که تا کنون در خصوص کارایی روشهای مختلف رده بندی با داده های نامتوازن تحقیقات جامعی انجام نشده است. این تحقیق سعی دارد عملکرد روش های خوشه بندی و رده بندی را با مجموعه داده های نامتوازن را بررسی نماید.
-5روش اجرای مدل
پس از آمادهسازی دادهها باید بر روی آنها مدلسازی انجام داد. در تحقیق حاضر هدف استفاده از مدلهای دادهکاوی یعنی خوشهبندی و ردهبندی به منظور پیشبینی رفتارهای متقلبانه از غیر متقلبانه میباشد. در زیر مراحل و وظایف مرحله مدلسازی تشریح شده است.تهیه مدل اولیه: در این مرحله باید مدلهای اولیهای به منظور ارزیابی نتایج تهیه گردند. بدین ترتیب الگوریتمهای مختلف با استفاده از پارامترهای پیشفرض الگوریتمها، طراحی و بر روی دادهها اعمال شده و سپس صحت و دقت آنها بررسی میگردد. بدین ترتیب مدلهایی که دقت و صحت بیشتری را نسبت به سایر مدلها دارند به منظور بررسی بیشتر و به عنوان مدلهای منتخب برای مدلسازی نهایی استفاده میشوند. در این تحقیق ابتدادر مرحله خوشهبندی از روشهای خوشهبندی K میانگین، دو مرحلهای و کوهنن به منظور خوشهبندی مشتریان کارتهای اعتباری استفاده شده است و سپس اعضای موجود در هر خوشه وارد روشهای مختلف ردهبندی شدهاند تا بدین ترتیب دقت روشهای ردهبندی را بهبود دهد. در این شرایط یک مدل دو مرحلهای اجرا خواهد شد که از دو روش خوشهبندی و ردهبندی در طی هم استفاده مینماید. در مرحله ردهبندی از روشهای مختلف معمولی و تکی ردهبندی مانند ماشینهای بردار پشتیبان5، درخت تصمیم6 و