بخشی از مقاله

مقدمه

طبق برآورد محتاطانه ای که در موسسه انجمن ملی ضد تقلب مراقبت های بهداشت 1 - NHCAA - صورت پذیرفته، مجموع پرونده های متقلبانه را میان 3 تا 10 درصد اعلام نموده است که این درصد در شاخه های مختلف بیمه ای متفاوت بوده ودر بیمه های اتومبیل تا 15 درصد نیز برآورد شده طبق اعلام این شرکت در سال 2007 مبلغ خسارت پرداختی در آمریکا 2240 میلیارد دلار بوده که برآورد می شود 67 تا 224 میلیارد دلار آن بابت تقلب پرداخت شده و از 2600 میلیارد دلار خسارت پرداختی در سال 78 2008 تا 260 میلیارد آن صرف تقلب شده است . بررسی تحقیقات نشان می دهد که روشهای داده کاوی برای کشف تقلبات بیمه ای ماثر می باشند

در قدم اول برای جلوگیری و کاهش این تقلبات باید افراد متقلب و انگیزه آنها و چگونگی انجام تقلبات را شناسایی کرد .ما در این مقاله به کمک روش های داده کاوی به بررسی رفتار مشتریان متقلب در گذشته پرداخته و با توجه به این که افراد متقلب دارای انگیزه ها و روشهای مختلفی برای انجام تقلب می باشند ابتدا آنهارا خوشه بندی و سپس به بررسی هر خوشه پرداخته ایم.

باید توجه داشت که همانطور که روشهای کشف تقلب پیشرفت می کنند متقلبین نیز همراستای این پیشرفت ها حرکت کرده و از روشهای جدید تری جهت تقلب استفاده می کنند و رفتار و روند فعالیت متقلبانه آنها دائما در حال تغییر می باشد و چون پایه کشف تقلبات شناسایی افراد متقلب و رفتار و روش آنها می باشد علاوه بر تحقیق در زمینه کشف روشهای دقیق تر برای شناسایی تقلب باید هراز چندی رفتار و انگیزه های متقلبان را مجددا بررسی کرد که گاهی این بررسی منجر به دسته بندی هایی متفاوت با گذشته می شود.

با توجه به اینکه در سالهای اخیر تحقیقات اندکی در زمینه شناخت رفتار و انگیزه متقلبان بیمه انجام شده - بویژه در ایران که شناخت کارشناسان به صورت سنتی می باشد - ضروری است تا تحقیقات و دسته بندی به روزی در این زمینه انجام گیرد تا روشهای کشف نیز بر اساس دسته بندی جدید به روز رسانی و کالیبره شوند . عدم خوشه بندی و شناسایی بموقع متقلبین سبب می شود که داده های اولیه و پیش فرضهای استفاده شده در روشهای کشف تقلب با واقعیت فاصله گرفته و دقت و توان این روشها کاهش یابد. اما با بررسی مستمر تقلبات و شناسایی و خوشه بندی آنها می توان داده های اولیه برای کشف تقلبات آتی را بهینه کرد و دقت روشهای کشف را افزایش داد

عدم شناسایی متقلبین و نادیده گرفتن آن سبب افزایش هزینه های شرکتهای بیمه و در هم ریختگی ریسک محاسبه شده می شود که در نتیجه آن شرکتها برای عدم ورشکستگی مجبور به افزایش حق بیمه می شوند - کاری که شرکتهای بیمه در ایران در پرتفوی اتومبیل انجام می دهند - که در محیط رقابتی سبب نا رضایتی مشتریان و به دنبال آن حذف شرکت از گردان رقابت می شود .بررسی تحقیقات نشان می دهد که روشهای داده کاوی برای کشف تقلبات بیمه ای ماثر می باشند .

پیشینه

الواریسی و اکیلندسواری ده روش خوشه بندی را مورد بررسی قرار دادند و عوامل تاثیر گذار و موارد کاربرد و محدودیت هر یک را مورد برسی قرار دادند - الواریسی و اکیلندسواری ، - 2014 .لوکمن استیک و بالاسابرامانیا به تشریح جزئیات تقلبات مالی بیمه در دو دسته تقلیات نرم و سخت پرداخته اند و خوشه بندی را تقسیم اشیاء - داده ها - به گروه های معنا داری می دانند که در ابتدا شناختی از آنها نداشته ایم ، و بیان می کنند که روشهای داده کاوی در زمینه بیمه روز به روز در حال رشد می باشد 

سوزان براکسوا وپاستوراکو به بررسی عوامل مؤثر در پذیرش تقلبات بیمه ای در مصرف کنند گان با توجه به فاکتور های جمعیت شنا سی پرداختند و واسارهلی و تیپرونگسری به تشخیص تقلبات حسابداری به کمک روش خوشه بندی k- meansپرداخته اند

بلد حاجی و دیون تحقیقاتی را در این زمینه با استفاده از داده های خسارت بیمه ی اتومبیل کشور کانادا در یک دوره ی یک ساله از 1994تا 1995 انجام داده اند. به طرح مباحثی پیرامون هزینه تحقیق و بررسی در مقایسه با میزان خسارت پرداختند. مورلی و همکارن در سال 2006 اینطور پدیده ی تقلب را بررسی کردند

در زمینه کشف تقلبات بیمه ای در ایران تحقیقات اندکی انجام گرفته و دسته بندی خاصی برای متقلبان صورت نگرفته . متاسفانه در ایران به خوشه بندی متقلبین توجه کمی شده و کار تحقیقی در این زمینه یافت نشد . در این تحقیق ما قصد داریم به کمک روشهای خوشه بندی با استفاده از داده کاوی به خوشه بندی متقلبین بیمه شخص ثالث اتومبیل در بیمه ایران پرداخته و با تغییر پارامتر های موجود به خوشه هایی با تفکیک بالا دست یابیم به گونه ای که اعضای هر خوشه از نظر رفتار و نحوه تقلب تا حد ممکن با هم متفاوت بوده و در ادامه به تجزیه و تحلیل هر خوشه می پردازیم.

روش تحقیق

در ابتدا به درک داده ها و متغیر ها پرداخته ایم ، مجموعه داده های مورد استفاده شامل 115 مورد پرونده مالی مربوط به بیمه شخص ثالث در بیمه ایران بوده است . متغیر های بررسی شده با توجه به نظر خبرگان تقلبات بیمه و متغیر های تاثیر گذار در سایر مقالات پیشین تعببن شده است در جدول زیر به معرفی این متغیر ها می پردازیم.

جدول 1 معرفی متغییر ها

همان طور که در جدول بالا نشان داده شده است 28 متغیر مورد بررسی قرار گرفته است پنج متغیر تاریخ حادثه ، تاریخ اعلام خسارت ، تاریخ شروع و پایان بیمه نامه و ساعت حادثه به دلیل اینکه در نرم افزار قابل حل نیستند حذف شده و با کمک روشهای خلق ویژگی به متغیر های تفاضل اعلام خسارت از حادثه، تفاضل تاریخ انقضاء از حادثه، تفاضل تاریخ انقضاء از اعلام خسارت، تفاضل تاریخ شروع از حادثه، تفاضل تاریخ شروع از اعلام خسارت، بازه زمانی تبدیل شده اند و متغیر تفاضل سن مقصر از زیان دیده نیز به عنوان متغیر خلق شده به سیستم اضافه شده و علت آن این است مشخص شود که اختلاف سن مقصر و زیان دیده سبب دسته بندی بهترمتقلبین می گردد یا خیر. سپس با کمک روشهای آماری به تحلیل و درک بهتر داده ها پرداخته ایم که نتایج زیر حاصل شده است.

جدول 2 تحلیل آماری متغییر های گسسته متقلبان بیمه شخص ثالث

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید