بخشی از مقاله
چکیده
طی سالهای اخیر پیش بینی ریزش مشتری به یکی از مسائل مهم حوزهی کسب و کار تبدیل شده است. با توجه به اینکه برنامه ریزی برای حفظ تمام مشتریان پرهزینه است، لذا فقط مشتریان بالقوه برای ریزش مورد بررسی و پیشبینی قرار میگیرند تا واحد حفظ مشتری، استراتژی مناسبی برای نگهداری آنها ارائه دهد. با استفاده از تکنیکهای داده کاوی کارهای گستردهای در حوزه پیش بینی ریزش مشتری انجام شده است. تکنیکهای طبقه بندی پرکاربردترین تکنیکها در این حوزه هستند. عمدهی روشهای قبلی فقط از اطالعات شخصی مشتریان برای پیش بینی ریزش استفاده میکردند. درحالیکه ریزش یک مشتری از عوامل اجتماعی زیادی تأثیر میگیرد.
از سال 2008 رویکرد جدیدی جهت بهبود مدلهای پیش بینی ریزش معرفی شد، این رویکرد از این واقعیت ناشی میشود که ریزش یک تصمیم فردی نیست و عوامل و روابط اجتماعی زیادی در آن نقش دارند؛ بنابراین برای توسعهی مدلهای پیش بینی ریزش، باید تحلیل شبکه اجتماعی را نیز در آنها لحاظ کنیم. در این مقاله سعی برآن شده است که تحقیقات انجام شده در زمینهی پیش بینی ریزش مشتری با استفاده از تحلیل شبکه اجتماعی را بر اساس متدلوژی و مزایا مقایسه کرده و درنهایت با توجه به نتایج به دست آمده از مرور و مقایسه ی این روشها، یک مدل جدیدی پیشنهاد شده است.
کلمات کلیدی:پیش بینی ریزش مشتری، تحلیل شبکه اجتماعی، تکنیکهای داده کاوی
-1 مقدمه
پیش بینی ریزش مشتری یکی از دغدغههای مهم سازمانهایی مانند شرکتهای مخابراتی ارائه دهنده تلفن همراه است؛ زیرا هزینهی جذب مشتری جدید 5 تا 6 برابر بیشتر از حفظ آن است .>1@ در اینگونه شرکتها مشتریان به دلایل مختلفی مانند نارضایتی از کیفیت، تغییر محل جغرافیایی، قیمت سرویسها و حتی استفاده اطرافیان از سرویسهای شرکت دیگری، سازمان را ترک میکنند >2@، که اصطلاحاً به آن ریزش1 گفته میشود. همهی شرکتهای مخابراتی با نرخ ریزش ماهانهای مواجه هستند. هدف از پیش بینی ریزش این است که مشتریان بالقوه برای ریزش را پیدا کرده تا بتوان استراتژی حفظ مناسبی برای آنها تعیین کرد .>3@
روشهای داده کاوی در زمینه پیش بینی ریزش بسیار استفاده شده، فرآیند انجام این کار در شکل 1 آورده شده است. هر کدام از مراحل این فرایند با چالشهایی روبرو هستند. ابتدا دادهها جمع آوری شده و در صورت نیاز پیشپردازش میشوند. در اکثر مقالات، در این مرحله اطلاعات اجتماعی مشتریان نادیده گرفته میشود. سپس با توجه به اینکه دادهی ریزش همیشه نامتوازن است، یعنی تعداد کسانیکه ریزش کردهاند خیلی کمتر از افرادیست که ریزش نکردهاند، در این مرحله کارهای متفاوتی برای حل مشکل عدم توازن دادهها و نیز انتخاب ویژگی مناسب، انجام میشود. مقایسهی کاملی بین این روشها، درمقالهی >4@ ارائه شده است.
با توجه به اینکه برای طبقه بندی نیاز به یک مجموعه دادهی آموزش برچسب2 دار است، بنابراین دادهها برچسب میخورند'5@.>6 در صورتیکه برچسب ریزش یا عدم ریزش مشتری مشخص نباشد نیاز است که برچسب تعریف شود. برای این کار باید یک معنی واحد برای ریزش را در نظر بگیریم. برای مثال ممکن است بگوییم مشتریانی که در 30 روز گذشته هیچ تماسی دریافت نکردهاند و نیز تماسی نگرفتهاند، به عنوان ریزش شده شناسایی شوند .>5@سپس مدل با استفاد از تکنیکهای داده کاوی مختلفی ساخته میشود در این مرحله باید تکنیک طبقه بندی مناسبی را استفاده کنیم.
تکنیکهای زیادی در مقالات متعددی برای این کار استفاده شده است برای مثال در مقالهی >7@ از رگرسیون لجستیک برای ساخت مدل پیش بینی ریزش بانک و در >1@ از رگرسیون خطی برای مدل پیش بینی ریزش شرکت مخابراتی بیسیم استفاده شده است. در مقالهی >8@ از SVM بهره گرفته شده و در مقالهی >9@ از رگرسیون Cox و لجیستیک و همچنین درخت تصمیم برای یک بانک استفاده شده است. درمقالهی >10@ که با استفاده از CRISP-DM مدلی برای پیش بینی ریزش مشتری ارائه شده، جهت ساخت مدل از درخت تصمیم استفاده شده است. در مجموع مقالات متعددی در مرحله ساخت مدل، از این تکنیکها و تکنیکهای دیگری مانند جنگل تصادفی، K میانگین و غیره را استفاده کردهاند.
پس از ساخت مدل، مرحله ارزیابی فرا میرسد. برای ارزیابی مدلهای پیش بینی ریزش در تحقیقات انجام شده به معیارهای متفاوتی اشاره شده است؛ اما در اغلب موارد Accuracy، منحنی ROC یا معیار LIFT استفاده میشود .>6@ AUC3 معیار مناسبی برای دادههای نامتوازن از جمله ریزش استLIFT .>11@ روی مشتریان با ریسک بالاتر تمرکز میکند .>12@ توصیه میشود از معیارRecall و Precision که برای کلاسهای نامتوازن مناسبترند، نیز استفاده شود .>12@مقالاتی برای مقایسه و مرور کارهای انجام شده در حوزه پیش بینی مشتری وجود دارد. برای مثال در مقالهی >13@ مقایسهای بین تکنیکهای یادگیری ماشین استفاده شده در حوزهی پیش بینی ریزش مخابرات، ارائه شده است و مقالهی >12@ مروری کامل روی مسئلهی ریزش و انواع تکنیکهای داده کاوی به کار گرفته شده در حوزههای بانک، مخابرات، خرده فروشی و غیره دارد.
در مجموع اکثر تحقیقات انجام شده، این فرایند را فقط با استفاده از اطلاعات شخصی افراد مانند پروفایل، اطلاعات صورتحساب و سرویسها که به آنها ویژگیهای شخصی یا غیر شبکهای میگوییم، انجام دادهاند. در حالیکه اطلاعات اجتماعی مشتری برای این گونه مدلها مفید هستند. بحث استفاده از تحلیل شبکه اجتماعی از سال 2008 به همین منظور مطرح شد. در اینجا منظور از شبکه اجتماعی یک مشتری، ارتباطات ضبط شدهی آن مشتری در مجموعه داده است، روابط از روی CDR4 یا همان رکوردهای جزییات تماس کشف میشود. زمانیکه از اطلاعات شبکه اجتماعی افراد نیز استفاده میگردد اغلب طبقه بند رابطهای و فرایند پخش در مرحلهی ساخت مدل به کار گرفته میشود.
در قسمت 2 این مقاله اصطلاحات و مفاهیم به کار گرفته شده در حوزه پیش بینی ریزش با استفاده از تحلیل شبکه اجتماعی را معرفی میکنیم و در بخش 3 مرور و مقایسهای بر کارهای انجام شدهی مرتبط با این موضوع از سال 2008 تا 2016 داریم، روشهای مختلف از نظر متدولوژی، تکنیک داده کاوی مورد استفاده، مزایا و معیار ارزیابی تفکیک شدهاند. در بخش 4 با استفاده از نتایج حاصل شده از مرور و مقایسهی مقالات این حوزه، یک مدل عمومی برای پیش بینی ریزش مشتری مبتنی بر تحلیل شبکه اجتماعی پیشنهاد میدهیم و نهایتاً در بخش 5 نتیجه گیری انجام میشود.
-2 مفاهیم اصلی
CRM5 به فرایند مدیریت ارتباط با مشتری اشاره دارد. این فرآیند شامل چهار فاز شناسایی، جذب، حفظ و توسعه مشتری است .>14@ یکی از مسائل مهم در فاز حفظ مشتری، مدیریت ریزش مشتری میباشد که در مدیریت ریزش مشتری یک گام مهم پیش بینی ریزش مشتری یا همان CCP6 است. برای انجام این پیش بینی ممکن است از SNA7 یا همان تحلیل شبکه اجتماعی استفاده شود. در این جا اگر داده مربوط به شرکت مخابراتی باشد، منظور از شبکه اجتماعی، تماسها و افراد مرتبط در شبکه مخابراتی هستند یا اگر این اصطلاح در مورد دادهی بازی به کار میرود، منظور سایر بازیکنانی است که با این بازیکن همبازی هستند یا در نبردها یار هم بودهاند. استفاده از تحلیل شبکه اجتماعی امروزه برای پیش بینی ریزش مشتری مفید است .>2@
به رکوردهای تماس یا ارتباط مشتریان باهم، CDR گفته میشود و شامل زمان، تاریخ، مبدأ و مقصد تماس و طول تماسهاست >2@ و گرافی که از CDR حاصل میشود گراف تماس8 نام دارد. در این گراف هر مشتری با یک گره و ارتباط بین دو مشتری با کشیدن یال بین آن دو نمایش داده میشود .>15@یک مسئله مهم پس از به دست آمدن گراف تماس، وزن دادن به یالهاست؛ زیرا این باعث میشود که افرادی که روی هم اثر بیشتری دارند را شناسایی کنیم. اکثراً وزن یالها با قدرت رابطه محاسبه میشود .>15 '5@ برای اندازه گیری قدرت روابط در تحقیقات انجام شده کارهای مختلفی صورت گرفته است. برای مثال ممکن است وزن یال، مجموع کل زمان تماس بین دو فرد در نظر گرفته شود .>11@
به ویژگیهای شخصی مشتریان مانند پروفایل مشتری و سرویس مورد استفاده ویژگیهای محلی یا غیر شبکهای گفته میشود؛ و ویژگیهایی مانند تاریخ تماس یا زمان تماس با افراد ریزش یافته که از اطلاعات ارتباطی افراد استخراج میشود اصطلاحاً ویژگی شبکهای نامیده میشوند. طبقه بندهای غیر رابطهای مانند رگرسیون میتوانند از ویژگیهای شبکهای و غیر شبکهای استفاده کنند .>16@یادگیری رابطهای شامل طبقه بند رابطهای و روش استنتاج جمعی است >17@، که در مقالات مرتبط با این حوزه زیاد استفاده شده است. طبقه بند رابطهای مستقیماً از یک گراف یا شبکه میتواند یاد بگیرد درحالیکه طبقه بند غیر رابطهای به ویژگی و یا صفت نیازمند است .>16@ هدف از یادگیری رابطهای بهکارگیری اطلاعات داخل شبکه و استفاده از آنها در یک طبقه بند رابطهای است. بعضی از طبقه بندهای رابطهای CDRN، NLB و WVRN هستند .>16@
روش استنتاج جمعی یا CI روشهایی هستند که برای استنباط برچسب کلاس گره، با در نظر گرفتن برچسب سایر گرهها، استفاده میشود. بعضی از این روشها GS، IC،RL و SPA CI هستند .>17@ در مقالهی >17@ با 7 دیتاست متفاوت، ارزیابی مفیدی روی انواع یادگیری رابطهای که در واقع انواع طبقه بند رابطهای با حالات مختلف استفاده از روش استنتاج جمعی است، انجامشده است.WOM9 اصطلاحی است که در این حوزه برای نشان دادن اثر شنیدههایی که بهصورت ویروسی از یک فرد به افراد دیگر سرایت میشود و در ریزش مشتری مؤثر است، استفاده میگردد .>18@ ازاینرو در این حوزه استفاده از مدل پخش نفوذ رایج است. مدل پخش نفوذ10 برای پخش اثر ریزش کنندهها در کل گراف تماس استفاده میشود .>2@ چندین مدل فرایند پخش مثل LT و IC برای تحلیل شبکه ارائهشده است SPA11 .>11@ نیز یکی از مدلهای فرآیند پخش برای یافتن شبکه معنایی است .>19@
-3 روشهای مؤثر پیشبینی ریزش مشتری مبتنی بر تحلیل شبکه اجتماعی
از سال 2008 تاکنون مطالعاتی روی تأثیر روابط اجتماعی بر پیشبینی ریزش مشتری انجام شده که بهاختصار در جدول 1 آمده است. در این جدول میتوانید روش انجام کار هر مقاله را به همراه مزایا و معیار ارزیابی آن مشاهده کنید. در مورد سایر تفاوت ها نیز دراین بخش صحبت خواهد شد.اغلب مقالات اطلاعات تماس به گراف تماس تبدیل میشود و از آن استفاده میگردد. ما از CDR یک شرکت مخابراتی که در وبسایت12 خود قرار داده بود استفاده کردیم و با استفاده از زبان R گراف تماس آن را رسم کردیم. شکل 1 نمایی کلی از گراف تماس این شرکت است که نودها شماره تماس مشترکین و یالها مربوط به تماس است. 707 عدد نود وجود دارد و تعداد رکوردهای تماس حدود 13000 عدد بوده است. بعد از مشخص شدن برچسب مشتری، نودها با دورنگ متفاوت برای مشخص شدن ریزش شدهها یا نشدنها نشان داده میشوند.
برای وزن دهی به یالها اغلب معیار قدرت رابطه استفاده میشود که محاسبه این معیار یکی از مسائل مهم در این حوزه است. قدرت رابطه میتواند برابر با تعداد یا طول تماسها باشد .>18@ در مقالهی >16@ قدرت رابطه از روی مجموع زمان تماس بین دو نفر حساب میشود. در >2@ علاوه بر تعداد تماس، از ویژگیهای دیگر مربوط به تماس استفادهشده و روشهایی برای محاسبه آن ارائهشده است. در >20@ قدرت رابطه با ویژگیهایی مانند تعداد تماس، طول تماس، درصد تماس در شب و درصد تعاملات هفتگی محاسبه میشود. در >15@ تعداد دقیقههای تماس بین دو مشتری قدرت رابطه را مشخص میکند و در >21@ تعداد کل نبردهای مشترک بازیکنان در بازی، میزان قوی بودن رابطهشان را تعیین میکند.
اغلب از روی گراف تماس یا CDR، ویژگیهای شبکهای مختلف استخراج میشود .>16@ در مقالهی >18@ میانگین نرخ ریزش کل اطرافیان و میانگین نرخ ریزش پنج نفر نزدیکتر - طبق قدرت رابطه - برای ویژگی ارتباطی در نظر گرفته شد. در >11@ انرژی نهایی هر گره بعد از فرآیند پخش بهعنوان ویژگی شبکهای استفادهشده و در >5@ ویژگیهای شبکهای مانند تعداد اطرافیان ریزش شده و نشده و میزان تماس با آنها از روی اطلاعات تماس شامل تاریخ، زمان، مبدأ و مقصد تماس بهدستآمده است.در مورد ویژگیهای محلی در بعضی از مقالات، تفاوتهایی وجود دارد. برای مثال مقالهی >5@ ویژگیهایی مانند اطلاعات حساب مشتری، Usage و Reload را بهعنوان ویژگی محلی در نظر گرفته است، در>6@ از Plan Data، Reload Amounts، Handset Attribute، تعداد و زمان تماس و پیامک استفاده شده است.
در >16@ عنوان شده که تعداد تماس مشتری وقتیکه ورودی و خروجی تماس در نظر گرفته نشود میتواند یک متغیر محلی باشد؛ اما تعداد تماس مشتری به دوستانی خارج از شبکهاش یک متغیر شبکهای محسوب میشود.در مقالات >20- 22 '15 '11@ از مدل پخش نفوذ بهره برده شده و پرکاربردترین مدل SPA بوده است. برای مدلهای محلی نیز بیشترین تکنیک طبقهبندی استفاده شده رگرسیون لجستیک و پس از آن درخت تصمیم است.بیشترین معیار استفاده شده برای ارزیابی LIFT و بعد از آن AUC میباشد. قابلذکر است که در بعضی از مقالات علاوه بر این دو، از معیارهای دیگری استفاده شده است. برای مثال مقالهی>5@ معیار EMP یا [16] از MPC که هر دو مربوط به حداکثر معیار سود است، استفاده کرده است .در مورد دو معیار مذکور توضیح کاملی در مقالهی >23@ میتوانید بخوانید. معیار سود درواقع برای ما مشخص میکند که مدل پیشبینی ریزش مشتری ساخته شده چقدر ارزش دارد .>17@
گرچه تمام مقالات موردمطالعه، بر روی استفاده از اثر اجتماعی در مسئلهی ریزش تمرکز میکنند؛ اما علاوه بر اینکه روشکار آنها متفاوت بوده ،کارهای جدیدی نیز در بعضی مقالات انجام شده است. در مقالهی >5@ از تحلیل بقا برای پیشبینی ریزش مشتری استفاده شده است تا علاوه بر پیشبینی دودویی که ریزش یا عدم ریزش مشتری را پیشبینی میکند، زمان ریزش را نیز بتوان به دست آورد. در >22@ به این نتیجه میرسیم که افق پیشبینی در عملکرد مدل پیشبینی ریزش تأثیر بسزایی دارد و در جهت تعیین اثر معیار رابطه، از 4 نوع معیار تماس، تعداد اطرافیان مشترک، معیار اجتماعی و کسینوس زاویهی بین بردار تماس استفاده شده و هر یک از این معیارها که منجر به شبکهای با ساختار متفاوت میگردد، باهم مقایسه شدهاند.
در >11@ بعد از تشخیص Community های شبکه، از این فرض است فاده شده است که ارت باط بین افراد دا خل یک Community، بیشتر و مؤثرتر از ارتباط آنها با افراد بیرون از آن Community است. برای همین، روابط بین Community حذف شد. این کار منجر به بهبود قابلتوجه سرعت در فرآیند پخش شد که این موضوع برای مجموعه دادههای بزرگ اهمیت بیشتری دارد. در >2@ علاوه بر ریزش یا عدم ریزش مشتری، بر روی پیشبینی احتمال ریزش نیز کارشده است. در >24@ فقط ارتباطات قوی حفظ میشود و شبکه به خوشههای کوچک مجزا تقسیم میگردد. نکته قابلتوجه دیگر این است که در >18@ اثر اجتماعی روی مدلهای پیشبینی ریزش و خرید - دانلود بازی - مقایسه شده و آزمایشها نشان دادهاند که اثر اجتماعی روی حساسیت مدل پیشبینی ریزش - حدود 11 درصد - بیشتر از مدل پیشبینی خرید است.