بخشی از مقاله

چکیده

تحلیل سبد خرید مشتري، به عنوان یکی از تحلیلهاي مهم براي شرکتها، به آنها در ترویج بهتر محصول و توسعه سیستمهاي توصیهگر کمک میکند. روش مرسوم تحلیل سبد خرید، قواعد انجمنی و مبتنی بر الگوریتم اپریوري میباشد، اما بهبود روش و الگوریتم از حیطههاي پژوهشی بوده است. در این پژوهش روش جدیدي براي تحلیل سبد خرید مشتري مبتنی بر رویکرد کشف اجتماعات شبکه و تحلیل شبکههاي پیچیده ارائه میشود. بدین منظور، ابتدا از 320616 رکورد تراکنش یک فروشگاه خردهفروشی اینترنتی، شبکه ارتباطی بر مبناي خرید محصول استخراج گردیده و در نهایت، تاثیرات و نتایج آن در حوزه تحلیل سبد خرید کشف و بررسی میگردد. مقایسه این روش با قواعد کشف انجمنی بر داده مذکور، نشان داد در حالیکه اجراي الگوریتم اپریوري قواعد مناسبی را نتیجه نداد، روش پیشنهادي به اطلاعات قابل اطمینانتري در زمینه رفتار خرید مشتریان دست یافت.

کلمات کلیدي: تحلیل سبد خرید؛ قوانین انجمنی؛ شبکه محصولات؛ کشف اجتماعات

.1 مقدمه

تصمیمگیري و درك رفتار مشتري به یک مسئله چالش برانگیز و حیاتی براي حفظ موقعیت سازمانها در بازارهاي رقابتی تبدیل گشته است. در مقابل، پیشرفت و نوآوريهاي فناوري نیز باعث موفقیتهایی براي پاسخ سریع به این مسئله شده است .[1] با رشد رقابت هم در عرصه کسب وکار سنتی و هم کسب وکار اینترنتی، راضی نگه داشتن مشتریان، افزایش فروش بالقوه و حفظ وفاداري مشتریان به طور راهبردي به یک مسئله مهم براي موفقیت کسب وکار تبدیل گشته است .[2] رشد سریع کسب وکارهاي اینترنتی، هم شرکتها و هم مشتریان را با موقعیت جدیدي روبرو ساخته است، بهطوریکه دوام شرکتها در حوزه کسبوکار اینترنتی مانند خردهفروشیهاي اینترنتی به دلیل رقابت زیاد در این زمینه بسیار سختتر گشته است.

به عبارت دیگر مشتریان با انبوهی از کالاها مواجه شدهاند که انتخاب را براي آنها مشکل ساخته و باعث شده است تا خرید کم و ضعیفی را در مدت زمان مشخصی انجام دهند. در نتیجه، نیاز به استراتژيهاي بازاریابی جدید مانند بازاریابی نفر به نفر، شخصیسازي وب و مدیریت روابط با مشتري - CRM - هم از طرف محققان و هم از طرف مدیران اجرایی بیشتر شده است .[3] در سالهاي اخیر مطالعات متعددي در این زمینه صورت گرفته است. براي نمونه، مجموعه مطالعات دادههاي تراکنشی خردهفروشی که به عنوان تحلیل سبد خرید شناخته شده است، تحقیقی براي یافتن ارتباطات معنیدار بین خریدهاي مشتریان میباشد؛ به این معنی که مشتریان چه کالاهایی را با یکدیگر خریداري میکنند و یا چه کالایی را علاوه بر کالاي خریداري شده، میخرند؟ درنتیجه بر حسب این تحلیلها میتوان کالاهاي بیشتري را علاوه بر کالاي مورد نظر مشتري به او پیشنهاد داد که این امر میتواند باعث افزایش بازده موجودي و رضایت مشتري شود .[4-6]

در حقیقت، تحلیل سبد خرید فرایند یافتن محصولاتی را که با یکدیگر خریداري شدهاند، خودکار میسازد. یکی از مرسومترین روشها براي تحلیل سبد خرید مشتریان، روش کشف قوانین انجمنی در دادهکاوي میباشد. در این روش، توسط استخراج الگوهاي تکراري خرید یعنی کشف مجموعه اقلامی که به طور تکرار شونده در یک سبد خرید قرار گرفتهاند به شناسایی وابستگیها و پیوستگیهاي میان اقلام مختلف کالاها پرداخته میشود . ابتدا الگوهاي تکراري خرید محصولات توسط روشها و تکنیکهاي مختلف قوانین انجمنی کشف و سپس براساس دو سنجه پشتیبان و اطمینان، جذابیت این الگوها از نظر وابستگی و همبستگی به یکدیگر سنجیده میشود. به طوریکه قوانین بدست آمده در صورتی که حداقل آستانه مقدار پشتیبان و اطمینان را برآورده سازند، قوانین جذاب محسوب میشوند.

با وجود مزایایی که کشف این قوانین میتواند در تحلیل سبد کالا داشته باشد و با وجود پژوهشهاي بسیاري که در زمینه بهبود تکنیکها و الگوریتمهاي این روش صورت گرفته است، هنوز نتوانسته است به طور کامل پاسخگوي برخی محدودیتها باشد. اولین محدودیت براي کشف قوانین انجمنی فقدان یک روش مشخص براي یافتن آستانه مناسب براي حداقل مقدار پشتیبان و اطمینان میباشد. به طوریکه اگر این مقادیر بسیار بالا در نظر گرفته شوند، منجر به حذف شدن برخی از قوانین انجمنی جذاب شده و در مقابل انتخاب حد آستانه کم باعث تولید انبوهی از قوانین میشود؛ قوانینی که اکثرا داراي افزونگی و تکراري بودن هستند و یا حتی نشاندهنده قوانین بسیار بدیهی و روشن میباشند .[6]

تکنیکهاي متفاوتی براي حل این مشکل و حذف قوانین غیر جذاب توسعه یافتهاست. یکی از این تکنیکها شامل یافتن مجموعه اقلام بسته و بیشینه میباشند [4]، همانطور که در مطالعه صورت گرفته در [7] نشان داده شده است، نویسنده ادعا میکند پیداکردن مجموعه اقلام بسته و بیشینه میتواند تعداد قوانین کشف شده در یک تراکنش را تا 3000 عامل کاهش دهد. البته این قوانین روي پایگاهدادههاي یادگیري ماشین بیشتر از پایگاه دادههاي سبد خرید انجام شده است. بنابراین می توان نتیجه گرفت که استفاده از کاوش مجموعه اقلام بسته و بیشینه براي تحلیل سبد خرید به طور عملی داراي محدودیت میباشد .[6]

رویکرد دوم براي کشف قوانین غیرجذاب استفاده از سنجهها یا معیارهاي متعدد جذابیت روي قوانین میباشد که در پژوهش [8] بسیاري از این معیارها بیان شدهاند. این سنجهها میتوانند در رتبه بندي قوانین با توجه به اهمیت آنها یا به عنوان معیاري براي هرس کردن استفاده شوند. در حالیکه بیشتر آنها انحراف از استقلال را نشان میدهند .[6] برخی از این سنجهها در مطالعات [10-12] ذکر شدهاند و نشان داده شده است که هر کدام از آنها تمایل دارند که به طور متفاوتی قوانین کشف شده را رتبهبندي کنند و گاهی اختلاف رتبهبندي آنها بسیار زیاد میباشد.بنابراین، با توجه به محدودیتهاي ذکر شده، می توان ضرورت نیاز به ابراز و روشهاي دیگر براي تحلیل بهتر و کسب دانش بیشتر از سبد خرید مشتري را احساس کرد.

به همین دلیل، در این مطالعه سعی داریم از رویکرد جدیدي در مقایسه با رویکرد مرسوم کشف قوانین در زمینه تحلیل سبد خرید کمک بگیریم. این رویکرد سازنده با در نظر گرفتن دادههاي تراکنشی به صورت شبکهاي از محصولات، به دنبال کشف اجتماعاتی از محصولات مرتبط و وابسته میباشد که به طور خاص در یک سبد خرید قرار میگیرند. کشف اجتماعات در شبکه یکی از بیشترین موضوعات مطالعه شده در تحلیل شبکههاي اجتماعی و شبکههاي پیچیده میباشد و توجهات بسیاري از محققان را در زمینههاي مختلف جامعهشناسی، زیستشناسی، علوم کامپیوتر، فیزیک، جرمشناسی و غیره به خود جلب کرده است. هدف کشف اجتماعات، پیدا کردن خوشهها، گروهها یا زیرگرافهایی در شبکه مورد نظر میباشد.

یک اجتماع، در واقع خوشهاي است که گرههاي درون آن خوشه توسط تعداد زیادي یال به یکدیگر متصل میشوند و در مقابل یالهاي کمتري گرههاي خوشههاي مختلف را به یکدیگر متصل میگردانند .[11]در سالهاي گذشته تلاشهاي بسیاري در ادبیات براي توسعه روشها و الگوریتمهایی که به طور کارآمد بتوانند ساختارهاي پنهان شبکه را پیدا کنند، یافت شده است. از آنجایی که نمایش شبکهها میتواند خیلی پیچیده باشد و شامل انواع مختلفی در مدلهاي گراف مرسوم میباشد، هر الگوریتم در ادبیات روي بعضی از این ویژگیها به صورت آشکار یا نهان تمرکز دارد .[12] به طور کلی برخی از کاربردهاي شناسایی گروه شامل درك ساختار شبکه، یافتن گروههایی با ویژگیهاي خاص، قابل دیدارسازي گراف و بهبود موتور جستجو میباشد .[13]

در حقیقت، توسط این روش میتوان به ساختارهاي پنهانی که در شبکههاي مختلف وجود دارد آگاهی پیدا کرده تا با کشف الگوهاي موجود در آنها بتوان تحلیلهاي کاربردي متناسب با هدف مسئله انجام داد.در ادامه این مقاله در بخش دوم، ابتدا مروري بر مطالعات و روشهاي استفاده شده براي تحلیل سبد خرید مشتري میپردازیم و سپس در مورد رویکرد اکتشاف اجتماع و شبکههاي نهان محصول صحبت خواهیم کرد. در فصل سوم، شرح مفصل تري بر روش پژوهش مورد استفاده خواهیم داشت . در فصل چهارم یافتههاي حاصل از پژوهش را تحلیل خواهیم نمود و در نهایت در فصل پنجم، در مورد یافتهها و نتایج بدست آمده و پیشنهادات براي تحقیقات آتی بحث خواهیم نمود.

.2 پیشنه پژوهش

.2,1 قواعد انجمنی - AR -

یک روش محبوب و شناخته شده براي تحلیل داده سبد خرید، کشف و تفسیر قوانین انجمنی یا وابستگی است. یک قانون انجمنی، بیانکننده فرمA  B میباشد بهطوریکهA نقش مقدم و B نقش تالی را در این قانون دارا میباشد . مقدم و تالی به این معنا میباشد که هر دو نمیتوانند در یک زمان رخ دهند. قوانین استخراج شده توسط این روش اطلاعات کلی درباره قوانین پنهان دادهها به ما میدهد. معیارهاي بسیاري براي بررسی کیفیت و جذابیت این قوانین وجود دارد اما اغلب موارد کیفیت آنها اغلب توسط پشتیبان، اطمینان و معیار بالابري آنها ارزیابی میشود .[14] پشتیبان، به صورت نسبت تراکنشهایی از پایگاه داده که با هم در یک سبد خرید قرار میگیرند به کل تراکنشهاي پایگاه داده تعریف میشود.

به عبارت دیگر پشتیبان، معیاري براي بیان چگونگی تکرار یک قانون میباشد. از طرفی اطمینان به عنوان نسبت تعداد رخداد وابستگی خرید محصولات به تعداد حالاتی که شامل مقدم میباشند تلقی میشود. معیار بالابري، قدرت همبستگی را نشان میدهد که بیان کننده احتمال شرطی B به شرط وقوع A نسبت به احتمال غیر شرطی B میباشد و به صورت رابطه - 1 - نشان داده میشود.الگوریتمها و ابزار محبوبی براي کشف قوانین انجمنی مؤثر شناخته شدهاند .[4, 15, 16] باتوجه به گسترده شدن استفاده آنها، محققان دریافتند که درك قوانین کشف شده موضوع کماهمیتی نیست چراکه قوانین انجمنی حاصل از یک تحلیل سبد خرید میتوانند براي یک فروشگاه براي مدیریت فضاي قفسهها ایجاد شود.[17]

.2,2 روشهاي کشف قوانین انجمنی - - ARM

این رویکرد وقوع همزمان اقلام را یافته و وابستگی بین آنها را در پایگاه داده تراکنشی مشخص میسازد. روشهاي موجود در ادبیات بر دو نوع میباشد: الگوریتمهاي مبتنی بر جستجوي جامع و الگوریتمهاي مبتنی بر جستجوي تکاملی. اگر اقلام تکراري شناخته شده باشند، فرایند کشف قانون مبتنی بر جستجوي جامع راحتتر هستند. بنابراین، در فاز کشف اقلام تکراري روشهاي ARM نقش حیاتی را در فرایند کشف قانون بازي میکند که توسط روشهاي گوناگونی در ادبیات پیشنهاد شدهاند و در واقع همه آنها تغییریافته دو الگوریتم پرکاربرد هستند: اپریوري که توسط آگراوال و اسریکانت - 1994 - معرفی شد و الگوریتم رشد- FP که توسط هان و همکارانش - 2000 - معرفی گردید که هر دوي این الگوریتمها براي کشف اقلام تکراري به کار میروند.

الگوریتم اپریوري براي کشف اقلام تکراري، رویکرد نسل کاندیداي سطح عاقلانه محسوب میشود که مبتنی بر ویژگی اپریوري میباشد. این ویژگی بیان میدارد که اگر اقلامی تکراري نباشد، در نتیجه هیچ مجموعهاي از آن اقلام تکراري نیست. این ویژگی فضاي جستجو را کاهش میدهد، اما بررسیهاي بیشتري از پایگاه داده به منظور محاسبه تکرار اقلام بایستی صورت گیرد که این باعث افزایش زمان اجرا و سرباري حافظه میشود. براي غلبه بر بررسی چندگانه پایگاه داده، هان و همکارانش الگوریتم رشد-FP را پیشنهاد کردند. در این رویکرد، ابتدا پایگاه داده به سه ساختار درختی تبدیل میگردد که درخت-FP نام دارند، که نماینده فشردهاي از پایگاه داده اصلی میباشد.سپس الگوریتم پایگاه داده اصلی را به چند پایگاه داده شرطی کوچکتر تقسیم میکند. براي اقلام داده و الحاقات آن به طور جداگانه از پایگاه داده شرطی استخراج شدهاند .[4]

الگوریتم اپریوري، یکی از تکنیکهاي شایع استفاده شده براي یافتن قوانین انجمنی میباشند. مهمترین هدف الگوریتم اپریوري تعیین مجموعه اشیاه مکرري است که تعداد تکرار آنها حداقل برابر حداقل پشتیبان باشد .مزیت مهم این الگوریتم در مقابل دیگر الگوریتمهاي تولید مجموعه اشیاي مکرر، سادگی پیادهسازي آن است. الگوریتم در دو فاز عمل میکند؛ در فاز اول، همه اقلام تکراري با حداقل پشتیبان تولید میشوند. این فاز از ویژگی آپریوري استفاده میکند . به عبارت دیگر، اگر مجموعه اقلامی با اندازه k یک مجموعه اقلام تکراري است، سپس همه مجموعه اقلام با اندازه k-1 بایستی مجموعه اقلام تکراري باشند. با استفاده از این ویژگی، اقلام کاندیدا با اندازه k از مجموعه اقلام تکراري با اندازه k-1 به وسیله اعمال این محدودیت که همه زیرمجموعهها با اندازه k-1 در هر مجموعه اقلام کاندیدا، بایستی در مجموعه اقلام تکراري با اندازه k-1 وجود داشته باشد را انتخاب میکند. در فاز دوم این الگوریتم، قوانین نهایی از همه مجموعه اقلام تکراري تولید میشود تا براي تحلیل مورد استفاده قرار گیرد .[15, 18]

.2,3 کشف اجتماعات در شبکه

در سالهاي اخیر، کشف اجتماع در شبکههاي پیچیده توجهات زیادي را به خود جلب کرده است. در ادبیات مرتبط با این موضوع مانند مطالعاتی که در [19-21] آمده است، روشها و الگوریتمهاي مختلف در زمینه کشف گروه با یکدیگر بررسی و مقایسه شدهاند.در حقیقت، کشف اجتماعات، فرایند یافتن اجتماعات قوي در یک شبکه میباشد که معادل کار خوشهبندي در دادهکاوي میباشد. با این تفاوت که در خوشهبندي ارتباطیبین اشیاء وجود ندارد. مسئله معمولا بدین گونه تعریف میشود : گراف داده شده G، به یکسري از زیرگرافها تقسیمبندي میشود: G={G1,G2,…,Gn} که در واقع تابع هدف F - G - را تعریف میکند. تعداد n اجتماع به طور کلی از قبل شناخته شده نیست، اما این تعداد به وسیله الگوریتمهاي کشف اجتماع تعیین میگردد. بسیاري از الگوریتمهاي کشف اجتماع مانند آنچه در مقالات [8, 11, 22, 23] تلاش میکنند تا مقدار یک کیفیت شناخته شده به نام ماژولاریتی را بهینه سازند.

.2,4 روشهاي کشف اجتماعات در شبکه

به طور کلی الگوریتمهاي کشف اجتماعات به صورت زیر تعریف میگردند : الگوریتمهاي تقسیمکننده که ارتباطات بین اجتماعات را یافته و آنها راحذف میکنند .[24, 25] الگوریتمهاي جمعکننده که گروهها یا اجتماعات مشابه را به صورت بازگشتی با یکدیگر ادغام میکنند [26] و روشهاي بهینهسازي که مبتنی بر بیشینهسازي تابع هدف میباشند .[19, 27] کیفیت اجتماعاتی که از این روشها بدست میآیند، اغلب به وسیله معیار ماژولاریتی سنجیده میشود. در حقیقت استفاده از بیشینهسازي ماژولاریتی یکی از عملیات مهم در تحلیل شبکه میباشد .[28] بیشینهسازي ماژولاریتی جزء مسائل NP-hard محسوب میشود و بنابراین براي حل آن بیشتر از الگوریتمهاي ابتکاري استفاده میگردد.

ماژولاریتی یک اجتماع، یک ارزش اسکالر بین -1 تا 1 میباشد که چگالی ارتباطات داخل اجتماعات را در مقایسه با ارتباطات بین اجتماعات اندازهگیري میکند .[11, 24] ماژولاریتی با ارزش مثبت نشاندهنده حضور احتمالی ساختار اجتماع در شبکه میباشد، بنابراین براي جستجوي ساختار شبکهها به دنبال شبکههایی با تقسیمبندي با ارزش مثبت و ترجیحا بزرگ میباشیم .[27] ماژولاریتی در حالت شبکههاي وزندار - شبکههاي وزندار ، شبکههایی هستند که وزنهایی بر روي یالهاي آنها وجود دارد مانند تعداد ارتباطات بین دو کاربر تلفن همراه - که به صورت رابطه - 2 - تعریف میگردد :[29]

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید