بخشی از مقاله

چکیده

رشد سریع شبکههای اجتماعی مقدار بیسابقهای از دادههای ایجاد شده توسط کاربران را به وجود آورده است که فرصتی عالی را برای متنکاوی فراهم آورده است. شبکههای اجتماعی نظیر توییتر1 تبدیل به یک سرویس محبوب میکروبلاگینگ شده است که در آن کاربران پیامهای وضعیت یا نظرات را ایجاد میکنند. کاربران از این نظرات به عنوان یک وسیله برای بروزآوری انچه که در ذهنشان است استفاده میکنند. در این مقاله روشی برای شناسایی مشتریان هدف بر اساس تحلیل نظرات آن ها از طریق کاوش عقاید و رضایتمندی آن ها در مورد محصولات مختلف ارائه شده است. در این روش با استفاده از الگوریتم ژنتیک، تشخیص نهایی برای دستهبندی مشتریان هدف صورت گرفته است. روش پیشنهادی با دادههای استاندارد مربوط به نظرات کاربران شبکه اجتماعی توییتر مورد ارزیابی قرارگرفته است. نتایج حاصل از طبقهبندی کننده بر روی ویژگیهای استخراجی توسط الگوریتم ارائهشده، با نتایج حاصل از طبقهبندی با استفاده از تمامی ویژگیها مورد مقایسه قرار گرفته است. نتایج ارائه شده، نشاندهنده کیفیت بالای روش پیشنهادی در مقایسه با مطالعات پیشین میباشد.

کلمات کلیدی:شبکه اجتماعی، شناسایی مشتری، تحلیل احساسات، الگوریتم ژنتیک، دسته بندی مشتریان

-1 مقدمه

این مقاله بر شناسایی طبقهبندها با یک عملکرد قابل قبول تمرکز دارد که میتوانند برای طبقهبندی مشتریان بر اساس احساسات ابراز شده به عنوان خنثی، قطبی - مثبت یا منفی - ، غیر مرتبط استفاده شوند. اگرچه، تعدادی تحقیق وجود دارد که به طبقهبندی مشتریان بر اساس تحلیل نظرات مبتنی بر احساسات ناشی از جنبههای مختلف پرداختهاند، اما دقت 80 درصد یا بیشتر هرگز به دست نیامده است. تحلیل احساسات در شبکههای اجتماعی در مقایسه با سایر تحقیقات که به تحلیل احساسات بهواسطهی ماشین یادگیری میپردازند الگویی متفاوت است. این به دلیل محدودیتهایی است که در شناسایی احساسات ابراز شده در نظرات وجود دارد. با توجه به محدودیت کاراکتری در برخی از شبکههای اجتماعی نظیر توییتر، مردم اغلب از اشکال و اختصارات کوتاه شده استفاده میکنند که میتواند تفاسیر متفاوتی در زمینههای مختلف داشته باشد. علاوه براین استفاده عامیانه و جملاتی با دستور زبانی نامفهوم، نیاز به پیشپردازش را به صورت نمایی افزایش میدهد.

با توجه به این محدودیتها در پردازش زبان، این مسئله در افزایش دقت نتایج، یک محدودیت است. ابهام عامل دیگری است که دقت را کاهش میدهد. [1] در این مطالعه، مسئلهی تحلیل احساسات و طبقهبندی نظرات درشبکههای اجتماعی را در راستای طبقه بندی و شناسایی مشتریان هدف از طریق جداسازی مشتریان دارای رضایتمندی از مشتریان ناراضی تحلیل شده است. طبقهبندی احساسات در پیامهای ساخت یافته و دقیق متفاوت است به همین علت پیشپردازش پیامهای توییتر خام - توییت - را به طور دقیق تحلیل شده است. دلیل داشتن نمونههای چندگانه این است که اگر یک نتیجه براساس یک نمونه واحد بدست آید، نتیجه ممکن است گمراهکننده باشد. لذا از یک روش انتخاب ویژگی بر اساس جستجوی تصادفی با تابع هدف مبتنی بر همبستگی ویژگیها و سپس طبقهبندی کننده KNN استفاده گردید.

-2 چارچوب کلی روش پیشنهادی

تحلیل نظرات شبکههای اجتماعی برای یک محدودهی وسیعی از برنامههای دنیای واقعی سودمند خواهد بود و کاربران میتوانند نوع بازخورد را برای یک محصول یا خدمات خاص به منظور تصمیمگیری آگاهانه در مورد خرید خود شناسایی کنند. برنامههای نظرسنجی و سازمانها به طور خاص از این تحقیقات سود میبرند.[ 2] عملکردهای سیستمهای استنتاجی موجود با محاسبه درجه صحت ودرستی نتایج پیشبینیشده در مقابل نتایج تشخیصی که بهعنوان مقدار پیشبینی شده مثبت ارائهشده، مورد ارزیابی قرارگرفتهاند. دراین تحقیق پس از پیشپردازش و پاک کردن دادههای شبکه اجتماعی، یک روش اصلاحشده با استفاده از ترکیب الگوریتم ژنتیک برای انتخاب ویژگی و طبقهبندی کنندههای مختلف برای کسب تشخیص نهایی در مورد دستهبندی مشتریان هدف مورد استفاده قرارگرفته است.[3]

برای افزایش دقت سیستم استنتاج، روشهایی برای کاهش تعداد فاکتورهای ورودی با رویکرد عدم کاهش دقت تشخیص، مدنظر قرار گرفتند. کاهش بُعد میتواند با دو رویکرد به دست آید: استخراج ویژگی و انتخاب ویژگی. استخراج ویژگی بیانگر تبدیل خطی یا غیرخطی از فضای اصلی ویژگی به یک فضای جدید با ابعاد کمتر میباشد. از سوی دیگر، انتخاب ویژگی، زیرمجموعهای از ویژگی را بهواسطه انتخاب ویژگیهای مهم از نمونههای اصلی بدون هیچگونه تغییری، تولید میکند. انتخاب زیرمجموعه بهینه میباشد که این بهینگی بر مبنای یک معیار در نظر گرفتهشده برای ارزیابی قدرت افتراقی2 زیرمجموعه انتخابشده میباشد. [4] بهصورت کلی، یک زیرمجموعه ویژگی خوب میبایست دارای خصوصیات زیر باشد.

اولاً، ویژگیهای انتخابشده بهخوبی میتواند ارائهدهنده الگوهای ورودی باشد بهطوریکه ویژگیهای نامربوط انتخابنشده، تنها فضای جستجو را بزرگتر میکنند. دوماً، ویژگیهای انتخابشده دربرگیرنده همه اطلاعات استفادهشده برای تمایز گذاری الگوها باشد. چنین زیرمجموعه ویژگیای میتواند به عملکرد رضایتبخش و مورد انتظار دستهبندی کننده فارغ از اینکه از چه الگوریتمی استفادهشده است، دست یابد. سواًم، حذف ویژگیهای زائد میتواند اندازه مجموعه دادهها را کاهش دهد. در صورتی که ویژگیهای نامربوط و زائد به صورتی نامناسب انتخاب شوند، فرآیند یادگیری را تحتالشعاع قرار داده و باعث میشود تا فرآیند آموزش ناکارآمد گردد. درنهایت، هزینه محاسباتی و زمان فرآیند دستهبندی نیز مبتنی بر کاردینالیتی3 زیرمجموعه میباشد و کاهش تعداد ویژگی ها منجر به کاهشی قابلتوجه در پیچیدگی محاسباتی4 میگردد.

بر این اساس یک زیرمجموعه خوب از ویژگیها، مهمترین اطلاعات مستقل را برای تصمیم دستهبندی فراهم کرده، به طوری که چنین ویژگیهایی با یکدیگر همبستگی ندارند.[5] یک روش کارآمد انتخاب زیرمجموعه مبتنی بر الگوریتم ژنتیک برای دادههای مربوط به نظرات کاربران شبکه اجتماعی در راستای پیشبینی نظرات کاربران و در راستای دستهبندی مشتریان هدف به دو دسته رضایتمند و ناراضی از خدمات و محصولات پیشنهاد شده است. بعد از انتخاب ویژگی از طبقهبندی کننده برای کاوش دادهها و طبقهبندی مشتریان به شناسایی الگوی موجود در نظرات ارائه شده توسط آن ها پرداخته میشود. شکل زیر روند کلی عملیات پیشنهادی را نشان میدهد.

-3 فرموله سازی مسئله

در این بخش فرموله سازی معیارهای انتخاب ویژگی به عنوان تابع هدف الگوریتم ژنتیک و نحوه محاسبه آنها را ارائه میشود. X وY را به عنوان دو متغیر تصادفی با قوانین احتمال گسسته در نظر بگیرید. اطلاعات متقابل دو متغیر X وY با I - X,Y - نشان داده شده و از طریق P - X - و P - Y - و P - X,Y - به صورت زیر تعریف میشود:

که در آن Xو Y به ترتیب فضاهای نمونه X وY هستند. هنگامی که دو متغیر X و Y به یکدیگر وابسته هستند، I - X,Y - زیاد است و در نقطه مقابل هنگامی که X و Y بطور کامل از هم مستقل هستند، I - X,Y - برابر با صفر است. بعد از محاسبه اطلاعات متقابل، دو هدف کارایی مختلف را برای انتخاب بهترین زیرمجموعه از بین راه حل های تولیدی توسط الگوریتم ژنتیک را دنبال می شود. اولین هدف کیفیت مجموعه ویژگیهای انتخابی در راستای پیش بینی هدف دادهها که تحت عنوان کلاس بیان میگردد، را ارزیابی میکند و دومین هدف به بررسی افزونگی و تکراری بودن مجموعه ویژگی ها میپردازد. این دو هدف در ادامه بیان شدهاند.

همبستگی ویژگی ها با کلاس

برای هر زیر مجموعه از ویژگی ها، مفهوم ارتباط را که از طریق وابستگی بیان میگردد تعریف می شود، که در واقع از طریق محاسبه میانگین اطلاعات متقابل بین هر یک از ویژگیهای موجود در مجموعه ویژگیهای انتخابی با مجموعه هدف دادهها یعنی کلاس دادهها که از طریق متغیر C نشان داده میشود، بدست می آید. نجوه محاسبه این رابطه در زیر نشان داده شده است:که در آن - I - xi, c - بیان کننده مقدار اطلاعات متقابل بین ویژگی iام در زیرمجموعه ویژگی انتخابی کاندید و کلاس دادهها میباشد و بیان کننده این واقعیت است که این ویژگی با چه کیفیتی کلاس دادهها را بیان میکند.

کاهش افزونگی بین ویژگیهای انتخابی

در یک راه حل انتخابی ممکن است، دو یا بیش از دو ویژگی در هدف اول یعنی ارتباط و همبستگی با کلاس بسیار خوب باشند، اما این ویژگی ها به نحوی دارای افزونگی بوده و بتوان با داشتن یکی از آن ها به مقادیر دیگر ویژگی ها دست یافت. در این شرایط می بایست ویژگیهای انتخابی در راستای کاهش افزونگی و حذف ویژگیهای تکراری بررسی گردند. در اینجا از اطلاعات متقابل برای ارزیابی افزونگی بین ویژگی ها استفاده میگردد. در اینجا دو متغیر i و j از یک مجموعه ویژگیهای کاندید توسط الگوریتم ژنتیک از طریق رابطه زیر محاسبه میگردد:

بعد از محاسبه دو هدف مورد نظر یعنی همبستگی دادهها با کلاس و همچنین افزونگی ویژگی، تابع هدف و نهایی این تحقیق برای ایجاد توازن مناسب در بین این دو هدف بیان میگردد. هدف، افزایش معیار اول یعنی همبستگی ویژگی ها با کلاس و کاهش معیار دوم یعنی افزونگی مابین ویژگی هاست. تابع هدف بهصورت رابطه زیر تعریف میگردد:Fitness=D_s/R_sدر این تابع هدف همبستگی دادهها در صورت کسر و هدف دوم یعنی افزونگی در مخرج کسر قرار می گیرد. با بزرگ شدن صورت و کوچک شدن مخرج حاصل کسر بزرگ شده و کیفیت بالاتری را نشان میدهد. بنابراین یک تعادل و توازن ما بین این دو هدف کارایی برقرار میگردد. در ادامه جزییات شبیه سازی و پیاده سازی روش مورد نظر و همچنین نتایج حاصل شده مورد بررسی و ارزیابی قرار میگیرند.

-4 دادههای مورداستفاده و اعتبار سنجی

دیتاستی که در این تحقیق استفاده شده است، دادههای مربوط به چند نوع محصول در شبکه اجتماعی توییتر میباشد، که از لینک https://twitter.com/hashtag/productreview?lang=en قابل دسترسی میباشد. این مجموعه داده شامل 9 فایل است که مربوط به محصولات مختلف میباشد. هر سطر در این فایلها بیانگر یک نظر است. در هر فایل هر کدام از نظرات میتواند شامل یک برچسب از منفی سه تا مثبت سه باشد که نشاندهنده درجه رضایت مشتری در نظر بیان شده میباشد. عدد منفی سه، نشاندهنده کمترین میزان

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید