بخشی از مقاله

چکیده

بیش از یک دهه است که شبکههای اجتماعی مانند فیسبوک و توئیتر رواج یافته است. سالها قبل از پیدایش شبکههای اجتماعی، پیامرسانهایی مانند یاهومسنجر در سطح وسیعی استفاده میشدند. از دیرباز کاربران در پیامرسانها، گروههای اجتماعی تشکیل میدادند و بحثهای خود را در آنها دنبال میکردند. پس از گسترش گوشیهای هوشمند، پیامرسانهای نوظهور مانند وایبر، لاین، واتساپ، تلگرام و غیره، استفاده وسیعتری پیدا کردند. در ایران به دلیل پارامترهای اجتماعی، پیامرسانی مانند تلگرام جایگاهی در سطح شبکههای اجتماعی پیدا کرده است. خلاء عمدهای که در پیامرسانها در ارتباط با تبلیغات و بازاریابی برای گسترش کسبوکارها وجود دارد، عدم امکان جستجوی گروههای اجتماعی و رتبهبندی مناسب آنها میباشد. در این مقاله هدف ما آن است تا رویکردی را ارائه دهیم تا براساس آن کاربران بتوانند براساس عبارت جستجو، پس از مشاهده لیستی اولیه از گروههای مرتبط، پس از انتخاب هر گروه در لیست، توصیهای از گروههای مرتبط با آن دریافت کنند. روش پیشنهادی در سامانه ایدهکاو که ابزاری برای بازاریابی مبتنی بر تلگرام است پیادهسازی شده و نتایج تجربی بیانگر افزایش دقت در نتایج بازیابی میباشد.

کلمات کلیدی:شبکههای اجتماعی، پیامرسان، سامانههای توصیهگر، بازیابی اطلاعات، بازاریابی مبتنی بر تلگرام

-1 مقدمه 

سامانههای توصیهگر1 زیر مجموعهای از سامانههای فیلتر اطلاعات هستند. هدف آنها فیلترکردن اطلاعات بهگونهای است که فقط اطلاعات مطابق به سلیقهی کاربر باقی بماند. توصیهگرها در انواع سامانهها قابل استفاده هستند. توصیهی فیلم، اخبار، صفحات وب،دوستان در شبکهی اجتماعی و فرصت سرمایهگذاری از نمونههای کاربردی هستند. به طور معمول توصیهگر لیستی از پیشنهادات را به کاربر ارائه میدهد. این پیشنهادات با توجه به علایق کاربر که درگذشته توسط سامانه فراگرفتهشدهاند توصیه میشود.امروزه پیامرسانها عضو جداناپذیری از زندگی روزمره هستند. روزانه دادههای باارزش زیادی در این محیط منتشر میشود. اکثر پیامرسانهاامکان ایجاد گروه را فراهم کردهاند.

کاربران با عضویت در گروههای مختلف به بحث و تبادل نظر در رابطه با موضوعات مورد علاقهی خود میپردازند. با توجه به تعدد این گروهها و عدم وجود امکان جستجوی   گروه در اکثر پیامرسانها، کاربران برای یافتن گروههای جدید مورد علاقهی خود دچار مشکل هستند. در این پژوهش راهکاری برای   توصیهی گروههای جدید مرتبط به کاربران پیامرسانها ارائه شدهاست.  چالشهای متعددی در طراحی و پیادهسازی سامانههای توصیهگر وجود دارد. برخی از این چالشها تا حد قابلقبولی در پژوهشهای    گذشته مرتفع شدهاند. برخی دیگر از این چالشها در حال حاضر موضوع پژوهشی هستند. چالشهایی نظیر حجم بالای دادهها، نوسان   دادهها2 و گوناگونی دادهها3 در حال حاضر بسیار مورد توجه هستند    .[1] از طرف دیگر نحوهی ارزیابی پیشنهادات توصیهگرها نیز چالشبزرگی است.

پیشنهادهای ارائهشده توسط توصیهگرها از منظرهای گوناگون قابل بررسی و ارزیابی هستند. به عنوان مثال غیرمترقبهبودن4 پیشنهادات از زوایای مختلفی قابل بررسی بوده و یکی از چالشهای ارزیابی محسوب میشود .[2]در این پژوهش توصیهگری مبتنی بر گراف عضویت کاربران برای اولین بار ارائهشده است. این توصیهگر مقیاسپذیر5 بوده و قابلیت تولید پیشنهادات را به صورت برخط دارد. در فصل 2 مروری بر سامانههای توصیهگر با تمرکز بر شبکههای اجتماعی خواهیمداشت. در فصل 3 روش پیشنهادیمان را توضیح خواهیمداد. فصل 4 مربوط به نتایج آزمایشهای تجربی است. در فصل 5 نتیجهگیری میکنیم و اشارهای به پژوهشهای آتی خواهیمداشت.

-2 مروری بر سامانههای توصیهگر

الگوریتمهای مختلفی برای توصیهگرها ارائه شدهاست. برخی از مدلهای ارائهشده اساس کار مدلهای دیگر هستند. این مدلهای پایه به چهار دستهی مبتنی بر محتوا، مشارکتی6، مبتنی بر دانش و ترکیبی تقسیم میشوند. مدلهای پیشرفته بر پایهی یک یا چندتا از این مدلها استوار هستند.مدلهای مبتنی بر محتوا با توجه به فعالیتهای یک کاربر و محتوایی که فعالیتها روی آن صورت گرفتهاست تصمیمگیری میکنند. در این مدلها فعالیت کاربران دیگر اثری در تصمیمگیری ندارد.منبع اصلی تصمیمگیری در مدلهای مشارکتی فعالیتهای عدهایاز کاربران - غالباً مشابه - است. چالش اصلی این مدلها تنکبودن ماتریس فعالیتهای کاربران است. تنکبودن7 ماتریس فعالیت کاربران باعث میشود که مقدار عددی فاصلههای محاسبهشده در ماتریس همگی نزدیکبههم باشند. به همین دلیل، کاندیداهای زیادی برای توصیهشدن خواهیمداشت که نمیتوانیم با اطمینان بهترینهای آنها را انتخاب کنیم. برای حل این مشکل، روشهای انتسابی8 ایجاد شدهاند.

روشهای متنوعی برای توصیهی مشارکتی مبتنی بر گراف وجود دارد. سیمرنک9 روشی عمومی برای یافتن گرههای مشابه در گراف است .[3] یافتن صفحات وب مشابه، دانشآموزان همسطح کلاس و محصولات مرتبط در فروشگاه مثالهایی از کاربرد این روش هستند. سیمرنک به صورت بازگشتی10 تشابه گرههای گراف را محاسبه میکند. برای یافتن تشابه دو گره، تشابه گرههایی که به آنها متصل هستند محاسبه میشود. برای محاسبهی تشابه گرههای متصل نیز، تشابه گرههای متصل به آنها محاسبه میشود. این کار تا زمانی ادامه مییابد تا به گرهی برسیم که در هر دو مسیر مشترک باشد.

مدلهای مشارکتی نیاز به فعالیت کاربران برای پرشدن ماتریس فعالیت دارند. هر چه فعالیت کاربران بیشتر باشد، مدلهای مشارکتی کیفیت بهتری خواهندداشت. علاوه بر این، در مدلهای مشارکتی مشکل شروع سرد11 وجود دارد. از طرف دیگر در برخی از کاربردها انتخاب کاربر ظرافت خاصیدارد. مثلاً در خرید خانه یا ماشین ظرافتهای خاصی وجود دارد که مدلهای مشارکتی یا مبتنی بر محتوا قابلیت در نظر گرفتن آن را ندارند. در این نوع خریدها خصوصیاتی وجود دارد که از نظر این مدلها پنهان میماند. مدلهای مبتنی بر دانش این ظرافتها را با دانشی که از قبل وارد سامانه شدهاست برای کاربر مهیا میکنند . بنابراین برای توصیهکردن خانه یا ماشین، تمامی جزئیات مربوطه در پایگاه دادهی متصل به سامانه وجود دارد. این پایگاه دادهی غنی برای مدلهای مبتنی بر دانش ضروری است.

هر یک از سه مدل فوقالذکر معایب و مزایایی داشته و در شرایط خاصی بهتر عمل میکنند. مدلهای ترکیبی، با ادغام این مدلها، در هر شرایطی از مدل خاصی استفاده میکنند یا ترکیبی از توصیههای مدلهای مختلف را به کاربر نشان میدهند.مدلهای پایه، اساس کار مدلهای پیشرفته هستند. مدلهای پیشرفته با تغییر، ترکیب و یا تقویت الگوریتمهای پایه، سعی در بهبود پیشنهادها دارند. دینگ و لی مدلی با دیدگاه مبتنی بر تازگی برای سامانههای توصیهگر ارائه کردهاند .[4] در این مدل برای هر فعالیت با توجه به زمان آن وزنی در نظر گرفته شدهاست. هر چه فعالیتی تازهتر باشد، وزن آن بیشتر است. در نهایت وزن هر فعالیت در مقدار آن ضرب شده و به عنوان مقدار نهایی در نظر گرفتهمیشود.

با افزایش استفادهی کاربران از اینترنت و تولیدشدن دادههای حجیم با سرعت زیاد، تمرکز پژوهشگران بر روی مدلهای مبتنی بر بستر دادههای حجیم12 بیشتر میشود. اغلب مدلهای پایه در بستر دادههای حجیم پیادهسازی شدهاند. مثلاً آقای ژائو و همکاران مدل مشارکتی را در این بستر ایجاد کردهاند .[5] آقای چین و همکاران نیز کتابخانهای در این بستر پیادهسازی کردهاند که از ماتریس فعالیت کاربران فاکتور میگیرد .[6]توصیهگر یوتیوب نیز در بستر دادههای حجیم ایجاد شدهاست .[7] محاسبات توصیهگر یوتیوب به صورت آفلاین انجام میشود. تمامی توصیهها به صورت دورهای برای کاربران ایجاد میشوند و زمانی که کاربر وارد سامانه میشود، این توصیهها فقط بازیابی میشوند. الگوریتم توصیهگر یوتیوب در دو مرحله کار میکند. مرحلهی اول ویدئوهای کاندیدا را پیدا کرده و مرحلهی دوم آنها را رتبهبندی میکند. این الگوریتم، مدلی مبتنی بر محتوا است.

-3 روش پیشنهادی

شبکههای اجتماعی و نرمافزارهای پیامرسان منبع عظیمی از اطلاعات هستند. کاربران در موضوعات متنوع اظهار نظر میکنند. از این اطلاعات میتوان علایق هر فرد را مشخص کرد. ایدهکاو13 در حال حاضر از اطلاعات گروههای تلگرام برای این کار استفاده میکند . در تلگرام گروههای زیادی به زبان فارسی وجود دارند. موضوع فعالیت این گروهها بسیار گسترده است. کسبوکارهای زیادی نیز در تلگرام مشغول به فعالیت هستند. کاربران با توجه به موضوعات مورد علاقهی خود در این گروهها عضو میشوند.

-1-3 سامانهی ایدهکاو

در نگاه کلی، ایدهکاو از سه بخش خزشگر14، مدیر اطلاعات و جستجوگر تشکیل شدهاست. خزشگر با شنود گروههای تلگرامی، دادههای آنها را به صورت لحظهای ذخیره میکند. دادههای خزشگر برای پردازش به بخش مدیر اطلاعات ارسال میشود. این دادهها به صورت آنلاین پردازش شده و اطلاعات مستخرج از آن به شکل مناسبی ذخیرهسازی میشود. جستجوگر ایدهکاو این اطلاعات را جستجو و رتبهبندی میکند. شکل 1 شمای کلی معماری ایدهکاو را نمایش میدهد.دادهای مناسب ذخیرهسازی میکند. لینکهای جدید در این بخش پیدا شده و برای عضویت به خزشگر ارسال میشود . محتوای گروهها نیز همینجا بررسی میشود . گروههایی که محتوای اسپم یا کمارزش دارند شناسایی شده و برای ترککردن به خزشگر فرستاده میشود.

اطلاعات مورد نیاز دیگر نیز در این بخش نمایهسازی میشوند. ذخیرهسازی اطلاعات بلادرنگ بوده و به صورت توزیعشده بین سرورهای خوشه 19 انجام میشود. ذخیرهسازی در تکههای20 کوچک به تعداد زیاد انجام میشود.جستجوگر ایدهکاو بر پایهی نمایهساز21 و جستجوگر لوسین 22 پیادهسازی شدهاست. جستجو بر روی سه نمایهی گروهها، کاربران و پیامها قابل انجام است. معماری ذخیرهسازی اطلاعات، نمایهی معکوس23 است. نمایهی معکوس سرعت بالایی در بازیابی اطلاعات دارد. علاوه بر این، امکان اعمال فیلترهای مختلف بر روی نمایهی معکوس وجود دارد. معماری جستجوی اطلاعات، TFIDF است. در این معماری کلمات مهم متن به سرعت پیدا شده و از کلمات عمومی متمایز میشوند.

جستجو با ارسال جستار24 میتواند نتایج مرتبط با موضوع مورد نظر کاربر را بازیابیکند. عموماً در این نوع جستار، نتایجی که در رتبه ی بالا قرار دارند بسیار مرتبط هستند ولی هر چه پایینتر برویم ارتباط جستار با اسناد بازیابیشده کمتر میشود. معماری اصلی مورد استفاده برای جستجوی با جستار، معماری نمایهای است. در این معماری بازیابی نتایج مرتبط سریع است ولی هرچه پایینتر برویم بازیابی زمان بیشتری میگیرد . این مشکلات باعث میشود جستجوی مبتنی بر جستار به تنهایی نتواند جوامع هدف بزرگ را بازیابی کند.خزشگر ایدهکاو بر پایهی پروتکل MTPROTO به زبان پایتون پیادهسازی شدهاست. هر شمارهی سیمکارت یک نمونه15 از خزشگر را اجرا میکند. نمونههای خزشگر در کنار هم استخر 16 خزشگر را ایجاد میکنند. استخر خزشگر با برنامهریز17 هوشمند، اجرای نمونههای خزشگر را مدیریت میکند. هر نمونهی خزشگر با تخصیص حافظهی اندکی قابل اجراست. استخر خزشگر مقاوم در برابر خطا18 است. خطای نمونهها باعث از کار افتادن استخر نمیشود.دادههای بهدستآمده از خزشگر نظیر پیامها و اطلاعات عضویت افراد در گروهها به بخش مدیر اطلاعات ارسال میشود .

-2-3 توصیهگر ایدهکاو

جستجوی مبتنی بر جستار میتواند شروع خوبی برای یافتن جامعهی هدف باشد. پس از بازیابی تعدادی نتیجه، مرتبطترین اسناد با جستار از لحاظ محتوایی پیدا میشوند . در صورتی که بتوانیم با روشی اسناد مشابه از منظرهای دیگر را نیز پیدا کنیم، به نتیجهی بهتری خواهیم رسید. علاوه بر این در صورتی که تبلیغدهنده نیاز به جامعهی هدف بزرگی داشتهباشد، جستجو با جستار بسیار زمانبر خواهدبود. روشی که بتواند بدون دخالت انسانی با دقت مناسبی مرتبطترین افراد را به تبلیغدهنده معرفی کند در اینجا مورد نیاز است. این روش باید علاوه بر ارتباط محتوایی، روابط دیگر در شبکههای اجتماعی را نیز در نظر بگیرد.در صورتی که تبلیغدهنده به ادبیات و کلمات کلیدی جامعهی هدفش آشنایی کامل نداشتهباشد، تشابه محتوایی شاید نتواند جامعهی هدف او را به طور کامل شناسایی کند. در بسیاری از موارد جامعهی هدف را نمیتوان با کلمات کلیدی مشخص کرد. توصیهگر ایدهکاو راهحلی پیشنهادی برای حل مشکل مذکور است. هدف این توصیهگر

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید