بخشی از مقاله
چکیده
شبکههای اجتماعی، در سالهای اخیر به دلیل پیدایش ابزارهای دیجیتال، بیش از پیش مورد توجه قرار گرفتهاند. در این میان، پیامرسان تلگرام در ایران، به عنوان محبوبترین شبکه اجتماعی، به بخشی از فعالیتهای روزمره افراد تبدیل شده است. با توجه به قابلیتهای تلگرام، روزانه حجم عظیمی از اطلاعات متنوع توسط کاربران در آن به اشتراک گذاشته میشود. لذا، فناوری بازیابی اطلاعات برای دسترسی به اطلاعات ارزشمند تولیدشده توسط کاربران در این پیامرسان، ضروری است.
به دلیل کوتاه بودن پیامها، استفاده از زبان محاوره در نوشتار و وجود کلمات متنوع برای توصیف موضوعی خاص، جستوجو در تلگرام با مشکل واژگان مواجه است. گسترش جستار، روشی است که جهت از بین بردن مشکل واژگان در صفحات وب مطرح شده است. در این مقاله، از بازخورد شبهمرتبط جهت گسترش جستار در بازیابی گروهها از تلگرام، استفاده شد. روش پیشنهادی، با دادگان ایجاد شده توسط سامانه ایدهکاو ارزیابی شد، که نتایج ارزیابی بیانگر افزایش دقت در بازیابی گروههای تلگرام با توجه به جستار اولیه میباشد.
-1 مقدمه
شبکه اجتماعی، در علوم اجتماعی به بررسی روابط بین انسانها، گروههای انسانی و سازمانها میپردازد. شبکه اجتماعی مجازی، مانند هر شبکه اجتماعی از اجتماع و روابط انسانها در فضای مجازی تشکیل شده است .[10] آنچه باعث شده امروزه شبکههای اجتماعی مجازی بیشتر از همیشه مورد توجه قرار گیرند، پیدایش ابزارهای دیجیتال1 و کمک آنها به توسعهی شبکههای اجتماعی است. در این میان، پیامرسان تلگرام در ایران، به عنوان محبوبترین شبکه اجتماعی، به بخشی از فعالیتهای روزمره افراد تبدیل شده است. افراد با حضور در تلگرام، علاوهبر انجام امور شخصی و به اشتراکگذاری تصاویر، متن، ویدئو و صوت با حضور درگروههای مختلف آموزشی، سیاسی، اجتماعی، فرهنگی، تخصصی و اقتصادی به بیان سوالات، نیازها، خدمات، نظرات و عقاید شخصی یا سازمانی میپردازند.
با توجه به حجم فعالیت ایرانیها در تلگرام و حجم بسیار بالای محتویات درج شده در آن، بازیابی اطلاعات، جهت دسترسی به اطلاعات ارزشمند تولیدشده توسط کاربر در این پیامرسان، اهمیت ویژهای یافته است. محتویات در این شبکهها توسط کاربران آنلاین تولید و بهروز میگردد، که طیف گستردهای از موضوعات را پوشش میدهند. از این رو، به عنوان منبعی مهم از اطلاعات برای کاربران آنلاین، دانشمندان و کارکنان رسانهای ظاهر شده اند
به همین سبب، سامانه ایدهکاو1 با هدف بازاریابی، تبلیغات و توسعه کسب و کارها، با استفاده از اطلاعات درج شده در شبکههای اجتماعی، ایجاد شد. در حال حاضر، این سامانه با استفاده از دادههای تلگرام به بازیابی گروهها، کاربران و پیامهای مرتبط با جستار2 کاربر میپردازد، و امکان عضو شدن در گروهها و ارسال پیام به کاربران بازیابی شده را فراهم مینماید.
به دلیل کوتاه بودن پیامها، استفاده از زبان محاوره در نوشتار، وجود کلمات متنوع برای توصیف موضوعی خاص، نوشتارهای مختلف برای برخی واژگان و داشتن معناهای مختلف برای واژگان یکسان، جستوجو در تلگرام با مشکل واژگان روبهرو است.
روشهای مختلف گسترش جستار3، برای غلبه بر مشکل واژگان، در ادبیات بازیابی اطلاعات [2,3] وجود دارد. در این مقاله، با توجه به امکانات و قابلیتهای سامانه ایدهکاو و پیامرسان تلگرام، روش بازخورد شبهمرتبط - PRF - 4 برای گسترش جستار در بازیابی گروهها از تلگرام، انتخاب گردید. در این روش، جستار وارد شده توسط کاربر، به سیستم بازیابی اطلاعات داده شده و نتایج اولیه بازگردانده میشود. بازخورد شبهمرتبط فرض میکند، k نتیجه برتر به جستار وارد شده مرتبط هستند، بنابراین میتوانند برای استخراج واژگان گسترش مناسب، مورد استفاده قرار گیرند. پس واژگان گسترش مناسب، از k نتیجه برتر استخراج شده و به جستار اولیه افزوده میشوند. در پایان، جستار گسترشیافته مجدداً به جستوجوگر ارسال میگردد، تا نتایج مرتبط نهایی، بازگردانده شده و به کاربر نمایش داده شود.
نوآوری این مقاله، افزایش دقت در بازیابی گروههای تلگرامی با رویکرد بازخورد شبهمرتبط، در گسترش جستار میباشد. این پژوهش سبب میشود، تا کاربران سامانه ایدهکاو به گروههای متنوع مرتبط، با توجه به جستار خود دسترسی پیدا کنند. نتایج ارزیابی روش پیشنهادی، نشان میدهد که فراگیر بودن جستار وارد شده توسط کاربر در میان گروههای تلگرامی، منجربه انتخاب واژگان گسترش مناسب و مرتبط با جستار شده، و دقت نتایج بازیابی گروههای تلگرام را افزایش میدهد.
ساختار مقاله در ادامه بدین صورت خواهد بود. ابتدا در بخش 2، برخی از روشهای بازخورد شبهمرتبط مطرح شده در صفحات وب و میکروبلاگ5 توییتر، به طور خلاصه بیان میگردند. سپس در بخش 3، روش پیشنهادی برای انتخاب واژگان گسترش مناسب جهت گسترش جستار، بیان شده، و در بخش 4، با معرفی دادگان و روش ارزیابی، دقت روش پیشنهادی بررسی و بیان میگردد. نتیجهگیری مقاله نیز در بخش 5 بیان شده است.
-2 مروری بر روشهای بازخورد شبه مرتبط
چالش بحرانی در تمام روشهای بازخورد، انتخاب واژگان به احتمال زیاد مرتبط با موضوع جستار، از طریق اسناد بازخورد، میباشد . این چالش نیز به عوامل مختلفی از جمله، الگوریتم بازیابی اولیه، تعداد اسناد بازخورد مرتبط، الگوریتم محاسبهی وزن واژگان و تعداد واژگان گسترش وابسته است. همچنین بازخورد، مستقل از کاربر بوده و احتمال ریزش موضوعی6 نیز وجود دارد، به خصوص اگر بازیابی اولیه ضعیف باشد. ریزش موضوع به دلیل افزودن واژگانی است، که هیچ ارتباطی با موضوع جستار مربوطه ندارند. با توجه به چالشهای بیان شده، روشهای مختلفی برای یافتن واژگان مرتبط، جهت گسترش جستار، ارائه شده است. در ادامه، ایده برخی از پژوهشها در این زمینه که به کار مقاله نزدیک بودند، بیان میگردد.
کرافت و هارپر در سال 1979، ابتدا روش بازخورد شبهمرتبط را برای برآورد احتمالات در مدل احتمالاتی، پیشنهاد کردند .[4] با این حال آنها با مشکل ریزش موضوعی مواجه شدند. در سال 2010اِل،وی و ژای این چالش را با استفاده از استخراج اطلاعات موقعیت7 و مجاورت8 واژگان به عنوان نشانه، برای ارزیابی اینکه آیا واژهای مربوط به موضوع جستار است، حل نمودند
از آنجایی که، محتوای مرتبط با موضوعی خاص معمولاً در کنار هم در اسناد متنی قرار میگیرند، واژگان نزدیکتر به موقعیت کلمات جستار نیز به احتمال زیاد مربوط به موضوع جستار میباشند. بنابراین، آنها مدل ارتباط موقعیتی ارائه دادند، که به واژگانی در سند که نزدیکتر به واژگان جستار قرار دارند، وزن بیشتری اختصاص میدهند.
آتریا در سال 2013، رویکرد بسیار امیدوارکنندهای را پیشنهاد داد که با توجه به ساختار اسناد، اولویتها را به واژگان گسترش، اختصاص میدهد
در واقع او بیان کرد، واژهای که در بخش عنوان یک سند اتفاق میافتد، برای آن سند بیشتر از واژهای که در متن رخ میدهد، اهمیت دارد. عنوان سند، به طور فشردهای نشاندهنده محتویات کل سند است، بنابراین احتمال اینکه کلمهای در عنوان باشد که به سند مرتبط نباشد، بسیار کم خواهد بود.
در همان سال رویکردی جدید برای بازخورد شبهمرتبط با الهام از پالایش گروهی9 توسط دانگ ژو و همکارانش توصیف شد .
این روش، به دو پارامتر تعداد اسناد شبهمرتبط برتر برگردانده شده - k - ، و تعداد واژگان گسترش که از هر سند استخراج میگردد - j - ، وابسته میباشد. در این رویکرد، الگوریتم PRF معمولی با استفاده از محدودهای از مقادیر k و j پیادهسازی میشود، که مجموعهای از جستارهای گسترش یافته را تولید مینماید . پس از پالایش، این جستارها به موتور بازیابی اطلاعات ارسال میشوند و مجموعهای از لیستهای نتیجه را تولید میکنند. اسناد برتر در هر لیست را به عنوان رتبهبندی10 در نظر گرفته که به جستارهای مشابهی اعطا شدهاند. در این رویکرد، بازخورد شبه مشارکتی11 را با لیستهای نتایج حاصل از بازیابی اطلاعات ترکیب کرده، تا رتبهبندی نهایی به دست آید.
لین چِن و همکارانش در سال 2013، جهت رفع مشکل واژگان در حوزه جستوجوی میکروبلاگ، استراتژی گسترش پویای بازخورد شبهمرتبط را ارائه نمودند، که از ماهیت پویای میکروبلاگها برای شناسایی صحیح بازخورد مرتبط استفاده مینماید
در این مقاله، با ایجاد پروفایل زمانی برای هر جستار، مراحل فعال جستار شناسایی میشوند . روش پیشنهادی، قادر به انتخاب کلمات کلیدی نمایش داده شده در مراحل مختلف فعالی، از توییتهای شبهمرتبط است.
در سال 2016، حامد زمانی و همکارانش، بازخورد شبهمرتبط مبتنی بر فاکتورگیری ماتریس - RFMF - 12 را، که چارچوب بازخورد شبهمرتبط مبتنی بر تکنیکهای فاکتورگیری ماتریس است، ارائه نمودند .[8] ایده اصلی این روش، از نو ساختن کار PRF، به عنوان مسئله سیستم توصیهگر مشارکتی است، که هدف آن استفاده از روشهای فاکتورگیری ماتریس برای پیشبینی وزن واژگانی است، که در جستار وجود ندارند. در واقع، تکنیکهای فاکتورگیری ماتریس، وزن واژگانی که در جستار وجود ندارند را پیشبینی میکنند و این پیشبینیها براساس وزن واژگان در دسترس انجام میشود.
در سال 2017، بازخورد شبهمرتبط، شامل بازخورد ارتباطی و گسترش جستار براساس موضوع، برای بازیابی میکروبلاگ توسط خالد البیشر و همکارانش ارائه شد .[9] مدل پیشنهادی، شواهد واژگانی13 و موضوعی را از بازخورد شبهمرتبط با توجه به جستار اصلی، ترکیب میکند. مزیت قابل توجه مدل پیشنهادی پایداری و استحکام است، زیرا به منابع خارجی برای گسترش پرس و جو اصلی نیازی ندارد.
-3 روش پیشنهادی
روشهای بیان شده برای گسترش جستار، جهت بازیابی صفحات وب و یا جستوجو در توییتر به عنوان شبکه اجتماعی مطرح شدهاند. در این مقاله، هدف بهبود بازیابی گروهها از پیامرسان تلگرام، با استفاده از گسترش جستار است. بنابراین، روش انتخابی مناسب با ویژگیها، اطلاعات و امکاناتی است که در حال حاضر تلگرام و سامانه ایدهکاو، میتوانند ارائه دهند.
در قدم اول، با استفاده از دادگانی که از سامانه ایدهکاو استخراج شده بودند، مجموعهای از گروههای تلگرام با فیلدهای نام گروه، شناسه گروه، توضیحات گروه و 100 پیام آخر گروه تهیه شد. این دادگان در پایگاه داده الستیک سرچ14 قرار داده شدند، تا بتوان از قابلیتهای جستوجوی متن آن، جهت بازیابی گروهها استفاده نمود. به علاوه، برای مشخص نمودن میزان اهمیت نام گروه و توضیحات آن در زمان جستوجو، به هر یک از فیلدهای نام گروه، توضیحات گروه و پیامهای گروه به ترتیب ضرایب تأثیر 10، 5 و 1 اختصاص داده شد . با توجه به چارچوب رسم شده در شکل - 1 - ، مراحل گسترش جستار کاربر، بدین صورت میباشد.
• جستار وارد شده توسط کاربر، به جستوجوگر ارسال شده و k گروه برتر بازیابی میشوند. طبق فرضیهی روش بازخورد شبهمرتبط، k گروه با بالاترین امتیاز به عنوان گروههای مرتبط با جستار در نظر گرفته میشوند و از آنها برای انتخاب واژگان گسترش مناسب استفاده میگردد.
• واژگان موجود در نام و توضیحات هر یک از گروهها را استخراج کرده، کلمات توقف، نشانهها و علامتهای اضافی را حذف نموده تا برای هر گروه لیستی از واژگان تهیه شود.
• ماتریس - + 1 - × ، که سطر اول آن مربوط به جستار وارد شده توسط کاربر و k سطر دیگر آن گروههای برتر بازیابی شده هستند، تشکیل میگردد. تعداد ستونهای ماتریس، برابر تعداد واژگان منحصربهفرد ظاهر شده در k گروه برتر و جستار میباشد. هر درایه از ماتریس، نشاندهنده وزن واژه در گروه یا جستار وارد شده، میباشد.
• با استفاده از فرمول - 1 - ، وزن هر واژه در جستار و هر یک از گروهها محاسبه شده و در خانهی متناظرش در ماتریس قرار میگیرد. دلیل استفاده از فرمول - 1 - این است که در گروههای تلگرامی، واژگانی که موضوع و هدف هر گروه را مشخص میکنند در آن گروه بسیار تکرار میشوند. به طور مثال اگر گروهی مربوط به فروش لباس باشد واژگان »لباس«، »مجلسی«، »مانتو«، »پوشاک« و از این قبیل واژگان در آن گروه بسیار تکرار میشود و این نشان دهنده مرتبط بودن این واژگان به موضوع اصلی گروه است. بنابراین محاسبه فرکانس هر واژه در هر گروه میتواند اهمیت آن واژه در گروه را مشخص نماید. از طرف دیگر، واژگانی نیز هستند که به طور متداول در توضیحات بسیاری از گروهها به کار برده میشوند، مانند »لینک«، »ممنوع«، »خوش آمدید« و از این قبیل واژگان که برای مشخص نمودن آنها از محاسبهی لگاریتم فرکانس واژه در k گروه مرتبط استفاده میگردد.
که TF - w, g - ، فرکانس واژه w در گروه g را نشان میدهد. IDF - w - ، نیز لگاریتم فرکانس واژه w در میان k گروه مرتبط بازگزدانده شده را نشان میدهد. weight - w, g - ، وزن واژه w در گروه g است.
• پس از محاسبهی وزن کلیهی واژگان در همهی گروهها، مجموع وزنهای به دست آمده برای هر واژه را محاسبه نموده و به عنوان وزن نهایی هر واژه در نظر گرفته میشود.
• با توجه به وزن به دست آمده برای کلیهی واژگان، m واژه با بالاترین وزن به عنوان m واژه مرتبط با جستار وارد شده انتخاب میشود. واژگان انتخاب شده به جستار اولیه کاربر افزوده شده و جستار جدید به همان جستوجوگر ارسال میگردد. نتایج بازیابی شده از جستوجوگر نتایج نهایی است و به کاربر نمایش داده میشود.