بخشی از مقاله
چکیده
میکروبلاگ در مقایسه با اسناد خوش ساختار مانند صفحات وب، مقالات خبری و بلاگها یک نوع کاملا متفاوت از متن است که کوتاه و نویزی بوده و این خصوصیات, جمع آوری اطلاعات زمینهای و آماری را برای شناسایی موضوعات مورد نظر سختتر میکند. این پژوهش جنبههای زیر را برای شناسایی اخبار از میکروبلاگها پوشش میدهد: ابتدا خصوصیات متفاوت مانند محتویات، زمینه و فعالیتهای توییتر، از میکروبلاگ بررسی شده و سپس یک مدل تشخیص موضوع با استفاده از تکنیکهای کاوش داده و الگوریتم تخصیص دریکله پنهان ایجاد شده است.
در این پژوهش، مدل-سازی کاوش و استخراج متن های کوتاه و شناسایی موضوعات خبری در میکروبلاگ ها بررسی و نحوه کاربست الگوریتم تخصیص دیریلکه پنهان و تنظیم پارامترهای آن با پیاده سازی مدل معرفی شد و در زبان R نشان داده شده است.
1. مقدمه
سرویسهای میکروبلاگ به عنوان کانال اصلی برای پخش اطلاعات و عقاید کاربران مطرح شده است. این اطلاعات در زمینههای سرگرمی، ورزش و رویدادهای محلی میباشند. میکروبلاگ یک رسانه جدید نوظهور همراه با رشد سریع شبکههای اجتماعی و فناوریهای موبایل میباشد که اطلاعات را بلادرنگ انتقال داده و به کاربران اجازه میدهد با استفاده از پیوندهای وب، نظرات و عقاید شخصی خود را به اشتراک بگذارند که به شکل زیر تعریف میشود:
یک شکل از بلاگ نویسی که به کاربر اجازه نوشتن خلاصهای از بروزرسانی متنی درباره زندگی فعلی و ارسال موارد مورد علاقه به دوستان و مشاهده کنندگان مورد نظر به وسیله پیام رسانی یا پیام رسانی بلادرنگ - IM - ایمیل یا وب را میدهد
توییتر، به دلیل عمومیت در موضوعات و افکار افراد مختلف، محبوبترین پلتفرم میکروبلاگ است - هامفریز . - 2013 سرویسهای میکروبلاگی مانند توییتر نه تنها بر رسانه، بلکه بر کشف اخبار فوری و چرخه تولید خبر تاثیر گذار بوده و هستند.
توییتر بیش از 400 میلیون توییت در روز تحویل میدهد که مرور آنها برای انسان و فیلتر توییتهای غیرمرتبط برای پیدا کردن موضوعات خبری به دلیل استفاده از کلمات اختصاری، آیکنها و همچنین توییتهای مجدد - 1بوید - 2010، منشنها - 2بوید - 2010 و هشتگها - 3چتپانگ - 2010 غیرممکن است.
به طور کلی یک سیستم تشخیص خبر قادر به پردازش مجموعه ای از اسناد و کشف موضوعات پنهان در آن است. یک سیستم تشخیص خبر معمولی - شکل - 1 فرآیندی سه مرحلهای شامل موارد زیر است:
- 1 استخراج خصیصههای متمایز که نشانگر محتوا هستند.
- 2 شناسایی مجموعه موضوعات درون ورودی اسناد.
- 3 شناسایی موضوعات خبری
شکل .1 چهارچوب تشخیص اخبار معمولی یک سیستم تشخیص اخبار از گردآورنده خبر مانند گوگل نیوز یا یاهو نیوز متفاوت است. یک گردآورنده خبر، الگوریتم تشخیص و ردیابی موضوع را بر روی حجم زیادی از اطلاعات سایتهای خبری، رادیو و تلویزیون اجرا میکند تا آنها را پردازش کرده و رخدادهای جدید را پیدا و شناسایی نماید. این سرویس پس از آن به کاربران، اجازه دریافت به روز رسانیهای منظم را درباره موضوعات داغ اخبار میدهد. کشف موضوع جدید به وسیله پردازش تعداد زیادی از اسناد انجام می گیرد.
معمولاً کشف و ردیابی موضوع روش اصلی برای یافتن موضوعات مقالات خبری است که از کشف رویداد گذشته نگر و کشف رویداد جدید آنلاین استفاده میکند - آلان TDT . - 1998 داستانهای اخبار را از جریانهای بدنههایی مانند مقالات خبری و تکههای بزرگ متن بدون جداسازی - مثل سخنرانیهای رونویسی شده از اخبار سراسری - شناسایی میکند. ولی این روش به طور کامل بر روی میکروبلاگها پیاده سازی نشده است زیرا عملکرد TDT متکی بر ورودی با کیفیت خوب است ولی میکروبلاگها حاوی دادههای نویزدار و بدون ساختار میباشد و بدلیل اینکه تنها شامل اطلاعات خبری نیستند، دارای کیفیت متغیر میباشند
در میکروبلاگها بیشتر از روش-های مبتنی برعبارت مانند 4TF-IDF استفاده میشود - ژانگا . - 2011 پیادهسازی این روشها آسان بوده ولی به نویز حساس هستند. در پردازش میکروبلاگ، طول کوتاه متن باعث تفاوت کوتاهی در توییتها شده است، بنابراین استخراج خصیصههای متمایز یک عمل مهم در پردازش میکروبلاگها میباشد
استخراج خصیصه در دادهکاوی قدم اصلی برای استخراج اطلاعات متمایز است که دادهها را توصیف میکند. در متنکاوی استخراج و انتخاب خصیصه، روش دستهبندی و پیش پردازش تاثیر عمدهای بر روی موفقیت فرآیندهای دستهبندی متن دارد. انتخاب خصیصه و کاهش آن در الگوریتمهای دستهبندی بسیار مهم است - نصیر طوسی . - 2015 در این مقاله انتخاب، تقلیل و بازنمایی خصیصه به عنوان جنبههای قابل توجه مکانیزم سیستم معرفی شده، مشخص شده است.
در این مقاله رویکردی برای مدلسازی روش استخراج موضوعات خبری از میکروبلاگها با استفاده از تکنیکهای متن-کاوی ارائه شده است دارای پنج مرحله کلی دانلود توییتها از توییتر، پیشپردازش، ساخت ماتریس سند-واژه، مدلسازی با تخصیص دیریکله پنهان5، تجزیه و تحلیل عناویت خبری استخراج شده میباشد.
در مرحله اول توییتها دانلود شده و در گام بعدی پیشپردازش اولیه به منظور حذف علائم، نشانهها و کلمات ایست انجام میگیرد. در مرحله سوم از تمامی اطلاعات پیشپردازش شده ماتریس سند-واژه 6 ساخته شده و کلمات پراکنده برای جلوگیری از گسترش ابعاد ماتریس حذف میشوند و سپس ماتریس از کلمات کم تکرار با محاسبه TF-IDF تصفیه میگردد. در مرحله چهارم برای تمام عناوین خبری موجود با الگوریتم LDA مدل ایجاد شده و با محاسبه احتمال ورود7 مدل بهینه استخراج میشود. در مرحله پنچم عنوان خبری بهینه برای بررسی بیشتر مورد تجزیه و تحلیل قرار میگیرد. میکروبلاگها ممکن است جایگزین رسانههای سنتی و منابع مقتدر نشوند اما یک جایگزین مهم با اطلاعات غنی هستند.
این مقاله به این شرح است. در بخش 2 روش تحقیق و یافتههای پژوهش را شرح داده میشود و در نهایت در بخش 3 نتیجهگیری قرار دارد.
.2 روش تحقیق و یافتههای پژوهش
شناسایی موضوع خبری در میکروبلاگها از شناسایی موضوع و گرایشات سنتی و گردآوری خبر متفاوت است. و در واقع موضوعات نوظهور و گرایشات آنها را از توییتر شناسایی میکند، ولی ارتباط میان موضوع و رویدادهای دنیای واقعی را اندازهگیری نمیکند. اگرچه میکروبلاگها ممکن است جایگزین رسانههای سنتی و منابع مقتدر نشوند، اما بدون هیچ سوالی یک جایگزین مهم با اطلاعات غنی هستند.
خدمات میکروبلاگ مانند توییتر اطلاعات بلادرنگی را فراهم میسازد که چندین جنبه از رویدادها را پوشش داده و به موضوعات خبری اجازه کشف شدن میدهد. توییتر حاوی خصیصههای خاصی است که بازنمایی منحصر به فردی از محتوی آن، هشتگها و توییتهای مجدد و آدرسهایی که برای شناسایی موضوع مفید است را فراهم میکند. با توجه به این پیش زمینه، در این مقاله رویکردی برای مدلسازی روش استخراج موضوعات خبری از میکروبلاگها با استفاده از تکنیکهای متنکاوی ارائه شده است که مطابق مدل بیان شده در شکل 2 دارای پنج مرحله کلی زیر میباشد که در مراحل بعدی مورد بررسی قرار میگیرد:
-1 دانلود توییتها از توییتر
-2 پیشپردازش
-3 ساخت ماتریس سند-واژه
-4 مدلسازی با تخصیص دیریکله پنهان
-5 تجزیه و تحلیل عناویت خبری استخراج شده