بخشی از مقاله
چکیده
با گسترش شگرف اینترنت، شبکه های اجتماعی و استفاده روزافزون از آن شاهد حجم انبوهی ازنظرات کاربران در ارتباط با موضوعات مختلف هستیم که مطالعه و تحلیل نظرات در حجم انبوه با مشکلات زیادی روبرو بوده و کاربرد تکنیکهای علمی نوین ضرورتی اجتنابناپذیر میباشد.
مقاله حاضر با کاربرد تکنیک متنکاوی و تحلیل محتوا پدیده فوت مرتضی پاشایی را در شبکه اجتماعی توییتر مورد مطالعه و بررسی قرار داده و تمام توییتهای انتشاریافته شامل؛ 17714 توییت را در پنج مقوله؛ تبلیغ در مورد آلبوم پاشایی، انعکاس عیادت هنرمندان و بازیگران، بازتاب مراسم تشییع پاشایی، پیگیری خبر سلامتی وضعیت پاشایی و دعا برای وی و فکاهی کردن و لوث کردن مرگ پاشایی رده بندی و همبستگی بین ردهها را با ویژگی کاربران توصیف نموده است.
احساسات همواره از دیرباز جنبه مرموز و ناشناخته انسانها بوده و جایگاه مهمی در حیات اجتماعی افراد دارا میباشد. پرداختن به سوائق احساسی و عاطفی همچون؛ خشم، شادی، ترس، غم، کینه، بغض، عصبانیت، شرم، گناه و امثال آن به ضرورتی بنیادین در کنشهای انسانی تبدیل شده و تحلیل رفتار آدمیان بدون در نظر گرفتن احساسات و عواطف ناقص بوده و ارزش چندانی بر آن مترتب نیست.
بررسی درگذشت مرتضی پاشایی در فضای مجازی و تحلیل رفتار کاربران در این خصوص موضوع اصلی این مقاله میباشد. در این بررسی تمام توییتهای شبکه اجتماعی توییتر مرتبط با پدیده فوت پاشایی در قالب جدول اکسل شامل افراد توییت کننده و محتوای توییتها جمعآوری4 و سپس به کمک نرمافزار rapidmainer و الگوریتم های متن کاوی مورد تحلیل قرار گرفته است. هدف اصلی در متنکاوی، دستهبندی متون در قالب تعداد معینی از دستههای از پیش تعیینشده است. یک سند میتواند در یک یا چند دسته قرار بگیرد. این موضوع میتواند در قالب یک یادگیری خودکار بر روی تعدادی متن انجام و سپس در پردازشهای بعدی بر روی اسناد مورد استفاده قرار گیرد.
جدول شماره - 1 - نمونهای از دادههای استخراجی از شبکه اجتماعی توییتر
.1 مفهوم متن کاوی
متن کاوی را میتوان به عنوان متدها و الگوریتمهایی از فیلدهای یادگیری ماشین و آماری برای متنها با هدف پیدا کردن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری است. در بسیاری از روشها، متدهای استخراج اطلاعات، پردازش کردن زبان طبیعی یا برخی پیش پردازشهای ساده برای استخراج داده از متون استفاده میشود. سپس میتوان الگوریتمهای داده کاوی را بر روی داده های استخراج شده اعمال کرد. در این مقاله ما بیشتر متن کاوی را به عنوان کشف داده متنی در نظر میگیریم 5و بیشتر تمرکز بر روشهای استخراج الگوهای مفید از متن شامل دستهبندی مجموعههای متنی یا استخراج اطلاعات مفید است.
جدول شماره - 2 - فرایند متن کاوی
.مدل فرایند متنکاوی
.پیش پردازش متن :
برای کاوش کردن مجموعه بزرگی از اسناد ضروریست که اسناد پیش پردازش شوند و اطلاعات در یک ساختار دادهای مناسب برای پردازشهای بعدی ذخیره شوند. در این زمینه چندین روش وجود دارند که سعی در بهرهگیری از ساختار نحوی و معنایی متن دارند. در بیشتر روشها، اسناد به صورت مجموعهای از کلمات نمایش داده میشوند. بیشتر روشهای متن کاوی، الگوریتمهای کاوش را روی برچسبهای نسبت داده شده به هر سند اعمال میکنند.
این برچسبها ممکنه کلمات کلیدی استخراج شده از سند یا فقط لیستی از کلمات در سند مورد نظر باشند. برای نشان دادن کمترین اهمیت یک کلمه در یک سند معمولا از نمایش بردار استفاده میشود، برای هر کلمه یک مقدار اهمیت عددی ذخیره میگردد. روشهای اصلی و مهم موجود که بر اساس این ایده هستند عبارتند از: مدل فضای بردار، مدل احتمالی و مدل منطقی. چون برخی از روشهای متن کاوی که بیان میشوند از مدل فضای برداری استفاده میکنند این روش را مختصرا توضیح میدهیم.
1.2 فضای بردار
این مدل قادر به آنالیز کارآمد مجموعه بزرگی از سندهاست. این روش در ابتدا برای بازیابی اطلاعات و ایندکس کردن معرفی شده بود اما همکنون در برخی از روشهای متن کاوی نیز از آن استفاده میشود. در این مدل اسناد و query به عنوان بردارهایی در فضای m بعدی نمایش داده میشوند. که در این فضا هر بعد یک ترم است. منظور از ترم یک مفهوم پایه مثل کلمه یا عبارت است. عناصر بردار با وزن ترم متناظرند. سند d به صورت d = - x1, x2,……xn - نمایش داده میشود که هر xi اهمیت ترم i را توی سند d نشان میدهد. در اینجا شباهت را بر اساس فاصله بین بردارها - سند با سند یا سند با - query تعیین میکنیم