بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
پیش بینی بازار سهام با استفاده از وب کاوی

چکیده

تحقیقات انجام گرفته در این مقاله، به منظور بررسی عوامل مؤثر داده کاوی در رسانه های اجتماعی از چهار مـدل دادهکـاوی شـامل (الگوریتم نایو بیز ، درخت تصمیم گیری، K-NN و (Rule induction استفاده شده است. با بررسی عملکرد مدلها، درحـوزه داده کاوی به منظور دستیابی برای اظهارنظرهای عمومی کاربران از رسانه های اجتماعی فیس بوک و استوک توئیت و توئیتر کـه در مـورد 15 سهام از شرکتهای انتخابی که به صورت تصادفی از سایت استوک توئیت در رسانههای اجتماعی را مورد تحلیل قرار گرفته اسـت، تا ارتباط آنها با مقایسه دقت مجموع از هر چهار مدل از سهام ها را مشخص کند که برای این کار از دو روش انجام گرفته شـده اسـت. جهت شناسایی نیتها از بیان اظهار نظرهای کاربران در رسانه های اجتماعی که در دو مرحله می باشد صورت گرفته است. در مرحلـه اول خنثی یا مثبت بودن اظهارنظر هر توئیت از کاربر را تشخیص میدهد و در مرحله دوم مثبت یا منفـی بـودن آن را شناسـایی مـی کند که نتایج آزمایشات انجام گرفته شده مشخص می کند که مدل نایو بیز با بهترین درصد طبقهبندی بـه دسـت آمـده بـرای اظهـار نظرهای کاربران هستند.

واژگان کلیدی: الگوریتم نایو بیز (NB)، الگوریتم درخت تصـمیم گیـری (DT)، الگـوریتم K-NN، الگـوریتم Rule induction، بانـک اطلاعـاتی از Stockwits و Twitter و .Facebook

 


مقدمه

از زمان معرفی رسانههای اجتماعی، شرکتها به طور فزاینده ای در حال پذیرش رسانههای اجتماعی، با بکارگیری توئیتر جهت دسترسی به مشتریان فیس بوک به منظور نشان دادن ویژگیهای محصول هستند. رسانه اجتماعی به طور گسترده به عنوان یک ابزار بازاریابی و رابطه عمومی توسط شرکتها مورد استفاده قرار میگیرد.

به طور کلی، فعالیت یک کاربر عبارت است از: تألیف محتوا، بازدید و شبکهبندی در وب کاوی می باشد.[3] در بسیاری از پژوهشهای مشابه که راجع به پیشبینی بازار سهام اجراشدهاند، UGCاساساً از انجمنهای اینترنت که کاربران به شرط بندی و پیشبینیهای بازار در مورد پیآمدهای رویدادهای آتی قادر می سازند، نشأت میگیرد [4]،[6]،[8]در این مورد، انجمن اینترنتی اساساً به عنوان یک محل وقوع برای کاربران جهت تألیف محتوا عمل میکند. شرکتکنندهها عبارتاند از: کاربران فعال که به طور مداوم مشغول پیش بینی بازار سهام هستند، برخی دقیقتر از سایرین پیش بینی میکنند، و کاربران هرزنامه که تصادفی حدس میزنند. دادههای ناشی از انجمن ها با آرا مثبت یا منفی شکل میگیرند. با این حال، کیفیت آرا نمیتواند به دلیل فقدان اطلاعات نمایه کاربر قابل اطمینان در انجمنها پیگیری شود. هدف اصلی این پروژه ،مقایسه الگوریتمهای مختلف داده کاوی از طریق مقایسه دقت الگوریتمها، جهت انتخاب دقیقترین مدل برای پیش بینی تغییرات قیمت سهام است به عبارت دیگر هدف این پژوهش مقایسهی روشهای دادهکاوی در تحلیل آن دسته از احساسات اظهارنظرهای کاربران است. به این دلیل که اگرچه هر توئیت، که یک ارسال صورت گرفته در تارنماهای وبنوشت نویسی باشد، به 120 نویسه محدود میشود، هزاران میلیون توئیت وجود دارند که هر روز توسط صدها میلیون کاربر ایجاد میشوند. با ابزارهای شناسایی احساسات مختلف در دسترس، اکتشاف دانش از UGCنسبتاً بی ساخت در تارنماهای وب نوشت نویسی خرد مانند توئیتر عملی میشود. مدل نایو بیز دستگاهها را قادر میسازد تا روند شناسایی احساسات را به صورت خودکار درآورند و در نتیجه از فرصتهای معامله سریعتر از همتاهای انسانی با نظارت مکرر احساسات عمومی و پیشبینی نوسانات قیمت در نمونه پیشبینی بازار سهام بهرهمند شوند. دادههای مورد استفاده در این پژوهش توئیت ها جمعآوری شده از سایت stocktwits.com هستند.

در بخش 2، برخی از نظریههای دادوستد به عنوان یک مبنای نظری از چرایی اینکه دادهها به گونهای دستکاری خواهند شد که در تعیین رابطه بین احساسات عمومی و تغییر بازار سهام منطقی به نظر میرسد، معرفی خواهند گشت. این امر یک مقدمه مختصر از فرضیه بازار کارآمد، انواع دادوستد سهام، یک فهرست از اصطلاحات سهام که احساسات سوداگران را نسبت به نوسانات سهام نمایان میسازد و فعالیتهای شبکهبندی بر خط معامله گران را در بر میگیرد.

در بخش 3، مرور جامع پیشینه تحقیق فعلی و سایر منابع به طور قابلتوجهی به پژوهشهای آینده کمک خواهند کرد. موضوعات و روششناسیها کشفشده از پیشینه تحقیق مورد رسیدگی قرار میگیرند.

بخش 4، روششناسی و طرح آزمایش تحقیق را تشریح می نماید. آزمایشها به طور گسترده با یک رویکرد گام به گام اجرا میگردند. آزمایشهای مقایسهای باهر مرحله مجزا اجرا میشوند و از لحاظ تجربی و بهترین اجرای راه حل محلی به مرحله بعد منتقل میگردد. به طور کلی، معماری پژوهش اساساً تشکیل شده از دو بخش است: یک روش پردازش زبان طبیعی و یک روش تحلیل آماری و روشهای چندگانه در شناسایی احساسات در این فصل مطرح می شوند که از چهار مدل داده کاوی مختلف که در تحلیل بکار برده میشوند در این فصل معرفی میگردند. این فصل اصول و قاعدههای رویکرد پردازش زبان طبیعی را ارائه مینماید و توصیفات الگوریتمی را به تفصیل شرح میدهد.

در بخش 5 یک ارائه از نتایج تحلیلها و یک مباحثه از یافتهها را شامل می شود و نتایج را جمعبندی نموده و برخی نظرات و پیشنهادها را برای پژوهشهای آینده تقدیم میدارد.

-2 انگیزه ی تحقیق

به طور معمول به تغییرات سیستم که اعمال مرتبط بـا هوش مصنوعی را انجام میدهد، اشاره دارد. این اعمال شامل: تشخیص، برنامهریزی، کنتـرل ربات، پیشبینی و غیـره میباشد. در یادگیری ماشین طراحی و توسعه الگوریتمهایی مورد توجه قرار میگیرد که به کامپیوترها اجازه میدهند تا با رفتارهایی درگیر شونـد کـه بر اساس دادههای تجربی همچون دادههای حسی و یا پایگاهدادهها میباشند. توجه اصلی تحقیقات یادگیری ماشین، روی یادگیری اتوماتیک برای تشخیص الگوهای پیچیده و تصمیمگیری بر اساس دادهها میباشد. در یادگیری ماشین دو مرحله وجود دارد: ابتدا یادگیری دانش از دادههای فعلی و سپس پیشبینی اینکه چه چیزی انجام دهد (برحسب دادههای جدید). یادگیری ماشین به طور موفقیتآمیز در بسیاری از زمینههای مختلف، همانند مهندسی نرمافزار، پزشکی، بیومتریک، بیوانفورماتیک و غیره استفاده شده است.

الگوریتمهای استفاده شده در یادگیری ماشین درختهای تصمیم، شبکههای عصبی، الگوریتم ژنتیک، یادگیری مفهومی، یادگیری تقویتی و الگوریتمهای مشتق از آنها هستند. همه این الگوریتمها ثابت شده است که در زمینه پیشبینی خطاهای نرمافزار نیز مفید هستند. [5]

1-2 الگوریتم های طبقه بندی

در مسئله طبقهبندی، یک متغیر هدف طبقهای (کلاس) وجود دارد. الگوریتم طبقهبندی، مجموعهای از رکوردهای بزرگ را که هر رکورد شامل اطلاعاتی از متغیر هدف است (مجموعه ورودی یا پیشگو)، بررسی میکند. الگوریتم از دادههای موجود (دادههای یادگیری) یاد میگیرد، سپس به رکوردهای جدید نگاه خواهد کرد که اطلاعاتی در مورد متغیر هدف دارد. بر اساس طبقهبندی انجام شده در مجموعه یادگیری، دسته یا طبقه را به رکورد جدید نسبت خواهد داد که در اصلاح گفته میشود با کلاس مورد نظر برچسبگذاری میکند.

1-1-2 روش طبقهبندی نایو بیز

طبقهبندیکننده نایو بیز تمامی مشخصههای مذکور را به صورت مجزا در هنگام طبقهبندی یک مورد جدید در نظر میگیرد و با فرض اینکه یک مشخصه به صورت مستقل از سایرین است، عمل مینماید. تئوری بیز یکی از روش های آماری برای طبقه بندی به شمار می آید . در این روش کلاس های مختلف ، هر کدام به شکل یک فرضیه دارای احتمال در نظر گرفته می شوند. هر رکورد آموزشی جدید ، احتمال درست بودن فرضیه های پیشین را افزایش و یا کاهش می دهد و در نهایت ، فرضیاتی که دارای بالاترین احتمال شوند ، به عنوان یک کلاس در نظر گرفته شده و برچسبی بر آنها زده می شود . این تکنیک با ترکیب تئوری بیز و رابطه سببی بین داده ها ، به طبقه بندی می پردازد.

این طبقهبندیکننده از یک روش ساده طبقهبندی استفاده مینماید که بر مبنای قانون بیس است و با فرمول زیر بیان میشود:

(1)

در رابطه بالا، نشاندهنده توئیت و نشاندهنده کلاس یا طبقه
توئیت است.
(2)

در فرمول بالا، x1,x2,…,xn مشخصههایی هستند که از مجموعه دادههای آموزشی استخراج شدهاند. کلمه CMAP نماینده محتملترین کلاس میباشد MAP) بیشینه استقرایی است.). طبقهبندیکننده نایو بیز سبب میشود که بتوان از تمامی مشخصههای موجود در دادهها استفاده نمود و آنها را به صورت مجزا به صورتیکه دارای اهمیت مساوی و مستقل از یکدیگر باشند، تحلیل نمود.

2-1-2 روش طبقه بندی کننده درخت تصمیم گیری

ساختار درخت تصمیم در یادگیری ماشین، یک مدل پیش بینی کننده می باشد که حقایق مشاهده شده در مورد یک پدیده را به استنتاج هایی در مورد مقدار هدف آن پدیده نقش می کند. تکنیک یادگیری ماشین برای استنتاج یک درخت تصمیم از داده ها، یادگیری درخت تصمیم نامیده می شود که یکی از رایج ترین روش های داده کاوی است.

هر گرهء داخلی متناظر یک متغیر و هر کمان به یک فرزند، نمایانگر یک مقدار ممکن برای آن متغیر است. یک گرهء برگ، با داشتن مقادیر متغیرها که با مسیری از ریشهء درخت تا آن گرهء برگ بازنمایی می شود، مقدار پیش بینی شدهء متغیر هدف را نشان می دهد..یک درخت تصمیم ساختاری را نشان می دهد که برگ ها نشان دهندهء دسته بندی و شاخه ها ترکیبات فصلی صفاتی که منتج به این دسته بندی ها را بازنمایی می کنند.

یادگیری یک درخت می تواند با تفکیک کردن یک مجموعهء منبع به زیرمجموعه هایی براساس یک تست مقدار صفت انجام شود. این فرآیند به شکل بازگشتی در هر زیرمجموعهء حاصل از تفکیک تکرار می شود. عمل بازگشت زمانی کامل می شود که تفکیک بیشتر سودمند نباشد یا بتوان یک دسته بندی را به همهء نمونه های موجود در زیرمجموعهء بدست آمده اعمال کرد.

درختان تصمیم قادر به تولید توصیفات قابل درک برای توئیت، از روابط موجود در یک مجموعهء داده ای هستند و می توانند برای وظایف دسته بندی و پیش بینی بکار روند. این تکنیک به شکل گسترده ای در زمینه های مختلف همچون شناسایی اظهارنظرهای کاربران در این مقاله بکار رفته است.

نرمافزار Rapid Miner یک نرمافزار منبع باز با الگوریتم C4,5 در ابزار دادهکاوی Rapid Miner است. درخت تصمیمگیری C4,5 با توجه به مجموعهای از دادههای آموزشی و با استفاده از مفهوم بینظمی اطلاعات تهیه شده است. اطلاعات آموزشی، مجموعهای به صورت T=t1,t2,…,tn از توئیتهایی است که از پیش طبقهبندی شدهاند. اطلاعات آموزشی با توجه به اجزای مجموعه C=c1,c2,…,cn تکمیل میشوند که نشاندهنده طبقهای هستند که هر توئیت به آن تعلق دارد. در هر یک از گرههای این درخت، C4,5 یکی از ویژگیهای دادهها را که سبب تفکیکشدن موثر داده به زیر مجموعههای غنیتر میشود را انتخاب مینماید. معیار این کار، دستیابی به اطلاعات نرمالشده (تفاوت در بینظمی) است که از انتخاب یک ویژگی برای تفکیک دادهها ناشی میشود. الگوریتم C4,5 سبب طبقهبندی بازگشتی میشود و این کار را تا زمانی که هر یک از شاخههای درخت اطلاعات خالص شوند، ادامه میدهد و سبب طبقهبندی خالص دادهها تا حد ممکن میشود. به عبارت دیگر، در میان مقادیر منتسب به یک کلمه مشخصه، اگر مقداری وجود داشته باشد که ابهامی در تخصیص آن وجود نداشته باشد و با توجه به مشخصه دادههای موردنظر در درون طبقهبندی دقیق خود قرار گیرند، آنگاه ایجاد شاخه موردنظر خاتمه مییابد. این فرآیند سبب اطمینان از دستیابی به دقت بیشینه برای دادههای آموزشی میشود ولی ممکن است سبب ایجاد قواعد اضافی شود که به متناسب با خواص ویژه و منحصر بفرد داده موردنظر باشند. هنگامی که این قواعد در مورد دادههای جدید مورد آزمایش قرار میگیرند، ممکن است از اثر بخشی مناسبی برخوردار نباشد .

3-1-2 روش طبقه بندی کننده(k-NN) K -nearest neighbor

در این روش، هنگام تلاش برای حل مسائل جدید، افراد معمولا به راهحل های مسائل مشابه که قبلا حل شدهاند مراجعه میکنند. K-nearest (k-NN) neighbor یک تکنیک دستهبندی است که از نسخهای از این متد استفاده میکند. در این مقاله، از روش تصمیمگیری برای اینکه یک توئیت جدید در کدام دسته از داده های آزمایشی قرار می گیرد و با بررسی تعدادی توئیت ها (T) از مشابه ترین توئیت ها انجام میشود. تعداد موارد برای هر رکورد مثبت و منفی و رکورد خنثی و مثبت شمرده میشوند، و مورد جدید به دستهای که تعداد بیشتری از توئیت های مشابه به آن تعلق دارند نسبت داده میشود.

شکل : (1 ) محدوده توئیت های شناسایی شده (بیشتر توئیت ها در دسته X قرار گرفته اند)

اولین مورد برای بکاربردن k-NN یافتن معیاری برای فاصله ی رکورد خنثی و مثبت و رکورد مثبت و منفی از بین صفات در دادهها و محاسبه آن است. در حالیکه این عمل برای دادههای عددی آسان است، متغیرهای دستهای نیاز به برخورد خاصی دارند. هنگامی که فاصله ی رکورد خنثی و مثبت با رکورد مثبت و منفی از بین مواد مختلف را توانستیم اندازه بگیریم، میتوانیم از مجموعه مواردی که قبلا دستهبندی شدهاند را بعنوان پایه دستهبندی موارد جدید استفاده کنیم، فاصله توئیت های رکورد خنثی و مثبت و رکورد مثبت و منفی را تعیین می کنیم که خود توئیت ها را چگونه شناسایی بکنیم.

فرمول الگوریتم : ( k-Nearest Neighbor) KNN

مجموعه توئیت های آموزشی با فرمول بالا به دست می آید TQ توئیت جدیدی است که قرار است مورد بررسی قرار گیرد. TF، term frequency یک عبارت در یک توئیت است که به عنوان داده های آموزشی پیش پردازش شده است و در مرحله آخر V مقدار توئیت شباهتی TQو Tiاست. به طوری که 2,…,n)،( i= 1 توئیت آموزشی باشد.

4-1-2 روش طبقه بندی کننده Rule induction

استنتاج قوانین متدی برای تولید مجموعهای از قوانین است که توئیت ها را دستهبندی میکند. اگرچه درختهای تصمیم میتوانند مجموعهای از قوانین را ایجاد کند، متدهای استنتاج قوانین مجموعهای از توئیت های مستقل را ایجاد میکند. که لزوما یک درخت را ایجاد نمیکنند. از آنجا که استنتاجگر قوانین اجباری به تقسیم در هر سطح از توئیت را ندارد، و میتواند به آینده بنگرد، قادر است الگوهای متفاوت و گاها بهتری برای ردهبندی بیابد. برخلاف درختان، قوانین ایجاد شده ممکن است همه موارد ممکن را نپوشاند. همچنی» برخلاف درختان، قوانین ممکن است در پیشبینی توئیت ها متعارض باشند، که در هر مورد باید توئیتی را برای دنبال کردن انتخاب کرد. یک روش برای حل این تعارضات انتصاب یک میزان اطمینان به هر توئیت است و استفاده از توئیتی است که میزان اطمینان بالاتری را دارد.

-3 راه کار پیشنهادی

در این بخش به معرفی راهکار پیشنهادی برای شناسایی احساسات اظهارنظرهای کاربران در رسانه های اجتماعی با توئیت های ارسالیشان در سایت توئیتر و استوک توئیت خواهیم پرداخت و راهکار پیشنهادی را روی یک نمونه واقعی بررسی میکنیم. در این پژوهش در حالت کلی از چهار الگوریتم اصلی برای مدلسازی فرآیند دقت مجموع شناسایی اظهارنظرهای کاربران استفاده خواهیم کرد. این الگوریتمها عبارتند از: الگوریتم نایو بیز، درخت تصمیم گیری((DT، K-NN، Rule induction که توضیح مختصر این الگوریتمها در فصلهای قبلی آمده است. لازم به ذکر است که رفتار هریک از الگوریتمهای ارائه شده در برخورد با دادههای ورودی متفاوت است و با توجه به این مورد خروجی هریک از الگوریتمهای فوق برای پیشبینی مدل متفاوت خواهد بود و در حالت کلی دقت هریک از الگوریتمهای معرفی شده برای مسئله شناسایی احساسات اظهارنظرهای کاربران متفاوت بوده و هدف اصلی پژوهش بررسی همین موارد است که در ادامه شرح کامل آورده شده است. لازم به ذکر است که برای مدلسازی از نرم افزار RapidMiner نگارش 5,3 استفاده شده است که یک نرمافزار تجاری برای دادهکاوی به شمار میرود و از جنبههای بصری برای مدلسازی طرح استفاده میکند. مزیت اصلی استفاده از این نرمافزار، جدید بودن آن و راحتی در استفاده است که باعث شده در سالهای اخیر استفاده از این نرمافزار نسبت به سایر نرمافزارهای مربوط به حوزه دادهکاوی بیشتر گردد و از بانک اطلاعاتی Excel 2007 جهت جمع آوری توئیت های مربوطه به کاربران عضو شده از سایت استوک توئیت است که از ویژگی های مربوطه به هر توئیت برای شناسایی احساسات اظهارنظرهای کاربران به عنوان داده در این نرم افزار ثبت شده است که با استفاده از نرم افزار RapidMiner با مدل های استفاده شده در این مقاله را به عنوان ورودی از ایکسل دریافت کرده و با مدل های استفاده شده مقایسه می کند.

1-3 جمع آوری دادهها

استوکتوئیتها: پستهای توئیتر از استوکتوئیت بر حسب کیفیت و ارتباط با موضوع بسیار خوب هستند. در تحقیقی که توسط رویز و سایرین در این زمینه انجام شده است، بیان شده است که جمعآوری اطلاعات مربوط به استوکتوئیتهای در رابطه با شرکتهایی نظیر یاهو و اپل از توئیتر مشکل است زیرا چنین نامها بارها برای اهدافی به غیر از مباحث مربوط به قیمت سهام به کار گرفته میشوند. برای مثال، نام یاهو در بسیاری از توئیت-های مرتبط با خدمات خبری تهیهشده توسط شرکت مشابه (اخبار یاهو) به کار میرود. در مورد دوم، نام اپل یک نام عمومی است و به طور گستردهای برای اهدافی نظیر اسپمینگ به کار میرود (برای مثال پست "شما یک گوشی آیپد برنده شدهاید.". اگرچه در این مورد توئیتهای کمتری در استوک-توئیت وجود دارند ولی کیفیت نسبتاً خوب این پستها سبب میشود که بتوان تمام آنها را در ارزیابیها به شمار آورد. توئیتهای مربوط به 16 سهام، که به طور تصادفی انتخاب شدهاند و به طور فعال توسط کاربران استوکتوئیت به صورت روزمره مورد بحث قرار گرفتهاند در دوره زمانی بین 2014/01/15 میلادی و سال 2014/03/15 میلادی بررسی شدهاند. این دوره زمانی دارای شرایط غیرعادی در بازار نبوده است و بستر خوبی برای ارزیابی به شمار میرود.


2-3 داده های ورودی

چهار الگوریتم طبقهکننده دارای خاصیت یادگیری ماشینی که روشهای نایو بیز، درخت تصمیمگیری،K-nearest neighbor، Rule induction (در نرمافزار (Rapid Miner v.5,3 هستند، در این تحقیق جهت شناسایی دقت مجموع نیت اظهارنظرهای کاربران از توئیت های به کار گرفته شده، که این فرآیند را به دو مرحله تقسیم میشود که عبارت از تمایز اظهارنظرهای (خنثی و مثبت) و (مثبت و منفی) هستند. فارغ از استفاده یونیگرامها و بایگرامها در این تحلیلها از شناسایی علائم در جملات و طول متن نیز به کار رفته است.

مدلهایی در این زمینه با استفاده از 2000 پست توئیتر ایجاد و مورد اعتبارسنجی قرار گرفتند و سپس در مورد 450 توئیت تست شدند. اطلاعات پیش از بهکارگیری الگوریتمهای یادگیری ماشینی تهیه شدند تا مدلها بر اساس آنها تعلیم داده شوند. فرآیند توکنیزیشن، فرآیندی برای


شکستن متون و تقسیم آنها به کلمات، عبارات، نمادها یا سایر اجزای معنادار است که به آنها نشانه گفته میشود و در مورد مجموعه دادهها به کار رفته است. لیستی از این نشانهها به عنوان داده ورودی برای پردازش بیشتر انتخاب شده است.

3-3 لیست شرکت های انتخابی از سایت استوک توئیت

استوکتوئیتها، همانطور که پیش از این اشاره شد، به عنوان منبع توئیتها جهت بررسی و تحلیل مورد استفاده قرار گرفتهاند. محتوای استوک-توئیتها تنها بر سرمایهگذاری تمرکز دارد و تکنولوژی و کارکنان آنها پیامهای نامرتبط را فیلتر و اسپم مینمایند تا از مرتبط بدون محتوا با بحثهای مالی بهویژه بحث بازارهای سهام و سرمایه اطمینان یابند. باور بر این است که کاربران در استوکتوئیتها دارای انگیزههای حقیقی به منظور ایجاد توئیتهای با کیفیت بالا جهت افزایش شبکه تعقیبکنندگان خود هستند. استوکتوئیتها یک برچسب با عنوان $TICKER را به منظور فعالسازی و سازماندهی جریانهای اطلاعات درمورد بازارهای سهام و سرمایه در میان شبکه وب و شبکههای اجتماعی نظیر توئیتر ایجاد نمودهاند و سبب شدهاند که کاربران از طریق اکانت استوکتوئیت به توئیتر متصل شوند. هر توئیت یا پست در شبکه اجتماعی توئیتر یک دسته متنی به شمار میرود که تعداد کاراکترهای آن محدود به 120 عدد است. هر کاربر دارای تعداد مشخصی از تعقیبکنندگان است و تعداد مشخصی از کاربران را تعقیب مینماید و به این وسیله میتواند نظریات خود را به صورت همزمان در اختیار سایرین قرار دهد و نظریات سایرین را دریافت نماید.

4-3 ویژگی داده ها

به طور کلی، فضای استاندارد مشخصهها از طریق یک ویژگی باینری به ازای هر کلمه مشخص (یونیگرام) یا به ازای یک جفت کلم مشخص (بایاگرام) در یک بانک اطلاعاتی ایجاد میشود، بهگونهای که اگر آن کلمه یا جفت کلمات در یک متن موجود باشند، مشخصه متناظر با آنها دارای مقدار عددی 1 میشود و در غیر اینصورت مقدار 0 میگیرد. توئیتهای مربوط به این سهامها در یک دوره دو ماهه جمعآوری شدهاند و به همراه آنها اطلاعاتی در مورد نام کاربری، تاریخ، زمان انتشار اطلاعات و نیز منبع پیام و سایر اطلاعات نشاندهنده پروفایل انتشاردهنده آنها آمده است. لیست کاملی از ویژگیهای اولیه جمعآوریشده را میتوانید در جدول (2) مشاهده نمائید. سایر ویژگیها از این لیست استخراج شدهاند.


جدول : (2) لیستی از ویژگیهای لازم جهت گردآوری


جدول (3) نشاندهنده 50 مشخصه اصلی در تمایز اظهارنظرهای خنثی و منفی بر طبق روش ارزیابی مربعی چی (روش چیاسکوئر) میباشد. مشخص شده است که علائم موجود در متون دارای قدرت بسیار بالایی در تعیین خنثی یا جهتداربودن اظهارنظر هستند و علامت سوال یکی از ویژگیهای خاص در این زمینه است. همچنین ویژگی وجود یک لینک خارجی در این تحلیل مورد نظر قرار گرفته است و مشخص شده است که معیار قدرتمندی میباشد. سایر یونیگرامها نظیر "کوتاه"، "بلند"، "قراردادن برای فروش"، "تقاضای خرید"، و بایگرامهیی نظیر "سهام کوتاهمدت"، "تقاضاهای سهام"، "فروش "BOL نیز از نشانگرهای قدرتمند در این زمینه هستند. طول متن نیز معیار خوبی در این زمینه است.

جدول (4) نشاندهنده 50 ویژگی اصلی تمایز اظهارنظرهای مثبت و منفی با توجه به روش ارزیابی مربعی چی است. علائم جملات از این ویژگیها مستثنی شدهاند زیرا در حقیقت سبب کاهش دقت آزمونها میشوند. همانطور که انتظار میرود، یونیگرامها و بایگرامهایی نظیر تقاضای فروش و تقاضای خرید و سهام کوتاهمدت و بلندمدت و خوشبینی نسبت به یک سهام و عدم وجود توازن در گزارش سهام یک شرکت و غیره در بین مشخصه-های برتر در این لیست قرار دارند. به نظر نمیرسد که طول اظهارنظر یک ویژگی مهم در این زمینه به شمار رود. همچنین لازم به ذکر است که بسیاری از نامهای انواع سهام از جمله پیشگوهای مناسب در این زمینه هستند. دلیل این امر ممکن است بسیار پیچیده باشد. برای مثال نام سهام شرکت گوگل یا " " Google ممکن است به طور مکرر به همراه سایر نامهای سهام برای مقایسه تکرار شود زیرا این سهم همواره از سهمهای مورد مقایسه با سایرین در سالهای گذشته بوده است.

1-4-3 برچسبگذاری توئیت های جمع آوری شده در پستهای سایت توئیتر

تعداد مجموع 450 پست مربوط به 15 سهام مورد مطالعه به صورت دستی و یک رویه آزمایشی برچسب گذاری شدند. این اظهارنظرها در رکورد اول برای شناسایی به صورت مثبت (1) و منفی (0) مورد استفاده قرار می گیرد و برای شناسایی اظهارنظرها در رکورد دوم به صورت خنثی (1) و مثبت (0) برچسبگذاری شدند. سپس اطلاعات برچسبگذاریشده به صورت تصادفی به منظور ایجاد یک مجموعه داده جهت آموزش و یادگیری و یک مجموعه داده جهت آزمون که به ترتیب دارای تعداد 238 عدد برای رکورد اول (مثبت و منفی) و تعداد عدد 212 برای رکورد دوم (خنثی و مثبت) اظهارنظر بودند، شناسایی شدند.

از جمله قوانین کلی کاربردی در برچسب گذاری داده ها عبارتند از:

· برچسبهای مثبت یا منفی تنها هنگامی به یک پست تعلق میگیرند که اظهارنظر دارای جهتگیری خاص به طور مشخص از پست قابل برداشت باشد.

· توئیتهایی با علامت سوال به طور عمومی به صورت خنثی شناخته میشوند.

در مورد برخی از توئیتها، مشخصکردن جهتگیری برای اظهارنظر توئیت ها مشکل است. در صورت وجود ابهام این پستها به صورت خنثی برچسبگذاری شدند. جدول (5) نشاندهنده برخی از توئیتها و برچسبهای آنان و همچنین دلایل نحوه برچسبگذاری آنها میباشد که در این


لا


مقاله با استفاده از نرم افزار ایکسل 2007 با استفاده از داده های جمع آوری شده ای که موجود می باشد دلایل برچسب گذاری هر توئیت، که در کل شامل 450 توئیت جمع آوری شده از سایت استوک توئیت می باشد را با استفاده از اعداد باینری 0 و 1 در این نرم افزار را با استفاده از 50 ویژگی مثبت و منفی و 50 ویژگی خنثی و مثبت برچسب گذاری شده می باشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید