بخشی از مقاله
نظر کاوی: مروری بر کارهای انجام شده
چکیده
نظر کاوی یکی از چالش برانگیزترین زمینه های تحقیقاتی در استخراج اطلاعات است. انجمن های تحقیقاتی تعداد زیادی مقاله در این زمنیه را به چاپ رسانده اند، اما در دهه اخیر و بخصوص پس از آغاز به کار چندین شبکه اجتماعی، علایق به این سمت بسیار افزایش یافته است. در این مقاله سعی خواهیم کرد مروری با جزئیات کافی در زمینه نظر کاوی ارائه دهیم. مشخصه هایی که در ادامه از این مقاله ارائه می گردد، آنرا نسبت به سایر نمونه های مشابه متمایز می سازد: (۱) در این مقاله نگاهی با مقیاسهای متفاوت به مساله خواهیم داشت (مثلا در سطح کلمه، جمله و سند). (۲) کارهای مرتبط انجام شده در زمینه نظر کاوی و چالش های مطرح در هرکدامو ابزارهای مورد استفاده بررسی می گردند (۳) در مباحث ارائه شده کارهای انجام شده در نظر کاوی در سطح سند، بینش خوبی را در این زمینه برای انجام فرآیند نظر کاوی در بلاگها، بعنوان یکی از محبوبترین شبکه های اجتماعی ارائه می کند و همچنین () اهمیت شبکه های اجتماعی را در فرآیند نظر کاوی و سایر فرآیندهای زیرمجموعه مشخص می کند.
۱ - مقدمه
به فرآیند استخراج نظرها از داخل اسناد متنی نظر کاوی (2007 Lui) گفته می شود. همچنین از آن در نوشتجات A> (Pang and lee 2008( مختلف با عناوین دیگری از جمله تحلیل احساس یا آنالیز مقصود، تحلیل ذهنیت نظر نام برده شده است. در نهایت اگر به عبارات نظر کاوی، تحلیل احساس و تحلیل ذهنیت به دقت نگاه کنیم خواهیم دید که تمامی آنها در یک زمینه مطالعاتی قرار دارند. عبارت آنالیز مقصود در مقالاتی مثل ;2003 Nasukawa and Yi) ("2003 Yi با کارکرد دسته بندی کردن متون به کلاس های مثبت و منفی ارائه شده است. اما امروزه این عبارت در زمینه های گسترده تری استفاده می شود.(1990)Wiebe" ذهنیت یا فردیت را بعنوان تابعی از وضعیت های خصوصی تعریف کرد.نظرها، ارزیابی ها، احساسات و طرز تفکر همگی در این دسته قرار می گیرند (Pang and lee 2008). فرآیند تحلیل این نظرات و احساسات، آنالیز ذهنیت یا فردیت گفته می شود که هدف آن تشخیص زبان نظر گرا نسبت به زبان علمی و حقیقی است. سایر عبارات استفاده شده در این زمینه عبارت از: کشف نظر، کشف احساسی، کشف تمایلات، استخراج تمایل و غیره می باشد
مسئله نظر کاوی
عبارت نظر کاوی در مقاله ای توسط Dave" و همکارانش بعنوان ابزاری برای پردازش مجموعه نتایج جستجو برای یک قلم داده ای خواسته شده، تولید یک لیست از مشخصه های یک محصول تجاری (کیفیت، مشخصه و غیره) و جمع بندی نظرات است. هرچند که با گذشت زمان، کاربردهای جالب توجه تری از آن ایجاد گردید و هم اکنون هدف اصلی آن ایسنت که بتوان قدرتی به کامپیوتر داد که همانند انسان رفتار انسان گونه و احساسی داشته باشد و بتواند آن را تشخیص دهد. فرآیند نظر کاوی باید بتوند درک و برداشت انسان را از متن ساده و بدون ساختار استخراج کند (2009 Khan)، هدف فرآیند نظر کاوی استخراج ادراک و احساسات انسان از نوشتجات اوست (2009 khan"). این مسئله از ترکیب دو مسئله استخراج اطلاعات و مسئله پردازش زبان طبیعی تشکیل یافته است. هدف اصلی آن استخراج عبارات نظری، احساسی و هیجانی از یک متن بدون ساختار است.
سال ۲۰۰۱ آغاز گسترش تحقیقات بر روی مسئله نظر کاوی بود که نتیجه آن انتشار صدها مقاله در این موضوع بوده است. محبوبیت یادگیری ماشین، در دسترس بودن حجم عظیم نظرات در شبکه های اجتماعی (مثل وبلاگ ها، تویت ها، فروم های محصولات تولیدی شرکت ها و غیره) و گسترش نیاز به اطلاعات، مهمترین عوامل در انتقال از سیستم های استخراج اطلاعات تک منظوره به استخراج نظرات می باشد (2008 Pang and Lee)، روشهای استخراج اطلاعات سنتی بر روی استخراج اطلاعات واقعی و حقیقی متمرکز است، درحالیکه هدف استخراج نظرات، بازیابی نظرهایی در مورد یک کوئری مورد نظر می باشد. در ادامه بطور خلاصه تفاوت های اصلی این دو فرآیند را شرح می دهیم.
۱ - ۲ - تحلیل منابع زبانی
برای فرآیند استخراج نظر، لازم است که عبارات زبانی شناخته شوند و همچنین بتوان از متن بینش لازم را بدست آورد. دسته بندی عبارات در یک متن به مثبت یا منفی و نظری یا حقیقی کاراصلی در مسئله نظر کاوی است. عبارات طبق قواعد نحوی شناسایی می شوند. بر طبق نظر (2006) Livia Polanyi and Annie Zaenen" آشکارترین سرنخ درباره شناخت متن، انتخاب کلمات توسط نویسنده آن است، هرچند سازمان و ساختار ارتباطی این کلمات و قالب آنها نیز موثر است. بخش مهم دیگر کار، تشخیص نظری بودن است. نظری بودن برای ارائه حالات شخصی در متن یا مکالمه استفاده می شود. حالت خصوصی، یک عبارت عمومی برای ارائه مفهوم نظر، برآورد، باور، ادراک، احساس و -cyl-(Nitin Jindal and Bing Liu (2006) c. 31 JL حقیقی“ دارای اطلاعاتی از دانسته های نویسنده آن Jaehui Park (2008).J.A در کارهایشان جملات حقیقی را به اطلاعات خلاصه و اضافی” گروه بندی کردند. که در آن خلاصه، ایده و جزئیات مسئله را توضیح می دهد و اطلاعات اضافی حقایقی هستند که در جزئیات مسئله ظاهر نمی شوند. (2008) Ahmed Abbas" و همکارانش یک تکسونومی و رده بندی بسیار خوب درباره جنبه های زبانی نظر کاوی ارائه کرده اند. آنها مسئله زبانی نظر کاوی را بعنوان دسته بندی، مشخصه ها، تکنیکها و دامنه ها گروه بندی کرده اند. (2008) Changli Zhang" و همکارانش نیز در کارهایشان از عبارت کیف کلمات و تعابیر سنجش و برآورد
استفاده کردند و نتایجی با دقت ۵۷۹.۰٪ با BOW و ۲۹. ۵۸۰٪ با ترکیب BOW و تعابیر برآورد بدست آوردند. XiaOwen Ding and Bing Liu" نیز با آزمایشاتی که انجام دادند نشان دادند که قوانین متنی می توانند باعث بهبود Recall بدون از دست دادن زیاد در Precision شوند.(2004) Minqing Hu and Bing Liu" از یک پردازشگر زبانی(NL برای تجزیه کردن هر متن برای تقسیم کردن متن به جملاتی و سپس تولید برچسب هایی برای هر کلمه مثل اسم، فعل و صفت و غیره استفاده کردند.
۱ - ۳ - تشخیص مشخصه های متن و گرایش آنها
تشخیص ساختار متن به سه شکل امکان پذیر است، کلمه، جمله وسند. مطلالعات انجام گرفته بر روی مسئله نظر کاوی تکنیکها و ایده های متفاوتی را برای استخراج عبارات نظری از متن ارائه کرده است. طبق قواعد زبانی، کلمات به گروه های اسامی، افعال، صفتها و قیود تقسیم بندی می شوند و به تبع آن اکثر کارهای انجام شده از روشهای بخش گفتار، حذف کلمات پایانی ، تطابق الگوی فازی ، ریشه یابین الگوی عبارات نشانه گذاری برچسب گذاری گرایش از گروه های برآورد، گرایش معنایی با الگوهای مبتنی بر اتصال" نقل قول در اسنادا و معیارهای ادبی برای استخراج احساسات در متن استفاده کرده اند
صفات، اسامی، افعال و قیود
در حالیکه نویسنگان متون در جملات مقایسه ای، جنبه های مختلف موضوع را مورد بحث قرار می دهند، مطالعات انجام گرفته بر روی دسته بندی متون عموما بر روی صفات و قیود جهت تشخیص گرایش آن استفاده می >ܚܶܝܶܢ'''܂ آنها با آزمایشاتی که برای استخراج نظرات با استفاده از صفات انجام دادند، دقتی برابر ۱.۲ ۵٪ برای precision و ۹۹.۳٪ Farah Benamara .*---- " بدست آوردند. رایج ترین ابزار استفاده شده برای تشخیص صفات وردنت Fecall برای (2009)" و همکارانش نشان دادند که استفاده توامان از صفات و قیود عملکرد بهتری از استفاده از صفات به تنهایی دارد. در اکثر کارهایی که امروزه در این زمنيه انجام می شود، تمرکز اصلی بر روی برخی کلمات است که گرایش نظری جمله را نشان می دهند. برای مثال کلمه خوب برای نمایش احساس مثبت و کلمه بد برای نمایش احساس منفی بکار می رود. این کلمات نظری در عبارات زبانی بعنوان صفات شماخته می شوند. تشخیص افعال نیز در یافتن رابطه بین عبارات نظری و حقیقینقش مهمی بر عهده دارد. (1999) Claire Nedellec" یک سیستم یادگیر ماشین بنام ASIUM ارائه کرد که می تواند رابطه تاکسونومی و گروه افعال را بر طبق قواعد نحوی ورودی آن بدست آورد. در نهایت طبق نظریه )2002( Turney' صفات، اسامی، افعال و قیود مشخصه های گرامری هستند که می توانند در شناخت گرایش متون موثر و کمک کننده باشند.
۱ - ۵ - گرایش معنایی متن
دسته بندی عبارات نظری مطابق معنی ضمنی آن، گرایش نظری نامیده می شود. اگرچه تحلیل لغوی در متون نقش اساسی در دسته بندی آن ایفا می کند، اما برای استخراج مفهوم آن از ترکیب قواعد ترکیب و نحو کافی نیست. L. Cai (2003) and T. Hofmann "معیارهای اطلاعاتی -نظری و دانش معنایی را ترکیب کردند و از وردنت برای استخراج مفهوم از متن بصورت اتومات استفاده کردند. شناخت عبارات چند کلمه ای، مترادف ها و درک معانی مختلف یککلمه با استفاده از تحلیل معنایی قابل انجام است.
آموزش مبتنی بر آنتولوژی
آموزش بر اساس آنتولوژی زمینه رو به رشدی در مطالعات نظر کاوی است. آنتولوژی دامنه دانش کلمات را به عباراتی تبدیل می کند و در درک و استخراج مفهوم واقعی کلمات در متون موثر است. شناخت رابطه بین کلمات در متن می تواند به درک مفهوم آن کمک شایانی کند. آنتولوژی می تواند بعنوان یک سیستم نمایش دانش در این زمینه مفید واقع شود. آنتولوژی دارای سه بخش اصلی است که شامل کلاسها (یا مفاهیم یا موضوعات)، نمونه ها (که افراد و آیتم های منتسب به کلاسها هستند) و مشخصات (که کلاس ها و نمونه ها را بهم ارتباط داده و امکان ورود اطلاعات متناسب با آن چیزی که در دنیا اتفاق می افتد را می دهد"). کلاسترینگ مبتنی بر آنتولوژی، سلسله مراتب مفاهیم و لغوی را باهم ترکیب می کند تا نتایج بهتری را هم در کلاسترینگ بدون نظارت و هم کلاسترینگ با نظارت بدست آورد. Wen (2008) Zhang" و همکارانش بر روی دسته بندی متون چند کلمه ای با کمک آنتولوژی کار کردند.(2003) Hotho" و همکارانش نیز با ترکیب هسته های آنتولوژی هایی بعنوان دانش پیش زمینه از آن برای کلاسترینگ اسناد استفاده کردند.
یادگیری ماشین و دسته بندی متون
دو روش عمده برای دسته بندی متون موجود می باشد". روش مبتنی بر دانش و روش یادگیر ماشین با نظارت در روش مبتنی بر دانش، از فرهنگ لغات نظری برای جستجوی کلمه ورودی و تاثیر آن استفاده می شود، در حالیکه در روش یادگیر ماشین، یک طبقه بند آماری برای دسته بندی نظرات آموزش داده می شود. سپس طبقه بند آموزش داده شده، گرایش نظری اسناد ورودی را پیش بینی می کند. در هر دوی این روشها بر تاثیر عبارات احساسی و نفسانی تکیه می شود، هرچند که روش استفاده آن متفاوت است.
مدل های یادگیر ماشین رایج
در گذشته الگوریتم های دسته بندی با نظارت متفاوتی برای عمل دسته بندی مورد استفاده قرار گرفته است. رایج ترین این متدها شامل: ماشین بردار پایه و طبقه بند بیضین ساده" هستند. در حالیکه متدهای دیگری مثل آنتروپی بیشینه ، درخت تصمیم ، شبکه عصبی تخصیص انتگرال دیریکله" و تحلیل احتمال معنایی نیز برای این منظور استفاده شده اند. در جدول ۱، ۳۳۹ مقاله که از الگوریتم های یادگیر ماشین برای این منظور استفاده کرده اند را بطور تصادفی انتخاب کرده و تکنیک مورد استفاده آنها را نشان داده ایم. مشاهده می شود که در حالیکه از روش بیضین ساده به دفعات و بطور ثابت استفاده شده است، اما استفاده از گراف رور به رشد بوده است.
۲- استخراج اطلاعات حقیقی در مقابل استخراج نظرات
اجازه دهید برای درک بهتر تفاوتهای بین استخراج اطلاعات سنتی و استخراج نظر، ابتدا خود عبارت نظر را بررسی کنیم. (2004) Bethard" و همکارانش نظر را بعنوان یک جمله یا قسمتی از یک جمله که این سوال را جواب می دهد تعریف کردند: ?HOW doeS X feel about Y. این تعریف نشان می دهد که نظرات خصوصی و مبتنی بر ذهن هستند (یعنی اگر از یک نفر سوالی پرسیده شود ممکن است جوابی متفاوت با شخصی دیگر بدهد). برای مثال بسیاری از افراد با این جمله موافق هستند: این رنگ برای تو زیادی روشن است که از طرف شخص X به شخص Y که تیره پوشیده است گفته می شود، درحالیکه افراد دیگری نیز وجود دارند که با آن موافق نیستند. این به آن دلیل است که استانداردی برای رنگ برای افراد تعریف نشده است. این یعنی اینکه نظرات متمایز با حقایق هستند، چراکه حقایق (مثلا ۱ جولایی روز جشن ملی در فرانسه) برای تمام افراد درست است درحالیکه نظرات ممکن از فردی به فرد دیگر تغییر کند.
ابزارهای مهم جستجوی اطلاعات در وب موتورهای جستجو مثل گوگل، یاهو و امثال آن هستند، اما آنها بجای Pang and Lee (Liu 2008) J.As نظرات بر روی اطلاعات حقیقی و موضوعی در وب جستجو انجام ای (2008)متون نظریه ای را از متون کلاسیک موضوعی متمایز کردند. مطابق نظر آنها، دسته بندی متون بشکل کلاسیک، دسته بندی اسناد با موضوع آنهاست. با این روش برای دسته بندی متون، هم می توان تنها دو دسته از متون ایجاد کرد (مثل مرتبط و غیر مرتبط) و هم می توان صدها دسته تولید کرد (طبقه بندی متناسب با تاکسونومی یا علم رده بندی). اما در دسته بندی نظرات معمولا تعداد کمی دسته وجود خواهد داشت (مثل مثبت، منفی یا خنثی و غیره). علاوه براین در زمانیکه با دسته بندی مبتنی بر موضوع سروکار داشته باشیم، دسته های متفاوت می توانند با یکدیگر نامرتبط باشند درحالیکه در دسته بندی نظر گرا اینطور نیست و دسته ها همیشه مقداری مرتبط بهم هستند (خواه آنها متضاد هم باشند یا مقداری رابطه درونی داشته باشند).
در این مقاله کارهایی که در زمینه نظرکاوی انجام شده را به روشی منحصربفرد مرور می کنیم که می تواند برای محققین بسیار مفید باشد. علاوه براین در این مقاله مهمترین چالش های این زمینه را بررسی کرده و روشهای مختلف ارائه شده برای مقابله با آنها را شرح می دهیم.
۳- نظر کاوی مبتنی بر کلمه، جمله یا سند
در حالیکه بررسی های انجام شده توسط (2009) Tang" و همکارانشو (2006) ESuliand Sebastiani" و Pang and (2008) Lee بر روی شکل کارکرد الگوریتم ها و نوع حل مسئله متمرکز شده اند، ما در این قسمت نظر کاوی را براساس تمرکز بر کلمه، جمله/پاراگراف و سند بررسی می کنیم. در این قسمت ما فرآیند نظر کاوی را در گامهایی مجزا و روش های هر گام را بطور مفصل در چند بخش بررسی می کنیم. این نوع سازماندهی برای محققین بسیار مفید است چراکه می توانند در هر مرحله جزئیات مرتبط با تفکیک نظرات با سطوح مختلف را تفکیک و بررسی کنند.
فرآیند کشف نظرها
فرآیند کشف و جستجوی نظرات را می توان در عمده گام های زیر طبقه بندی کرد:
۱- بازیابی مجموعه اسناد مرتبط با موضوع مورد نظر (برای بازیابی اسناد مرتبط) ۲
- محاسبه گرایش در سطح کلمه (تعیین اینکه کلمه مثبت است یا منفی) و قدرت گرایش (تعیین میزان قدرت مثبت یا منفی بودن یک کلمه)
۳- ترکیب مقادیر امتیازهای بدست آمده در سطح کلمه و محاسبه قدرت یا گرایش در سطح جمله (یا پاراگراف) ؛
4 - ترکیب مقادیر امتیازهای بدست آمده در سطح جمله و محاسبه قدرت یا گرایش در سطح سند
۵- ترکیب امتیازهای نظرات و ارتباط آنها در سند و محاسبه امتیاز نهایی آن.
هرکدام از مراحل که در بالا ذکر گردید، جای کار تحقیقاتی بسیاری دارند. ما سعی می کنیم در این مقاله با بررسی تکنیک های ارائه شده در سایر مقالات بر روی هر بخش مروری داشته باشیم.
پردازش در سطح کلمه
Esuli and Sebastiani) پردازش در سطح کلمه را در نوشتجات آنالیز مقصود می توان در سه دسته زیر خلاصه نمود
:(2006
• تعیین نظری بودن کلمه در سند (یعنی اینکه آیا کلمه نظری است یا عملی) • تعیین گرایش یا پلاریتی کلمه (اینکه آیا کلمه نظر مثبت است یا نظر منفی)
• تعیین قدرت و درجه گرایش (یک کلمه چقدر مثبت یا منفی است)
در بیشتر روشهای ارائه شده در نوشتجات مختلف، تفاوت زیادی بین این دسته ها قائل نشده اند، چراکه این دسته ها دارای ارتباطات داخلی هستند. برای مثال در روشی که هدفش تعیین درجه گرایش کلمه است، ممکن است کارش را با تعیین نظری یا واقعی بودن کلمه شروع کند. بطور مشابه روشی که بدنبال گرایش احساسات در کلمه است، ممکن است از درجه های گرایش برای تعیین گرایش آنها استفاده کند. بنابراین در این قسمت روشهایی که بر روی هرکدام از این دسته ها متمرکز شده اند را بررسی می کنیم. بطور کلی دو روش کلی برای تعیین گرایش کلمه ارائه شده است)Andreevskaia and Bergler 2006b"(: ابتدا، روشهای مبتنی بر متن و دوم روشهای مبتنی بر فرهنگ لغت.
روشهای مبتنی بر متن
روشهای مبتنی بر متن عموما از رابطه بین کلمات (رابطه نحوی یا وقوع همزمان) برای تعیین هر کدام از دسته های Hatzivassiloglou and McKeown SaA "Grefenstette )2006( .גטS فوق الذکر در متون بزرگ استفاده می (Yu and Hatzivassiloglou (2003) "Turney and Littman (2002) "Kim and Hovy (2004), (1997) این قسمت عمده روش هایی که از الگویی مشخص متناسب با دسته های ارائه شده استفاده کرده اند را بررسی می کنیم ۔ استفاده از ساختار زبان - این دسته از روشها، عموما از ساختار زبان استفاده می کنند (حروف ربط، حروف اضافه، ساختار گرامری و غيره). برای مثالی (1997) HatZivaSSilOglOu and McKeOWnروشی را ارائه کردند که بصورت خودکار به صفت ها با کمک حروف اضافه ی (و، یا، اما و ...) چسبیده به آنها، یک برچسب نظر (مثبت یا منفی) انتساب می دهد. ایده اصلی روش آنها این است که صفهای همراه حرف ربط گ"و" (مثل Beatiful And Calm) گرایش احساسی مشابه بهم دارند، درحالیکه در حرف ربط "اما" (مثل (justified but brutal) عموما صفات دارای وزن احساسی متفاوتی هستند. در این حال دقت دسته بندی بیشتر از ۵۰٪ برای صفاتی که با تعداد کمی حروف ربط در متن آمده باشند مشاهده گردید. مطالعات دیگری (2000 HatZivassiloglou and Wiebe"") نشان داد که محدود کردن مشخصه ها در دسته بندی صفت هایی که بصورت پویا، قابل درجه بندی یا جهت دار می آیند، کارایی را در دسته بندی افزایش می دهند.
استفاده از خاصیت وقوع همزمان - در این نوع روشهای نظر کاوی، امتیاز هر نظر با اشتفاده از فاصله اش از لیست c. s. 3 Baroni and Vegnaduzzo 2004 Je. کلمات نظری تاکنون شناخته شده محاسبه می گردد. برای ابتدایی صفات نظری برای ارزش دهی به صفات دیگری که باید توسط خصوصیت نظری بودنشان بصورت نزولی مرتب شوند استفاده کردند. فاکتور اصلی این روش اینست ه صفت های نظری، به احتمال زیاد بازهم در متن با سایر صفات نظری ظاهر خواهند شد. آنها امتیاز نظری صفات هدف را با محاسبه اطلاعات متقابل آنها با صفات موجود در لیست اولیه صفات و اطلاعات متقابل نقطه به نقطه" محاسبه کردند. می توان PMI را به این شکل تعریف کرد:
('Church and Hanks 1990)
که در آن احتمال وقوع همزمان دور عبارت است. په عبارت دیگر، معادله نمایانگر معیار درجه ارتباط بین دو عبارت است.
روشی مشابه با آنچه که در بالا گفته شد توسط (2003 ,2002) Turney and Littman" ارائه گردید که در آن یک ouble 31 oc... usoo (good, nice, excellent, positive, fortunate, correct, Superior) co- ouble 31 c... & 6,3; U.L.S.A.-3, - 4-6, 4-sle-Jölyx (bad, nasty-poor negative, unfortunate,Wronginferior) -à- عبارت داده شده (مثلا (O(t) بدین شکل محاسبه می گردد:
که در آن (PMI(tti امتیاز اطلاعات متقابل نقطه به نقطه (1990 Church and HankS) عبارت t با هر عبارت در لیست اولیه تا بعنوان معیار گرایش آن است. نتایج در آن نشان دادند که این روش برای کارایی مناسب داده های بسیار زیادی نیاز دارد. ضعف دیگر این روش این است که نمی تواند عبارات مبهم (آنهایی که هم گرایش مثبت دارند و همگرایش منفی، مثل mind. unpredictable و غیره) را تشخیص دهد.
روش های دیگری که بر اساس تحلیل گرایش در سطح کلمه عمل می کنند، از انعطاف پذیری ارائه شده توسط لغت نامه ها سود می جویند (1966 ESuli and Sebastiani 2006; Miller 1995; Stone). تعاری عبارات، تفسیرها و رابطه معنایی (مثل مترادف ها و متضادها) (2004 Kamps"") مزایایی را برای محققان ارائه می دهد که می توانند از طریق آن گرایش معنایی کلمات را بیابند.
استفاده از روابط معنایی - استفاده از رابطه معنایی همیشه در زمینه استخراج اطلاعات کلاسیک استفاده شده و به همین مقدار نیز در زمینه نظر کاوی و آنالیز مقصود اهمیت دارد. تعداد زیادی مقالات وجود دارد که از رابطه معنایی بین مفاهیم برای تخمین نظری بودن آنها و در نهایت تخمین نظری سند استفاده می کنند. برای مثال Kamp و همکارانش (2004)یک معیار مبتنی بر فاصله براساس ورد نتایجاد کردند که گرایش معنایی صفات را براساس فاصله با دو مرجع کلمات انتخاب شده (خوب و بد) تعیین می کرد. وردنت (1995 Miller) یک بانک اطلاعاتی لغوی بسیار بزرگ است که شامل حدود ۱۵۰۰۰۰ کلمه سازمان دهی شده بالغ بر ۱۱۵۰۰۰ مترادف و متضاد با مجموع ۲۰۳۰۰۰ جفت کلمه می باشد (2005 Pasca). مفاهیم در وردنت دارای روابط متعددی هستند. Kamp و همکارانش و )2009( Williams and Anand استفاده از روابط معنایی در وردنت یک امتیاز پلاریته به صفات نسبت می دادند. آنها از یک مجموعه مرجع کوچک مثبت و منفی از عبارات برای تشکیل گراف صفات با استفاده از روابط لغوی موجود در ورد نت استفاده کردند. آنها برای تعیین درجه گرایش صفات، از ترکیب ها و روابط لغوی متعدد استفاده کردند. بهترین نتایج زمانی بدست آمد که روابط لغوی کلمات مرتبط و مشابه همزمان با رابطه مترادف بودن استفاده گردید.
استفاده از تفسیرها - هر کلمه در وردنت بهمراه یک تفسیر کوتاه از تمامی کاربردهای آن وجود دارد که با آن gloSS definition می گویند. این تفسیرها معمولا به کوتاهی یک تا دو جمله هستند. برای مثال تعاریف برای کلمه خودرو )Car( به این شکل است:
• یک وسیله نقلیه با چهار چرخ، معمولا شامل یک موتور محرک با سیستم احتراق
• یک وسیله نقلیه چرخ دار سازگار با راه آهن
• یک کابین معلق در هوا که افراد پرسنل و بار و غیره را جابجا می کند
• وسیله ای که مسافران را بالا و پایین می برد
• یک وسیله نقل و انتقال مسافران یا بار بر روی یک راه آهن کابلی
روشهایی وجود دارد (2005 ESuli and Sebastiani) که از تعاریف موجود در دیکشنری های آنلاین برای تعیین گرایش معنایی کلمه استفاده کرد. انگیزش اصلی در کار (2005 ESuli and Sebastiani) این فرضیه است که اگر یک معنای کلمه به جهتی خاص گرایش داشته باشد، آنگاه تمامی کلمات در تفسیر آن نیز به همان سوی آن کلمه متمایل خواهند بود . برای مثال تعاریف عبارات خوب و عالی هردو بیانی مبتنی بر قدردانی دارند، در حالیکه تعاریف کلمات بد و مهیب هردو عباراتی کاهنده هستند.
(2006) Sebastiani و همکارانش کارهای (2005) ESuli and Sebastiani را با افزودن مرحله ای دیگر برای تعیین نظری بودن کلمات توسعه دادند. این توسعه منجر به ایجاد وردنت لغوی خودکار گردید. SWN سه امتیاز عددی (Obj(S). Pos(S).Neg(s به هر مجموعه و از گان مترادف (سینست ") در وردنت نسبت می دهد که میزان واقعی بودن، مثبت و منفی بودن عبارت را در سینست نشان می دهد. بازه اعداد نسبت داده شده به هر امتیاز بین صفر تا یک است و مجموع آنها برابر یک است. این فرآیند انتساب امتیازها، عمل تعیین گرایش معنایی و درجه گرایش را بسیار دقیقتر از آنچه که عبارات تنها با یک برچسب نظری یا واقعی (برای تعیین گرایش معنایی کلمه) یا ضعیف یا قوی (برای تعیین درجه گرایش) انجام می دهد. هر سه امتیاز با ترکیب نتایج هشت طبقه بند سه تایی بدست می آید، که همه با سطح دقتی مشابه اما رفتاری متفاوت مشخص شده اند. یک الگو از SWN در شکل ۲ نشان داده است.