بخشی از مقاله
چکیده
شناسایی موجودیتهای نامدار یکی از وظایف کلیدی استخراج اطلاعات است و به تشخیص مجموعهای از اسامی در متن - مانند: افراد، مکانها و سازمانها - و تعیین نوع آنها میپردازد. اغلب سیستمهای شناسایی موجودیتهای نامدار، براساس الگوریتمهای یادگیری ماشین عمل میکنند و تمرکز آنها روی متون رسمی است که قواعد زبان در آنها به درستی رعایت شدهاست، ولی نتیجه اعمال این سیستمها روی متون شبکههای اجتماعی، دقت کمی دارد.
بنابراین، رویکرد جدید جمعسپاری، برای حل این مشکل مطرح شدهاست، که در آن از هوش جمعی گروه بزرگی از افراد عادی بهره گرفته میشود. یکی از چالشهای اساسی در شناسایی موجودیتهای نامدار که در کارهای گذاشته به آن توجه نشدهاست، وجود عدمقطعیت در تشخیص دسته صحیح برخی از موجودیتهای نامدار است. اسمهایی وجود دارند که ممکن است به بیش از یک دسته تعلق داشته باشند.
در این مقاله، با در نظر گرفتن این چالش در تمام مراحل جمعسپاری و به کمک بستر آمازون مکانیکال ترک، به شناسایی موجودیتهای نامدار در دادگان انگلیسی توییتر پرداختهایم و با ارائه الگوریتمی مبتنیبر بیشینهسازی امید، پاسخهای نهایی را جمعآوری کردهایم. به کمک این الگوریتم، دقت کار، در مقایسه با کارهای پیشین، در مورد همه کلمات در حدود 7- 5 درصد و در خصوص کلمات ابهامدار -14 16 درصد، افزایش یافته است.
.1 مقدمه
ما اکنون در عصر اطلاعات زندگی میکنیم و در هر لحظه، حجم زیادی از اطلاعات در اینترنت تولید میشود. برخورداری از روشهای مناسب برای پردازش این اطلاعات و استخراج دانش از آنها ضروری است. استخراج اطلاعات، حوزهای از پردازش زبان طبیعی است که با تبدیل اسناد بدون ساختار، به اطلاعات ساختیافته، آنها را برای ماشینها قابل درک میکند - پیسکورسی6، . - 2013 شناسایی موجودیتهای نامدار یکی از وظایف اصلی استخراج اطلاعات به شمار میرود که به شناسایی و کشف موجودیتهای نامدار و قرار دادن آنها در دستههایی که از قبل مشخص شدهاند، میپردازد.
- نادو7، . - 2007 روشهای شناسایی موجودیتهای نامدار عمدتاً از الگوریتمهای یادگیری ماشین و رویکردهای مشابه استفاده میکنند - منصوری1، 2008؛ پتروویچ2، 2010؛ مگنینی3، 2002؛ ساتن4، . - 2011 این روشها روی متون منظم و باقاعدهای است که قواعد زبان در آنها رعایت شدهاست. از طرفی، متون موجود در شبکههای اجتماعی، ویژگیهای خاصی دارند که باعث کاهش قابلتوجه دقت روشهای شناسایی موجودیتهای نامدار موجود میشود. این ویژگیها شامل - دوچنسکی5، - 1 : - 2015 کوتاه بودن متن که مانع بهکارگیری ویژگیهای سندی کلمه برای تشخیص نوع آن میشود.
- 2 محتوای دارای اختلال - تلفظهای نامعمول یا بزرگسازی غیر استاندارد حروف - . - 3 چندزبانه بودن - تمرکز سیستمهایموجود اکثراً بر روی زبان انگلیسی است - . ظهور بسترهای جمعسپاری و موفقیت آنها در زمینههای مختلف باعث شد که توجه دانشمندان پردازش زبان طبیعی و شناسایی موجودیتهای نامدار، به این رویکرد جلب شود - سابو6، . - 2014 از مهمترین مزیتهای بهکارگیری ابزار جمعسپاری در فعالیتهای مربوط به پردازش زبان طبیعی، محدود نبودن آن به یک زبان خاص است.
جمعسپاری، برونسپاری کار، مسئله، فعالیت یا وظیفه توسط یک کارفرما به گروه بزرگی از افراد از طریق یک فراخوان عمومی است. در جمعسپاری، توان محاسبات انسانی به کار گرفته میشود تا مسائلی که هنوز بهصورت کارا قابلحل توسط کامپیوتر نیستند، حل شوند - کوین7، . - 2011 از بسترهای پیشگام در این حوزه آمازون مکانیکال ترک است که در آن، افرادی تحت عنوان کارفرما، وظایفی را طراحی میکنند، سپس افراد دیگر به انجام این وظایف پرداخته و در قبال اتمام هر وظیفه، پاداش دریافت میکنند.