بخشی از مقاله

خلاصه:

در ع صر مهبانگ داده و مهبانگمحتوا، خلا صه سازی متن امروزه به ابزار مهمی برای ارزیابی متن و تف سیر وفهم متن تبدیلشده است. و به همین دلیل، به ابزار بسیار مهمی در تصمیمسازیهای خرد و کلان فردی و اجتماعی و نیز تولید اطلاعات و دانش کاربردی و حتی تولید علم تبدیل شده ا ست. خلا صه سازی د ستی متون بسیار بزرگ برای انسان کار دشواری است. روشهای سنتی خلاصه سازی اسناد محدود به سایز اسناد هستند و قادر به خلا صه سازی ا سناد کلان داده بر روی ابر نی ستند. این مقاله، یک متد خلا صه سازی کلان داده پی شنهاد میدهد که از ویژگیهای معنایی استخراجشده از ماتریس فاکتورگیری نامنفی با استفاده از پردازش موازی توزیع شده در هادوپ ا ستخراج شده ا ست. نتایج تجربی بهد ستآمده این پژوهش ن شان میدهد که متد مذبور بهخوبی میتواند سایز اسناد کلان داده را با استفاده از پردازش موازی توزیعشدهی هادوپ خلاصه کند و در مقایسه با متدهای خلاصهسازی تک گرهای از ضریب دقت و بازخوانی بهتری برخوردار است.

کلید واژه: خلاصهسازی، کلان داده، هادوپ، ویژگیهای معنایی، ماتریس فاکتورگیری نامنفی، نگاشت کاهش.

.1  مقدمه :

بیگدیتا یا کلان داده - Big Data - مجموعهای از دادهها است که به علت بزرگی و حجم بسیار وسیعشان نیازمند شیوه مدیریت داده خاص خود هستند. این دادهها آنقدر وسیع و حجیم هستند که با نرمافزارها و ابزار معمولی مدیریت دادهها نمیتوان عملیات مختلفی از قبیل گردآوری، ذخیره سازی، خلاصه سازی، جستجو، کاوش، پالایش و پردازش را روی آنها انجام داد. اما چون دیتاها به شکل کلانداده ا ست نیاز به خلا صه سازی و ارائه راههای جدید و ابتکاری ا ست که بتواند این دیتاهای عظیم را به شکل خلاصه در دسترس قرار دهد و این خلاصهسازی با استفاده از اصول و قواعد ویژگیهای معنای صورت میگیرد.

یکی از مزایای ویژه خلاصهسازی بر اساس ویژگیهای معنایی اینست که میتوان در خلاصه بهدستآمده ویژگیها - معناهایی - را یافته که حاصل تحلیل و پردازش متون و اسناد اولیه است. به دلیل تحلیلهای معنایی که بر روی متون یا اسناد اولیه صورت گرفته است، خلاصه بهدستآمده میتواند حاوی معناهای جدیدی باشد که یا در منبع اصلی وجود ندارد یا به این روشنی و وضوح وجود ندارد بهعنوان نمونه دادههایی که ما داریم کلانداده خواهد بود که با استفاده از مکانیسم کنونی ابر میتواند فراهم شود و با استفاده از یادگیری ماشینی و ماشینهای مجازی - VM,ML - فراتر از توان پردازش انسانی معناهای جدیدی خواهد ساخت که افقهای انقلابی جدیدی فراروی بشر خواهد گشود.

.2  تعاریف :

.1-2   هادوپ:5
هادوپ یک چهارچوب نرمافزاری است که کاربردهای توزیعشده با دادههای فراوان را تحت یک مجوز آزاد، پشتیبانی میکند. این چهارچوب به برنامهها امکان میدهد که با هزاران نود و دادههایی در اندازههای پتابایت کار کنند. هادوپ از مقالات مرتبط با سیستم MapReduce گوگل و همچنین سیستم فایل آن GFS، الهام گرفته است. هادوپ یک پردازش بزرگ را به زیر پردازشهای کوچکتر نگاشت میکند و سپس این زیر پردازشهای کوچکتر را برای به دست آوردن نتیجه نهایی باهم ادغام میکند .[1]

.2-2   نگاشت کاهش:6
یک مدل برنامهنویسی موازی برای تولید یا پردازش مجموعههای بزرگ دادهای به صورت خودکار و موازی روی خوشههای با تعداد زیادی از سرورها است. این مدل برنامهنویسی از دو مرحله نگاشت و کاهش جهت پردازش دادههاتشکیلشده است. در بیشتر موارد، پردازشهای امروزی از روش MapReduce استفاده میکنند که برای نخستین بار توسط گوگل معرفی شد .[2]

.3-2  کلانداده: 7
کلانداده به مجموعهای از دادهها گفته می شود که به صورت ساختیافته یا غیر ساختیافته، ذخیره می شوند و دادههای پیچیدهای هستند که از ابعاد گوناگون تشکیل شدهاند. اولین خصوصیت دادههای بزرگ، حجم آنهاست که به مقدار و کمیت آنها برمیگردد و به دلیل حجم بالا، مدیریت، تجزیهوتحلیل آنها متفاوت است و بهواسطهی پایگاه دادههای سنتی انجام نمی شود. یکی دیگر از خصوصیات دادههای بزرگ، تنوع آنهاست. این دادهها از انواع مختلفی از قبیل فیلم، عکس، متن و ...تشکیلشدهاند که این غیرساختیافتگی، خلاصهسازی آنها را دشوار کرده است. شیوههای سنتی مدیریت داده، برای مدیریت دادههای بزرگ پاسخگو نیستند در مدیریت دادههای بزرگ، باید همهی موارد ازجمله ساختارهای دادههای گوناگون، ابعاد مختلف دادهای و عدم ساختار آنها در نظر گرفته شود .[3]

.4-2   خلاصهسازی اسناد :

خلاصهسازی اسناد فرآیند کاهش اندازه اسناد ضمن نگهداری زمینه - طرح - اصلی آن است. بدینصورت که باید مهمترین اطلاعات را از اسناد استخراج کند. به عبارتی به فرایند فشرده سازی یک منبع که حاصل حاوی اطلاعات مهم آن باشد خلا صه سازی گویند. خلا صه سازی متون منجر به ا ستفاده از منابع بی شتر با سرعت بالاتر و در نتیجه حا صل شدن اطلاعات غنیتر میشود. مزیت اصلی خلاصهسازی، کاهش زمان مطالعه است.[4]سیستمهای خلاصهساز را از جهات گوناگون میتوان دستهبندی نمود. برخی از این دستهبندیها عبارتند از:

• خلاصهسازهای تکسندی و چندسندی:

بسته به تعداد سندی که بهصورت همزمان در حال خلاصهسازی آن هستیم، خلاصهسازها به دو دسته: خلاصهسازهای تکسندی و خلاصهسازهای چندسندی تقسیمبندی میشوند.

• خلاصهسازی استخراجی و چکیدهای:

چنانچه خلاصه با انتخاب و کنار هم قرار دادن جملات متن ورودی حاصل شود، سیستم خلاصهساز استخراجی و چنانچه خلاصه، برگرفته از متن ورودی و در قالب متن جدیدی تولید شود، سیستم خلاصهساز چکیدهای میباشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید