بخشی از مقاله
چکیده ی مختصر
مه دادهها دارای سه مولفهی اصلی تنوع، حجم و سرعت تغییر هستند و برای ذخیره سازی، تحلیل و نمایش نتایج، مشکلاتی پیش روی آنهاست. تنوع بالای مه دادهها سبب پررنگتر شدن نقش علم آمار در تحلیل آنها شده است. اما دو مانع در این مسیر وجود دارد:
-1 این دادهها به دلیل حجم و پیچیدگی زیادی که دارند، از ظرفیت ابزار تحلیلی خارج هستند.
-2 انجام محاسبات بر روی آنها بسیار زمانبر و طولانی است.
اینها از جمله چالشهایی هستند که آماردانان در این حوزه با آنها مواجهاند. در این مقاله سعی شده است که برخی روشهای آماری و محاسباتی اخیر برای مقابله با مشکلات پیش روی مه دادهها معرفی گردد.
-1 مقدمه
لین و خی - 2011 - برآورد خطی از معادلات را به صورت بلوکهای جداگانه مطرح کردند و روش افراز و تقسیم را در مه دادهها به کار گرفتند. لیانگ و همکاران - 2013 - روش تقریب تصادفی براساس بازنمونهگیری را در این حوزه به کار بردند. لیانگ و کیم - 2013 - نیز به بیان روش میانگین لگاریتم درستنمایی با استفاده از الگوریتم متروپولیس-هستینگس در مونت کارلوی زنجیر مارکوفی پرداختند. همچنین کلاینر و همکارانش - 2014 - روش نمونههای کوچک خودگردان را برای ارزیابی کیفیت در مه دادهها پیشنهاد دادند.
حال با توجه به اهمیت و نقش علم آمار در این حوزه، به طور مختصر به تشریح هر یک از این روشهای آماری میپردازیم. در بخش دوم، روش معادلات برآورد انباشته شده، در بخش سوم، روشهای میانگین لگاریتم درستنمایی، در بخش چهارم، زیرنمونهگیری براساس مونت کارلوی زنجیر مارکوفی و در بخش پنجم، روش نمونه-های کوچک خودگردان را شرح خواهیم داد. در بخش ششم نیز به معرفی برخی بستههای نرمافزار R میپردازیم و سپس در بخش هفتم با ارائهی نتیجه گیری، مقاله را به اتمام میرسانیم .
-2 معادلات برآورد انباشته
در این روش با توجه به پژوهشهای صورت گرفته بر روی پردازش تحلیلی آنلاین، به دنبال ارائهی یک روش محاسباتی مناسب و دارای قدرت ذخیره سازی برای برآورد کردن برآورد معادله در مه دادهها با استفاده از روش افراز و تقسیم هستیم به طوری که در هر قسمت از مجموعه داده، دادهها را به بعدهای کم آماری فشرده میکنیم و سپس تقریب برآوردگر را به وسیلهی حل معادلهی تجمعی در تمامی بخشها محاسبه میکنیم. این روش سبب کاهش زمان موردنیاز برای انجام محاسبات شده و بر مشکل محدودیت حافظه که برای مه دادهها مطرح است، غلبه میکند. در مدل رگرسیون خطی، برآوردگر حداقل مربعات برای ضرایب رگرسیونی برای کل دادهها میتواند به صورت یک میانگین وزنی از برآوردگر حداقل مربعات در هر بلوک بیان شود.
موفقیت در این روش به خطی بودن معادلات برآورد در بستگی دارد و معادلهی برآورد برای تمام دادهها، یک جمع ساده از آن برای تمامی بلوکهاست. برای معادلات برآورد غیرخطی، روش تقریب زدن خطی از معادلات برآورد به وسیلهی بسط تیلور در هر بلوک پیشنهاد میشود. بنابراین، سادهکردن معادلهی برآورد غیرخطی به نوع خطی، سبب میشود که پاسخهای تمامی بلوکها به وسیلهی میانگین وزنی با یکدیگر ترکیب شوند.
-3 میانگین لگاریتم درستنمایی
همانطور که میدانیم مدلهای آماری گاوسی به طور گستردهای برای مدلسازی دادههای فضایی مورد استفاده قرار می-گیرند اما به هرحال محاسبات و پیادهسازی این مدل، یک چالش است چرا که نیازمند معکوس ماتریس کوواریانس است که بسیار پیچیده است، مخصوصا هنگامی که تعداد دادهها بسیار زیاد باشد. این روش درصدد است که با به کارگیری تخمین تصادفی با استفاده از بازنمونهگیری به مقابله با این معضل بپردازد.
با الگو گرفتن از کوچک کردن واگرایی کولبک-لیبلر، این واگرایی را با استفاده از میانگین محاسبه شده از زیرنمونهها برآورد میکنیم که منجر به روش برآورد میانگین لگاریتم - درستنمایی ماکسیمم میشود. در این روش، در هر تکرار، یک زیرنمونه به حجم m از مجموعه دادههای اصلی انتخاب می-شود و پاسخ میانگین معادلهی امتیازی از روش تقریب تصادفی حاصل میشود به طوری که در هر تکرار، برآورد براساس زیرنمونه به روزرسانی میشود. از آنجایی که m بسیار کوچکتر از n است و از ایجاد معکوس ماتریس کوواریانس که بزرگ است جلوگیری میکند، این روش میتواند برا حل مشکل مه دادهها مفید باشد.
-4 زیرنمونهگیری بر پایهی روشهای مونت کارلوی زنجیر مارکوفی
هنگامی که چگالی f را بتوان ارزیابی کرد اما به آسانی نتوان از آن نمونه گرفت، برای بهدست آوردن نمونههای تقریبی و دقیق، روشهایی مورد بحث قرار میگیرند که از جملهی آنها میتوان به روشهای مونت کارلوی زنجیر مارکوفی - 5MCMC - اشاره کرد. همانطور که میدانیم هنگامی که زنجیر تحویلناپذیر و نامتناوب باشد، توزیع آن به توزیع مانای حدی میگراید. راهبرد روش MCMC ساختن چنین زنجیری است که توزیع مانای مربوط به آن با توزیع هدف f برابر باشد.
از این رو این روش در استنتاج بیزی بسیار کاربردی است چرا که در آن f توزیع پسین بیزی برای پارامتر است اما هزینهی هنگفت برآورد درستنمایی در هر تکرار، از جمله مشکلات موجود بر سر راه مه دادهها است. در این روش در پی تحلیل بیزی مه دادهها با استفاده از الگوریتم متروپولیس-هستینگس هستیم و روش میانگین لگاریتم درستنمایی را برای این الگوریتم در MCMC بسط میدهیم. نسبت درستنمایی برآورد پیشنهادی در الگوریتم متروپولیس، با تقریب میانگین - لگاریتم درستنمایی براساس k نمونه بوت استرپ به حجم m جایگزین میشود. این الگوریتم از به کار بردن تمام دادهها در هر تکرار جلوگیری میکند و از این جهت میتوان از این روش در مه دادهها استفاده کرد.
-5 نمونههای کوچک خودگردان
روش بوت استرپ یک وسیلهی ساده و قدرتمند برای ارزیابی کیفیت برآوردگرهاست. در مه دادهها که دارای حجم زیادی هستند، این روش برای جلوگیری از محاسبات پچیده بسیار مناسب است. با استفاده از زیرنمونهگیری و انتخاب m از n بوت استرپ، میتوان هزینههای محاسباتی را کاهش داد اما این روشها نیازمند استفاده از اطلاعات پیشین هستند. در اینجا روش BLB که ترکیبی از زیرنمونهگیری و نمونهگیری بوت استرپ است را به عنوان یک وسیلهی محاسباتی مناسب با عملکرد قوی برای ارزیابی کیفیت برآوردگرها معرفی میکنیم. این روش شامل گامهای زیر میباشد:
s - 1 زیرمجموعه به اندازهی m از مجموعه دادهی اصلی به حجم n انتخاب کنید .
-2 برای هرکدام از s زیرمجموعه، r نمونهی بوت استرپ بگیرید و برآورد نقطهای و مقدار کیفیت آنها را به دست آورید.
-3 سپس s مقادیر به دست آمده از گام دوم را باهم ترکیب کنید تا برآورد کلی حاصل شود - برای مثال میانگین بگیرید - . لازم به ذکر است در زیرنمونهها، m برابر با [0.5,1] پیشنهاد شده است که بسیار کوچکتر از n است و حجم بسیار کمتری را به خود اختصاص میدهد.
-6 بستههای نرمافزار R
پردازش مه دادهها یکی از موضوعات محاسباتی در دنیای امروز است. نرم افزار R و بستههای افزودنی آن به عنوان محبوب-ترین نرمافزار آماری، طیف گستردهای از محاسبات را با کارایی بالا، ارائه میدهد. برای هرگونه تحلیل آماری روی مه دادهها با استفاده از سیستم مدیریت دادهها، نیازمند انجام محاسبات عددی هستیم. خانوادهی bigmemory برای ایجاد، ذخیره کردن، دسترسی و استفاده از ماتریسهای حجیم به کار میرود.
پکیجهای biganalytics برای تجزیه و تحلیل آماری، bigtabulate برای عملیات جدول بندی و bigalgebra برای اعمال ماتریسی، توابع پیشرفتهای را ارائه میدهند و استفاده از آنها در محیطهای موازی، سرعت و کارایی قابل توجهی دارد. به عنوان مثالی دیگر میتوان به بستهی ffbase اشاره کرد که توابع پایهای آماری را برای اعضای ff ارائه میدهد. RRE نیز محصول اصلی انقلاب تجزیه و تحلیل است. همچنین شرکتی است که ابزارهای نرمافزار R را تولید و پشتیبانی میکند. RRE بر روی مه دادهها و انجام محاسبات در مقیاسهای بزرگ متمرکز است.