بخشی از مقاله

چکیده

منابع داده اغلب فقط دادههای جاری را ذخیره سازی مینمایند و دادههای تاریخی را در خود نگهداری نمیکنند. همچنین تصمیم گیری در شرکتهای تجاری نیازمند یک دید یکپارچه از همه دادههای سازمانی، شامل اطلاعات تاریخی میباشد. ی ک پایگاه داده تحلیلی از اطلاعات جمع آوریشده از منابع متعدد میباشد که تحت یک شمای یکپارچه در یک سایت ذخیره شدهاند، تا حد زیادی انجام پرسوجو را ساده میکند و همچنین امکان مطالعه در خصوص رویههای تاریخی را نیز فراهم میسازد و نیز بار پرسوجو برای پشتیبانی از تصمیم را از روی سیستمهای پردازش تراکنش برمیدارد.

از آنجایی که مجموعه داده مورد استفاده در این پژوهش جزء دادههای بزرگ میباشد، پیاده سازی روش پیشنهادی برای یکپارچه سازی و ادغام دادهها و ایجاد پایگاه داده تحلیلی با استفاده از ابزار هدوپ و در سه مرحله نگاشت-کاهش - پاکسازی، تعیین کلید خارجی و ادغام دادهها با شمایستارهای - انجام میپذیرد . برای ارزی ابی روش پیشنهادی در بستر هدوپ از فاکتور حجم فضای اشغال شده جهت ادغام دادهها استفاده شده که در مقایسه با روش پایه عملکرد مورد قبولی را داشته است.

-1 مقدمه و هدف

در سالیان گذشته بعد از اینکه چالشهای مربوط به جمع آوری داده به نحوی مرتفع گشتند، اکنون سوال اصلی به چگونگی پردازش بر روی این حجم عظیمی از دادهها تبدیل شده است. دانشمندان و پژوهشگران معتقدند که امروزه موضوع دادههای حجیم، مهمترین چالش پیش رو در علوم کامپیوتر میباشد. وب سایتهای اجتماعی مانند فیسبوک1 و توئیتر 2 دارای میلیاردها کاربر هستند که در هر دقیقه صدها گیگابایت اطلاعات تولید میکنند. در سایت یوتیوب 3 نیز یک میلیارد کاربر وجود دارد که در هر دقیقه صدها ساعت فیلم تولید و آپلود میکنند.[2]

بهمنظور بهرهبرداری و اکتشاف دانش از این حجم بسیار زیاد داده، ضروری میباشد که ابزارها و زیرساختهای مناسب آن ایجاد و استفاده گردد. امروزه دادههای حجیم در همه حوزهها و زمینهها با توجه به رشد روزافزون منابع دیجیتال تبدیل به چالش اصلی شده است. نکته قابل توجه این است که اگر بتوان دادههای حجیم را به صورت مناسب و حرفهای مدیریت و پردازش کرد، نه تنها یک چالش محسوب نمیشود بلکه با افزایش داده، دانش استخراج شده از آن نیز بیشتر و با دقت بیشتری خواهد بود. در ادامه به حوزههایی که دادههای حجیم میتواند در آنها تحول و انقلابی ایجاد کند اشاره شده است:[3]

1.    فهمیدن الگوی رفتاری مشتریان و شناسایی آنها

2.    استخراج و بهینهسازی فرآیند تجارت در سازمانها

3.    ادغام و یکسانسازی فرآیندهای تجارت الکترونیک

4.    سنجش شخصی کاربران و بهینهسازی کارایی سیستم

5.    بهبود روال سلامت و سلامت عمومی

6.    بهبود کارایی ورزش و ورزشکاران

7.    بهبود علوم و پژوهش

8.    افزایش کارایی ماشین و ابزار

9.    بهبود و بهینهسازی شهرها و کشورها از نظر رفاه عمومی

استفاده و بهرهبرداری از تکنولوژی دادههای حجیم در این حوزهها، علاوه بر اینکه باعث بهبود کارایی و عملکرد آنها می شود، باعث بروز بازارهای بزرگ و باارزش در زمینه دادههای حجیم میشود. بنابراین یکپارچه سازی دادههای حجیم 4 - BDI - یکی از مهمترین چالشهای صنعت تجارت الکترونیک است که در صورت انجام آن میتوان قابلیتهای بسیار زیادی را به صنعت تجارت الکترونیک اضافه نموده و باعث بهبود آن شد. هدف این پژوهش ارایه یک راهکار جهت بهبود ادغام و یکپارچه سازی اطلاعات موجود در دادههای حجیم در صنعت تجارت الکترونیک با استفاده از بستر هدوپ به عنوان ابزار پیاده سازی میباشد.

این پژوهش دارای فرضیه زیر میباشد که پس از پیادهسازی روش مورد مطالعه میتوان پاسخ مناسبی برای آنها ارئه داد: آیا میتوان با بستر هدوپ حجم مورد نیاز برای ادغام ویکپارچه سازی دادههای حجیم در تجارت الکترونیک را کاهش داد؟ در این مقاله ابتدا به مفهوم ادغام و یکپارچه سازی دادهها و معرفی ابزار آپاچی هدوپ پرداخته و در ادامه به برخی از تحقیقات که در زمینه یکپارچه سازی و ادغام دادهها صورت گرفته اشاره میکنیم. در آخر روش تحقیق را تشریح مینماییم و آن را روی مجموعه دادهای پیاده سازی و نتایج را تجزیه وتحلیل میکنیم.

1-1 ادغام و یکپارچهسازی دادهها

سیستمهای یکپارچه اطلاعات کاربران را با یک دیدگاه یکپارچه از چند منابع داده ناهمگن فراهم میکند. پرس و جو از منابع دادههای اساسی، ترکیب نتایج و ارائه آن به کاربر توسط سیستم یکپارچه انجام میشود. یک فرآیند یکپارچهسازی و ادغام دادهها شامل سه مرحله است. همانطور که در شکل 1 نشان داده شده است، در مرحله اول ما نیاز به شناسایی ویژگیهای مربوطه که برای توصیف وضعیت این اطلاعات در منبع استفاده میشود داریم.

نتیجه این مرحله نگاشت شمای5 است، که برای تبدیل اطلاعات موجود در منابع به یک نمایش مشترک - تغییر نام، تغییر ساختار - استفاده شده است. مرحله دوم، اشیاء مختلف که در منابع دادههای شرح داده باید شناسایی شده و همتراز شوند. در این روش، با استفاده از روشهای تشخیص تکراری، چندین احتمال نمایندگی متناقض از همان اشیاء در دنیای واقعی یافت میشوند. در مرحله آخر، نمایندگیهای تکراری با هم ترکیب و ادغام شده را به یک نمایش تک در حالی که تناقضات در داده حل شده ارایه میشود. این آخرین مرحله است که به عنوان ادغام داده اشاره شده و تمرکز اصلی در این پژوهش است.

2-1 ابزار هدوپ

ابزار آپاچی هدوپ [3] ابزاری است که هر سه فاکتور اصلی - سیستمهای توزیع شده، فایل سیستم توزیع شده و پردازش توزیع شده - را به صورت یک فریمورک و چارچوب اصلی دارد. آپاچی هدوپ، ابزاری توزیعشده برای ذخیرهسازی و پردازش دادههای حجیم با استفاده از سختافزارهای هماهنگ میپردازد. هدوپ برای افزایش اندازه تا ابعاد صدها و یا هزاران ماشین طراحی شده است و در مقابل خطا بسیار مقاوم میباشد. چارچوب هدوپ دارای دو بخش اصلی زیر میباشد:

• سیستم فایل توزیعشده یک فایل سیتم توزیع شده میباشد که برای ذخیره فایلها و اطلاعات بر روی چندین ماشین مورد استفاده قرار میگیرد. ویژگی اصلی این سیستم در این است که کاربر تصور میکند که تمام فایلها بر روی یک ماشین قرار دارد و به هیچ عنوان درگیر پیچیدگیهای ذخیرهسازی داده بر روی چندین ماشین نمیشود. از مزایای اصلی این فایل سیستم میتوان به مقاوم بودن آن در برابر خطا اشاره کرد.

• هدوپ یارن6 وظیفه مدیریت و اجرای پردازشهای سنگین بر روی فایل سیستم را دارا میباشد. یکی از مهمترین بخشهایی که در هدوپ برای توسعه الگوریتمها مورد توجه قرار میگیرد، مدل برنامهنویسی نگاشت-کاهش میباشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید