بخشی از مقاله

چکیده :

استخراج ، پالایش و بارگذاری داده ها - 3 - ETL نقش مهمی در انبار داده ها - DW - 4 ایفا می کند . انبار داده یک مجموعه یکپارچه از داده های موضوع محور در حمایت از سیستم های پشتیبان تصمیم یار 5 - DSS - است. نکته مهم در انبار داده ، یکپارچه سازی منابع داده ها از طریق استفاده از فرآیندهای استخراج ، پالایش و بارگذاری داده ها می باشد . از این رو آنچه که دارای اهمیت است : طراحی مناسب فرآیندهای استخراج ، پالایش و بارگذاری داده هایی می باشد که می توان از عوامل کلیدی موفقیت پروژه انبار داده باشد .در ساخت یک انبار داده تمرکز در سه حوزه حائز اهمیت است :

-1 منطقه منبع که دارای مدل استانداردی است نظیر نمودار ارتباط موجودیت -2 منطقه مقصد که آن نیز دارای مدل استانداردی است مانند طرح ستاره و -3 در نهایت منطقه نقشه برداری که تاکنون مدل استانداردی برای آن تعریف نشده است و تحقیقات کمی در این خصوص انجام گرفته است که می توان یکی از علل را پیچیدگی آن بیان نمود . در این مقاله به معرفی مدلهای های موجود در مدلسازی فرآیندهای استخراج ، پالایش و بارگذاری داده ها , مزایا و معایب هرمدل پرداخته و در نهایت مدل EMD که ترکیبی از مدلهای موجود می باشد ، تشریح گردیده است . روش انجام آن به صورت مطالعات سیستماتیک می باشد که هدف اصلی آن , نقشه برداری به روش مدل سازی در رویکردهای فرایند استخراج ، پالایش و بارگذاری داده ها و انجام آن می باشد .

کلمات کلیدی :استخراج پالایش و بارگذاری داده ها , انبار داده ها , نقشه برداری سیستماتیک ، سیستم های پشتیبان تصمیم یار، مدلسازی مفهومی

مقدمه :

ETL یک فرایند و چارچوب برای یکپارچه سازی و تمیز کردن داده ها در انبار داده ها است که یک بخش ضروری از DSS می باشد . قابل ذکر است که این مراحل در تکنولوژی انبار داده ها در شرکت آی بی ام 6 با نامهای تسخیر کردن 7 ، تبدیل کردن 8و بکار بردن 9 شناخته می شود. سیستم های پشتیبان تصمیم یار یا DSS ، سیستم اطلاعاتی است که از فعالیت های تصمیم سازی سازمان ها و تجارت ها پشتیبانی می کند . سیستم های پشتیبان تصمیم یار اولین بار در سالهای 1970 توسط آقای لستر10مطرح شد. سیستم های پشتیبان تصمیم گیری به عنوان سطوحی از مدیریت و طراحی یک سازمان به کار گرفته می شوند و کمک به روند تصمیم سازی می کنند . یک طراحی درست برای سیستم های پشتیبان تصمیم یار اطلاعات را جمع آوری و آنها را برای روند تصمیم سازی آماده می کند.

یک فرایند ETL بسیار پیچیده ، مستعد خطا و زمان بر است. علاوه بر این، فرآیندهای ETL بسیار گران می باشند . هزینه های ابزار ETL و پاکسازی داده ها حداقل یک سوم از هزینه های بودجهء یک پروژه برآورد شده است. از سوی دیگر، فرآیندهای 80, ETL درصد منابع توسعه یک پروژه می باشد . این بدین معنا است که فرآیندهای ETL یک جزء کلیدی در پروژه ها هستند ، چرا که اطلاعات نادرست باعث تصمیم گیری نادرست می گردد .فرایند ETL برای استخراج داده از منابع داده ها و  اجرای استانداردهای کیفیت داده طراحی گردیده است ، به طوری که داده هامی توانند توسط توسعه دهندگان به برنامه ها و کاربران نهایی تا تصمیم گیری های استراتژیک استفاده گردند . طراحی یک فرایندETL معمولا از وظایف ذیل تشکیل شده است  :

-انتخاب داده ها برای استخراج: منابع داده که معمولا از منابع مختلف ناهمگن آمده است تعریف می گردد .

-ترانسفورماتور منابع : پس از دادن منابع , می توان داده ها را تبدیل و یا این که داده های جدید را می توان استخراج کرد . برخی از کارهای رایج در این مرحله عبارتند از: فیلتر کردن داده ها، تبدیل کد،تبدیل بین فرمت های مختلف داده ها .

-عضویت منابع: منابع مختلف را می توان به یک انبار " به عنوان یک منبع واحد لود شده " پیوست نمود . .

-انتخاب مقصد برای بارگیری : مقصد و یا مقصدهای مربوط به لود شدن داده های بعدی انتخاب شوند .

-اضافه کردن ویژگی های منابع داده با ویژگی های مربوطه : ویژگی زمینه که از منابع داده ها به دست آمده را می توان به مقصدهای مناسب نقشه برداری استفاده نمود .

-اطلاعات بار: فروشندگان داده .

در تعریف Ralph Kimball ، انبار داده اینگونه بیان می شود که یک انبار داده - DW - یک مجموعه یکپارچه از داده های موضوع محور در حمایت از تصمیم گیری است. یک انبار داده نسخه ای از داده های تراکنشی است که به صورت اختصاصی برای پرس و جو ها و گزارش گیری ،سازمان دهی شده است. گرچه به این تعریف دو ایراد وارد است:که اولاً گاهی داده هایی که در یک انبار داده ها ذخیره می شوند ،غیرتراکنشی هستند . هرچند معمولاً 95 تا 99درصد داده ها تراکنشی هستند . ثانیاً خروجی اصلی سیستم های انبار داده ها ،لیست گیری های فهرست وار پرسش ها در حجم کم و یا گزارش های اداری در حجم زیاد هستند.نکته مهم، یکپارچه سازی منابع داده ها از طریق استفاده از فرآیندهای ETL می باشد.

از این رو آنچه که به طور گسترده به رسمیت شناخته می گردد : طراحی مناسب فرآیندهای ETL می باشد که از عوامل کلیدی موفقیت پروژه DW هستند. بنابراین هدف ما ارزیابی طرح های پژوهشی موجود در مورد مدل سازی فرایند ETL برای انبار داده ها به منظور شناسایی ویژگی های اصلی ، نماد، و فعالیت آنان و همچنین مطالعه این مورد است که آیا این روش های مدل سازی توسط نوعی از نمونه یا ابزار پشتیبانی می شود یا خیر .مطالعه نقشه برداری برای شناسایی ماهیت و میزان پژوهش در دسترس , با استفاده از سوالات تحقیق , یک روش سیستماتیک و عینی را فراهم می کند.با توجه به اهمیت فرآیندهای ETL، یک تقریب از مطالعه نقشه برداری سیستماتیک، روش های مختلف مدل سازی فرآیندهای ETL، ویژگی های مربوط به آنها، فعالیت ها، نمادها و مشکلات در هر روش را بیان می نماید و در نهایت روش EMD که یک روش ترکیبی است شریح گردیده است . - نقشه برداری سیستماتیک نگرش سیستمی در قسمتی از تحقیق و ارزیابی میزان شواهد موجود در یک موضوع مورد علاقه را فراهم می آورد . -

-2بیان مساله :

فقدان یک روش روشن از یک مدل استاندارد یکی از مشکلات موجود در نشان دادن سناریوهای ETL می باشد . پژوهش در زمینه فرآیندهای مدل سازی ETL را می توان به سه روش اصلی طبقه بندی نمود :

-مدل سازی در عبارت نقشه برداری

-دستورالعمل های مبتنی بر مدل سازی بر اساس سازه ء مفهومی

-مدل سازی در محیط UML

هر چند منطقه فرآیندهای ETL بسیار مهم است اما تحقیقات کمی در این زمینه انجام شده است و دلیل آن دشواری و عدم وجود مدل رسمی برای نشان دهنده ETL می باشد که نقشه داده دریافتی از DSS های مختلف در یک فرمت مناسب برای بارگیری هدف DW است .

بسیاری از پروژه های تحقیقاتی سعی بر نشان دادن فعالیت نقشه برداری اصلی در سطح مفهومی می باشند. هدف ما معرفی مدل مفهومی EMDدر مدل سازی فرآیندهای مختلف مورد استفاده ETL و پوشش محدودیت های پروژه های تحقیقاتی قبلی می باشد . مدل ارائه شده می بایست دارای مشخصات زیر باشد :

-ساده: توسط طراح DW درک شود.

-کامل: به نمایندگی از تمام فعالیت های از فرآیندهای ETL است.

-برنامه ریزی: برای اینکه در محیط های مختلف DW استفاده می شود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید