بخشی از مقاله

ابزار ETL در داده کاوی


چکیده

ETL ابزاری برای تکنسینهای کار در زمینهی کسب و کار هوشمند است که به تسهیل تثبیت اطلاعات در یک مخزن مرکزی به نام انبار داده میپردازد. ابزار خروج، انتقال و بارگذاری (ETL) قطعاتی از نرم افزار هستند که استخراج داده از چند منبع ، پاکسازی، تخصیص، اصلاح، یکپارچه سازی و درج آن در انبار را به عهده دارند. مکانیسمی که برای ایجاد و کنترل فرآیند استخراج، تبدیل و بارگذاری دادهها به کار میرود، امکان یک پاسخگویی سریعتر در ساخت و یا نظارت را کنترل میکند. چهارچوب ETL میتواند به سرعت یکپارچهسازی و تحکیم دادهها را با شاخصهای عملکرد خوب انجام دهد.

واژه های کلیدی:

داده کاوی، ابزار ETL ، کسب و کار هوشمند


.1 مقدمه

شرکتها به دلیل نوسانات مداوم بازار و شرایط رقابتی آن ناچارند به نیازها پاسخ سریعتری بدهند. ایجاد یک انبار داده یک فرایند پیچیده نه تنها در ساخت و ساز از مدل داده که به ویژه در فرآیند فهرستنویسی است که از طریق سه مرحله انجام میشود: استخراج، انتقال و بارگذاری ETL )استخراج، تبدیل و بارگیری( خیلی بیشتر از یک ابزار برای گرفتن داده از یک سیستم منبع به یک مخزن مرکزی است؛ خطاها را حذف و دادههای از دست رفته را تصحیح میکند و معیارهای اطمینان به دادهها را فراهم میکند. مجموعهی دادهها از منابع مختلف باهم تجزیه تحلیل میشوند و دادهها برای استفادهی کاربران نهایی شکل میگیرند. ETL چیزی بیشتر از جریان دادههاست و میتواند برای تصحیح خطای دادهها و تبدیل دادههای خام به اطلاعات برای مصرف آسان کاربران کسب و کار، استفاده شود. در انبار دادههای بیش از 07 از تمام منابع مورد نیاز برای ساخت یک انبار دادهها توسط بخش ETL مصرف میشود .>2@ عواملی مانند کیفیت دادهها، پیچیدگی منبع، وابستگی دادهها، ثبت، تخصص، پشتیبانی، فضای دیسک و زمانبندی، تحت تاثیر نگرش انبار داده و همچنین هزینه بری راه حل است برای به حداقل رساندن زمان اجرای انبار دادهها، منابع و هزینه به عنوان راه حل، ابزاری است که نظارت بر فرآیندهای استخراج، دگرگونی و بارگذاری دادهها را به صورت خودکار انجام دهد. این چهارچوب به اطلاعات تخصصی فراوان در کسب و کار نیاز ندارد.

ایجاد یک چهارچوب، توابعی با تمام مکانیسمهای استخراج و یکپارچهسازی انبار داده فراهم میکند. با این حال در صورت تمایل برای رسیدن به یک سطح بالاتر، ما میتوانیم فرآیندهای جدید ETL را با ارائهی یک لایهی رابط و تنها از طریق یک ویزارد ایجاد کنیم. هدف اصلی این مطالعه یک راه حل برای ساده کردن فرآیند بارگذاری داده به یک مخزن مرکزی، انبار دادههاست. به این منظور یک نمونهی اولیه ایجاد شده است که با چندین مولفهی مجزا مثل جداول SQL، یک سرویس ویندوز، در توابع PowerShell برای فرایند اتوماتیک، رابط وب برای پاسخ سریعتر برای تغییر دستورات، نظارت استخراج و یا یکپارچگی و بستههای دادهی SSIS پیادهسازی شده است.

دو راهکار ETL، با استفاده از توابع PowerShell یا از طریق وبسایت در ASP.NET وجود دارد. با ETL، راه حلهای نمونه مانند " کسب و کار هوشمند" تمایل به تبدیل شدن به "اطلاعات هوشمند" دارند .>4@ این تغییر اتفاق میافتد چون راه حلهای مقرون به صرفهتر توانایی به دست آوردن ابزار تجزیه و تحلیل شرکتهای بزرگ را هدف گرفتهاند. علاوه بر این، آنها حتی برای اهداف خصوصی، به تجزیه و تحلیل الگوها و طراحی دادههای خود برای انتخاب قاطعتر و تمایل به ارتباط با مصرف کنندهی نهایی میپردازند مقاله ی پیش رو به این شرح ارائه شده است: در بخش دو به معماری نمونهی اولیه میپردازیم. در بخش سوم به مشخصات اساسی ETL می پردازیم. در بخش چهار بحث در مورد تجزیه و تحلیل عملکرد فرآیندهای ETL و در نهایت در بخش پنج نتیجهگیری کلی و کار آینده ارائه شده است.

در حال حاضر در بازار چندین ابزار ETL که طیف وسیعی از ویژگیهای منحصر به فرد را بر اساس اهداف به خوبی تعریف میکنند، ارائه شده است.

ETL تلاش میکند موقعیت خود را به عنوان یک ابزار کم هزینه در روند توسعه و تعمیر و نگهداری با توجه به ویژگیهایش در نظارت، شاخصهای عملکرد، تجمع دادهها و رابطهای گرافیکی تثبیت کند. در ضمن ممکن است جریان اطلاعات جدید را بدون دانش فنی توسعه دهد. البته این قابلیت بزرگی در عملکرد است.

.2 راه حل معماری

از طریق توابع اتوماسیون در چهارچوب، اسکریپت PowerShell میتواند با ایجاد اجزای سریع به کل جریان پاسخ دهد. عمل استخراج به عنوان رابط با منابع دادهها برای یکپارچهسازی دادههای پردازش شده با توجه به مدل کسب و کار صورت میگیرد. معماری بر اساس مولفههایی است که میتواند Store Procedureها یا بستههای SQL Server Integration Servicesرا که اطلاعات را از مخازن متعدد به جداول در یک منطقه به طور موقت )Staging Area as( قرار میدهند، اجرا کند. این دادههای برای به حداقل رساندن تاثیر سیستم عامل ذخیره میشوند .>5@ پس از آنکه دادهها به طور موقت در منطقه ی عملیاتی ذخیره میشوند، زمان شروع به کار اطلاعات با تحکیم قوانین کسب و کار در انبار دادهها فرا میرسد. در نهایت، پردازش دادهها در یک مخزن چند بعدی به عنوان یک روش دسترسی، مصور شده و با تجزیه و تحلیل دارای کارایی بالا و انعطافپذیری انجام می شود.

-1-2 تکنولوژیها

معماری بر اساس ابزار مایکروسافت است: Microsoft Integration Services, Microsoft Windows Service Applications [5], Microsoft SQL Server, Windows PowerShell [3], .ASP.NET and Microsoft SQL Server Analysis Services این ابزار به دلیل مسائل گواهینامه و دانش فنی بیشتری در این نوع تکنولوژی، انتخاب شدند.

.3 مشخصات اساسی ETL

چهارچوب ETL برای انجام استخراج، انتقال و ادغام دادهها در انبار دادهها از طریق فرآیند تنظیم و هماهنگی ایجاد شده است که شامل یک مدل شاخص، پردازش جمعآوری دادهها، برنامهریزی فرآیندهای ETL و پردازش OLAP است.

داده ها از منابع مختلف داده استخراج، در DSA منتشر و انتقال یافته و قبل از بارگذاری، در انباره داده ظاهر می شود. ممکن است که منبع ، منطقه نمایش، و محیط مقصد در فایل های یک سطح، مجموعه داده XML ، جداول مربوطه، منابع غیر مربوطه، منابع وبلاگ، سیستم های وراثتی، و صفحه گسترده، فرمت های بسیار متفاوتی از ساختار داده داشته باشند.

-1-4 استخراج کننده

در تمام سناریو های ETL، اولین پله استخراج داده است. ETL مسئول استخراج داده از سیستم های منبع است. استخراج اشیاء مسئول بارگذاری دادهها از منابع داده، OLTP، فایل XML، فایلهای اکسل و غیره به یک منطقهی عملیاتی است؛ این مسئولیت هر استخراجگر است که بداند کجا و چگونه اطلاعات را در جداول مرحلهبندی کند. در این مرحله معمولا" انتقال دادهها را داریم. مسائل مربوط به عملکرد باید با اتصال به سیستمهای عامل تا حد امکان اثرات منفی که ممکن است در سیستم وجود داشته باشد، به حداقل برسد. در حال حاضر دو نوع استخراج وجود دارد: بستهی SSIS یا رویهی ذخیرهی .SQL

چهارچوب یک جزء SSIS عمومی را فراهم میکند و با تغییر مقادیر متغیر و اتصال به منبع، ممکن است قابلیت استفادهی مجدد را در بیش از یک استخراج بسته فراهم کند

-2-4 ائتلاف کننده

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید