بخشی از مقاله

چکیده:

داده ها، به طور خاص ، داده های بزرگ ، در جهان امروز از اهمیت ویژه ای برخوردار می باشد. بنابراین، این مقاله بر اساس داده ها، کشف دانش، داده کاوی با استفاده از برخی از الگوریتم های خاص به معرفی چند کاربرد مهم از داده ها و چالش هایی که این زمینه ها در برخورد با آن وجود دارد پرداخته است. آنچه که ارگان های صنعتی با آن مواجه هستند این است که فقدان آموزش مناسب در استخراج داده ، یا استفاده از داده های موجود و طراحی نامناسب از تجزیه و تحلیل سیستم های هوشمند در حجم بسیار زیادی از اطلاعات وجود دارد. بنابراین در این مقاله سعی شده است به معرفی الگوریتم های رایج که در دسته بندی و داده کاوی و کاربردهای آنها استفاده می شود، پرداخته شود.

-1 مقدمه

داده کاوی و کشف دانش در پایگاه داده ای که مقدار قابل توجهی از تحقیقات، صنعت، و توجه رسانه ها را به خود اختصاص داده اهمیت ویژه دارد. چگونگی داده کاوی و کشف دانش در پایگاه داده های مربوطه تعامل هر دو به یکدیگر و زمینه های مرتبط، مانند یادگیری ماشینی، آمار، و پایگاه داده ها در اینجا مطرح میشود. برنامه های کاربردی دنیای واقعی، تکنیک های داده کاوی خاص، الگوریتم ها و چالش های آن توسط این تحقیق ، و جهت تحقیقات آینده در این زمینه نگارش شده است .[2-1]

داده کاوی یک تلاش چند جانبه برای استخراج اطلاعات از داده ها است. گسترش مجموعه داده های بزرگ در بسیاری از حوزه ها چالش بی سابقه ای ایجاد کرده است. نه تنها مجموعه داده بزرگتر، اما نوع جدیدی از داده ها شایع می شوند، مانند جریان داده در وب، در ژنتیک، Motoda، Setiono، و ژائو که با توجه به گستردگی آن، انتخاب ویژگی های خاص مجموعه داده اهمیت پیدا خواهد کرد.

محققان به این مسله دست یافتند که به منظور دستیابی به داده کاوی موفق، انتخاب ویژگی اجزاء اجتناب ناپذیر است .[3]خوشه بندی یک فرایند تقسیم مجموعه ای از داده - و یا اشیاء - به مجموعه ای معنی دار از زیر کلاس، به نام خوشه است. در این حالت کمک به درک گروه بندی طبیعی و یا ساختار در مجموعه داده ها پدید خواهد آمد. خوشه بندی به عنوان یک ابزار مستقل برای به دست آوردن بینش به توزیع داده ها و یا به عنوان یک گام پیش پردازش برای الگوریتم های دیگر استفاده می شود .[4] در بخش سوم این مقاله، خوشه بندی توسط الگوریتم های K-means و EM به طور مفصل شرح داده میشود

-2 مراحل استخراج داده

روند کلی یافتن و تفسیر الگوهای داده ای شامل استفاده مکرر از مراحل زیر است:[5]

1.    درک درستی از بارگذاری و توسعه داده: دامنه نرم افزار دانش قبلی مربوطه اهداف نهایی کاربر

2.    ایجاد یک مجموعه داده به عنوان داده هدف: انتخاب یک مجموعه داده، و یا تمرکز بر روی یک زیر مجموعه از متغیرها، و یا نمونه داده، که در آن کشف شده است، باید انجام شود.

3.    تمیز کردن و پیش پردازش داده ها.

حذف سر و صدا یا نویز جمع آوری اطلاعات لازم برای مدلسازی و یا محاسبه نویز استراتژی برای یازیابی اطلاعات از دست رفته در زمینه داده حسابداری اطلاعات با توالی زمانی و تغییرات شناخته شده .4 کاهش داده و طرح ریزی پیدا کردن ویژگی های مفید برای نشان دادن داده بسته به هدف از این کار. کاهش تعداد موثر از متغیرهای تحت بررسی و یا ایجاد تضمینی ثابت برای داده ها.

.5 انتخاب کار داده کاوی

تصمیم گیری این که آیا هدف از فرآیند KDD طبقه بندی، رگرسیون، خوشه بندی، و غیره چیست .6 انتخاب الگوریتم های داده کاوی روش انتخاب برای جستجوی الگوها در داده استفاده می شود. تصمیم گیری مدل و پارامترهای مناسب. تطبیق یک روش داده کاوی خاص با معیارهای کلی از روند .KDD

.7 داده کاوی.

جستجو برای الگوهای مورد علاقه در یک فرم بازنمودی خاص و یا مجموعه ای از چندین طرح به عنوان اصول و قوانین طبقه بندی در درختان، رگرسیون، خوشه، و غیره.

.8 تفسیر الگوهای استخراج شده ..9 تحکیم و تثبیت دانش کشف شده یا به عبارتی اطلاعات بازیابی شده.

-3 الگوریتم های مورد استفاده در داده های بزرگ

در اینجا به معرفی ده الگوریتم خاص مورد استفاده در پردازش و استخراج داده که توسط پژوهشگران برتر، انتخاب شده، پرداخته میشود. از جمله کارایی الگوریتم، شهود پشت الگوریتم، روش پیاده سازی، در دسترس بودن الگوریتم، دلیل استفاده از آنها، و برنامه های کاربردی هریک از آنها است. الگوریتم های مورد استفاده در پردازش داده های بزرگ عبارتند از:

1.    C4.5

2.    k-means

3.    Support vector machines

4.    Apriori

5.    EM

6.    PageRank

7.    oost AdaB

8.    kNN

9.    Naive Bayes

CART .10

C4.5  -1-3

C4.5 یک طبقه بندی ساختاری به شکل یک درخت تصمیم گیری است. به منظور انجام این کار، C4.5 مجموعه ای از داده به نمایندگی از داده هایی که در حال حاضر طبقه بندی داده شده است ارائه میدهد. یک طبقه بندی کننده، ابزاری است که در داده کاوی یک دسته از داده به نمایندگی از آنچه که ما می خواهیم طبقه بندی کنیم، و تلاش برای پیش بینی کلاس داده های جدید است.

فرض کنید یک مجموعه داده شامل یک دسته از بیماران موجود است. ما می دانیم که همه اطلاعات مختلف در مورد هر بیمار مانند سن، نبض، فشار خون، VO2max ، سابقه خانوادگی، و غیره ویژگیهای مشخص بیمار هستند. اکنون، با توجه به این ویژگی، ما می خواهیم به پیش بینی این که آیا بیمار سرطان خواهند گرفت بپردازیم. بیمار می تواند به یکی از 2 کلاس ابتلا به سرطان و یا عدم ابتلا به سرطان قرار گیرد. C4.5 کلاس برای هر بیمار است. در اینجا با استفاده از مجموعه ای از ویژگی بیمار و کلاس مربوطه بیمار، ابزار C4.5 درخت تصمیم گیری ای ایجاد میکند که می تواند داده های بیماران جدید را بر اساس ویژگی های کلاسه بندی و وضعیت او را پیش بینی کند.

در نهایت: در هر نقطه از فلوچارت یک سوال در مورد ارزش برخی از ویژگی است، و بسته به آن ارزش، بیمار طبقه بندی می شود. شما می توانید تعداد زیادی از نمونه هایی از درخت های تصمیم گیری پیدا کنید. اما مسله مهم این است که آیا این تحت نظارت و یا بدون نظارت است؟ این روش داده خوانی، از مجموعه داده آموزش با کلاس برچسب شده و مشخص است. با استفاده از مثال بیمار، C4.5 به خودی خود یاد نمیدهد که یک بیمار مبتلا به سرطان و یا ابتلا به سرطان است بلکه تولید یک درخت تصمیم گیری میکند و با استفاده درخت تصمیم گیری به طبقه بندی داده ها میپردازد. ممکن است تصور شود که چگونه C4.5 متفاوت از دیگر سیستم های درخت تصمیم گیری است؟

اول از همه، C4.5 با استفاده از به دست آوردن اطلاعات در هنگام ایجاد درخت تصمیم گیری عمل میکند. دوم، اگر چه سیستم های دیگر نیز ترکیب هرس سازی دارند، C4.5 با استفاده از یک فرایند هرس تک پاس برای کاهش سوم، C4.5 می تواند با هر دو داده پیوسته و گسسته کار کند. این کار را با تعیین محدوده و یا آستانه برای داده های پیوسته در نتیجه تبدیل داده های مستمر را به داده های گسسته است.

در نهایت، اطلاعات ناقص نیز با روش های مربوط به خودش پرداخته و مرتب میشود. مسلما، بهترین نقطه فروش از درخت های تصمیم گیری سهولت آنها در تفسیر و توضیح است. آنها همچنین بسیار سریع بوده کاملا مردمی است و خروجی قابل خواندن توسط انسان را دارا هستند. استفاده از این متد ها در پیاده سازی منبع باز جاوا را می توان در OpenTox مشاهده کرد. ORANGE، منبع باز تجسم سازی داده ها و ابزار تجزیه و تحلیل داده کاوی، از C4.5 در طبقه بندی درخت تصمیم گیری خود استفاده می کند.

در شرکت اوراکل، در قسمت guide ، از درخت تصمیم گیری استفاده میشود. همچنین، داده کاوی ابزار weka، در IBM نیز بر عهده این الگوریتم است. C4.5، یک ابزار قدرتمند در پیش بینی و بررسی داده های خام کمپانی SAP محسوب میشود، که در اصل، کمک میکندرفتار و نیاز مشتری در قبال یک پیشنهاد پیشبینی شده، و برای ادامه ارتباط، راهکار ارائه میکند. این کمپانی با استفاده از حذف پارامتر انسانی، از هرگونه دخالت سلیقه ای و شخصی بر طراحی درخت تصمیم گیری، دقت عمل کار را بالا برده در مجموع، قابلیت بالایی در حفظ و ارائه داده ها دارد.

K-means .2-3

K-means یعنی ایجاد گروه های k از یک مجموعه ای از اشیاء به طوری که اعضای یک گروه در آن مشابه هستند. این یک روش تجزیه و تحلیل خوشه ای رایج برای کاوش یک مجموعه داده است. تجزیه و تحلیل خوشه یک خانواده از الگوریتم های طراحی شده به شکل گروه به طوری که اعضای گروه در مقابل اعضای غیر گروه مشابهت بیشتری به هم دارند.

خوشه ها و گروه ها در مبحث تجزیه و تحلیل خوشه واژه های مترادفی هستند. فرض کنید یک مجموعه داده از بیماران در دسترس باشد، در تجزیه و تحلیل خوشه ای، این امر می تواند مشاهدات نامیده می شود. ما می دانیم که همه داده های مختلف در مورد هر بیمار مانند سن، نبض، فشار خون، VO2max ، کلسترول، و غیره این یک بردار به نمایندگی از بیمار است.

اساسا می توان از یک بردار به عنوان یک لیست از اعداد در مورد بیمار استفاده کرد. این لیست همچنین می تواند در فضای چند بعدی مختصات نیز تفسیر شود. بهترین بخش K-means، این است که به آن تعداد خوشه مورد نظر داده میشود و K-means بقیه فرایند را انجام میدهد؛ به این صورت که K-means بسیاری از متغییر های خاص برای بهینه سازی انواع خاصی از داده را دارا است.

در سطح بالا، و همه آنها چیزی شبیه به این روند را دنبال میکنند: K-means چند نقطه در فضای چند بعدی به نمایندگی از هر خوشه k انتخاب میکند. این نقطه ها به نام centroids هستند. هر بیمار نزدیک به یکی از این centroids K خواهد بود. به طور ایده ال، همه بیماران نزدیک به یکی از این مراکز نیستند و معمولا به صورت اجنماعی از داده در اطراف تعدادی از این هسته ها قرار گرفته اند، به طوری که آنها در اطراف یک خوشه، نزدیکترین مرکز خود را تشکیل می دهند.

هر بیمار در حال حاضر یک عضو از یک خوشه است. K-means سپس، مرکزی برای هر خوشه بر اساس اعضای آن خوشه می یابد - با استفاده از بردارهای بیمار - . این مرکز، به مرکز جدیدی برای خوشه مبدل میشود. از آنجا که در حال حاضر مرکز در یک مکان مختلف قرار گرفته، بیمار نیز ممکن است در حال حاضر به دیگر centroids نزدیک تر باشد.

به عبارت دیگر، آنها ممکن است خوشه عضویت را تغییر دهند. مراحل 6-2 تکرار می شود تا زمانی که centroids دیگر تغییر نکند، و عضویت در خوشه ثبات پیدا کند. این فرایند به نام همگرایی شناخته میشود. K-means علاوه بر تعیین تعداد خوشه ها، یاد گیری آنها را بدون هیچ گونه اطلاعاتی در رابطه با داده مربوطه به آن فرا میگیرد.

نکته کلیدی در فراگیری K-means سادگی آن است. سادگی آن بدان معنی است که به طور کلی سریع تر و کارآمد تر از الگوریتم های دیگر، به ویژه در مجموعه داده های بزرگ است. K-means می تواند برای پیش خوشه های یک مجموعه داده های بزرگ به دنبال یک تجزیه و تحلیل خوشه ای گران تر در زیر خوشه مورد استفاده قرار گیرد.K-mean همچنین می تواند به سرعت در حال "بازی" با K استفاده می شود و در بررسی اینکه آیا الگوها یا روابط در مجموعه داده نادیده گرفته است، به کار گرفته شود. دو ضعف کلیدی این برنامه، حساسیت آن نسبت به نقاط دورافتاده و حساسیت آن نسبت به انتخاب اولیه centroids است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید