بخشی از مقاله
چكيده
در دنياي پزشكي امروز،دادههاي مربوط به علائم بيماران مبتلا به بيماريهاي گوناگون و نتايج روشهاي كمكي براي تشخيص اين بيماريها، بسيار وسيع و گسترده هستند، به طوري كه معمولاً تحليل و در نظر گرفتن همه جنبهي كليه عوامل دخيل توسط يك فرد، دشوار به نظر ميآيد. اين جاست كه نياز به يك سيستم مكانيزه براي كمك به كشف الگوهاي موجود و هم چنين پيش بيني رخدادهاي آتي كاملاً احساس ميشود. دانش داده كاوي به عنوان ارائه كنندهي اين سيستم
مكانيزه كمكهاي شاياني در پيشرفتهاي پزشكي به ويژه در زمينهي تشخيص بيماريهاي گوناگون كرده است. در بعضي از بيماريها در صورت تشخيص ديرهنگام، ميتوانند به عنوان عوارض جدي و خطرناك و حتي به مرگ منجر شوند، لذا تشخيص به موقع آنها براي پيشرفت درمان ضروري است. در اين مقاله به بررسي تأثيرات الگوريتمهاي داده كاوي در بيماريها و علوم پزشكي پرداختهايم.
واژگان كليدي: دادهكاوي، شبكه عصبي، درخت تصميم
مقدمه:
داده كاوي فرآيند است خودكار براي استخراج الگوهايي كه دانش را بازنمايي ميكنند، كه اين دانش به صورت ضمني در پايگاه دادههاي عظيم، انباره داده و ديگر مخازن برزرگ اطلاعات، ذخيره شده است. داده كاوي، به طور همزمان از چندين رشته علمي، نظير: تكنولوژي پايگاه داده، هوش مصنوعي، يادگيري ماشين، شبكههاي عصبي،آمار، شناسايي الگو، سيستمهاي مبتني بر
دانش،حصول دانش، بازيابي اطلاعات، محاسبات سرعت بالا و بازنمايي بصري داده بهره ميبرد. داده كاوي در اواخر دهه 1980 پديدار گشته، در دهه 1990 گامهاي بلندي در اين شاخه از علم برداشته شده و انتظار ميرود در اين قرن به رشد و پيشرفت خود ادامه دهد؛ و افزايش روز افزون پيشرفت در زمينه تكنولوژي اطلاعات باعث شده كه رشد چشمگيري در علوم مختلف به وجود آيد. يكي از اين رشتهها كه تغيير در آن قابل ملاحظه است،رشته پزشكي ميباشد. استفاده از تكنيكهاي داده كاوي در اين شاخه از علم باعث شده كه در كليه مباحث مخصوصاً تشخيص بيماريها كمك بسياري به پزشكان شود.
1-1-تاريخچه داده كاوي:
در يك تحقيق كه بر روي گروههاي تجاري بسيار بزرگ در جمعآوري دادهها صورت گرفته مشخص گرديد كه 19 درصد از اين گروهها داراي پايگاه دادههايي با سطح بيشتر از 50 گيگا بايت ميباشند و 59 درصد از آنها انتظار دارند كه در آيندهاي نزديك در چنين سطحي قرار گيرند.
در صنايعي مانند كارتهاي اعتباري و ارتباطات و فروشگاههاي زنجيرهاي و خريدهاي الكترونيكي و اسكنرهاي باركد خوان هر روزه دادههاي زيادي توليد و ذخيره ميشوند. افزايش سرعت كامپيوترها باعث به وجود آمدن الگوريتمهايي شده است كه قدرت تجزيه و تحليل بسيار بالايي دارند بدون اينكه محدوديتي در زمينه ظرفيت و سرعت كامپيوترها داشته باشند.
در سال 1989 و 1991 كارگاههاي كشف دانش و معرفت ازپايگاه دادهها توسط پياتتسكي و همكارانش برگزار شد. در فواصل سالهاي 1991 تا 1994 كارگاههاي كشف دانش و معرفت از پايگاه دادهها توسط فيياد و پياتتسكي و ديگران برگزار شد. به طور رسمي اصطلاح داده كاوي براي اولين بار توسط فيياد در اولين كنفرانس بين المللي «كشف دانش و داده كاوي» در سال 1995 مطرح شد. امروزه كنفرانسهاي مختلفي در اين زمينه در سراسر دنيا برگزار ميشود.
افزايش دادههاي بسيار باعث پيدايش فرصتهاي تازه براي كار در علوم مهندسي و كسب و كار شده است. زمينه داده كاوي و كشف دانش از پايگاه دادهها به عنوان يك رشته علمي جديد در مهندسي و علوم كامپيوتر ظهور كرده است. مهندسي صنايع با حوزههاي گوناگون و در برداشتن فرصتهاي بينظير اكنون براي كاربرد داده كاوي و كشف دانش از پايگاه دادهها و بري توسعه مفاهيم و روشهاي تازه در اين زمينه آماده است. فرآيندهاي صنعتي زيادي اكنون براي مطمئن شدن از كيفيت سفارشات محصول و كاهش هزينههاي محصول به طور خودكار و كامپيوتري شدهاند.
1-2- داده كاوي چيست؟
نگاهي به ترجمه تحت اللفظي داده كاوي، به ما در درك بهتر اين واژه كمك ميكند. Mine به معناي استخراج از منابع نهفته و با ارزش زمين اتلاق ميشود. پيوند اين كلمه با كلمه داده، جستجويي عميق جهت پيدا كردن اطلاعات اضافي مفيد كه قبلاً نهفته بودند، از دادهاي قابل دسترس حجيم، را پيشنهاد ميكند.
داده كاوي يك رشته نسبتاً جديد علمي ميباشد كه از انجام تحقيقات در رشتههاي آمار، يادگيري ماشين، علوم كامپيوتر خصوصاً مديريت پايگاه دادهها شكل گرفته است.
تعاريف متنوعي از داده كاوي در مراجع مختلف و توسط افراد مختلف ارائه شده از جمله:
1- داده كاوي عبارت است از فرآيند استخراج اطلاعات معتبر، از پيش ناشناخته، قابل فهم و قابل اعتماد از پايگاه دادههاي بزرگ و استفاده از آن در تصميمگيري در فعاليتهاي تجاري مههم.
2- اصطلاح داده كاوي به فرآيند نيمه خودكار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق ميشود.
3- داده كاوي يعني جستجو در يك پايگاه داده ها براي يافتن الگوهايي ميان دادهها.
4- داده كاوي يعني تجزيه و تحليل مجموعه دادههاي قابل مشاهده براي يافتن روابط مطمئن بين دادهها.
5- عبارت داده كاوي مترادف با يكي از عبارتهاي استخراج دانش، برداشت اطلاعات، وارسي دادهها و حتي لايروبي كردن دادههاست كه در حقيقت كشف دانش در پايگاه دادههاي (KDD) را توصيف ميكند.
اما تعريفي كه در اكثر مرجع به اشتراك ذكر شده عبارت است از «استخراج اطلاعات و دانش و كشف الگوهاي پنهان از پايگاه دادههاي بسيار بزرگ و پيچيده». داده كاوي يك متدولوژي بسيار قوي و با پتانسيل بالا مي باشد كه به سازمان ها كمك ميكند كه بر روي مهمترين اطلاعات از مخزن دادهها ي خود تمركز نمايند.
داده كاوي فرآيندي است كه از ابزارهاي تحليلي گوناگوني براي كشف الگوها و روابط بين دادهها استفاده ميكند كه ممكن است براي اعتبار بخشيدن به پيشبيني استفاده شود.
داده كاوي كمك ميكند تا سازمانها با كاوش بر روي دادههاي يك سيستم، الگوها و رفتارهاي آينده را كشف و پيش بيني كرده و بهتر تصميم بگيرند. داده كاوي با استفاده از تحليل وقايع گذشته يك تحليل اتوماتيك و پيش بينانه ارائه مينمايد و به سوالاتي جواب ميدهد كه پاسخ آنها در گذشته ممكن نبوده و يا به زمان زيادي نياز داشته است.
همانگونه كه در تعاريف گوناگون داده كاوي مشاهده ميشود، تقريباً در تمامي تعاريف به مفاهيمي چون استخراج دانش، تحليل و يافتن الگوي بين داده ها اشاره شده است.
1-3-داده كاوي و كشف دانش از پايگاه داده:
اصليترين دليلي كه باعث شده داده كاوي كانون توجهات در علوم پزشكي قرار بگي
رد، مسئله در دسترس بودن حجم وسيعي از دادهها و نياز شديد به اينكه از اين دادهها، اطلاعات و دانش سودمند استخراج ميكنند. داده كاوي عبارت از اقتباس يا استخراج دانش از مجموعهاي از دادهها است.
داده كاوي را ميتوان حاصل سير تكاملي طبيعي تكنولوژي اطلاعات دانست، كه اين سير تكاملي ناشي از يك سير تكاملي در صنعت پايگاه داده، نظير: عمليات جمع آوري دادهها و ايجاد پايگاه داده، مديريت داده و تحليل و فهم داده ميباشد.
به منظور شناسايي و استخراج الگو و روابط جديد كه بتواند دانش جديدي را به ثمر برساند، كشف دانش در پايگاههاي اطلاعاتي روشهايي متنوع و گستردهاي را به كار ميبرد مانند تركيب قدرت رايانه و تخصيص قدرت و مهارت در انسان. كشف دانش داراي مراحل تكراري زير است:
پاك سازي دادهها (از بين بردن نويز و ناسازگاري دادهها)، يكپارچه سازي دادهها (چندين منبع داده تركيب ميشوند)، انتخاب دادهها (دادههاي مرتبط با آناليز از پايگاه داده بازيابي ميشوند)، تبديل كردن دادهها (تبديل دادهها به فرمي كه مناسب براي داده كاوي باشد مثل خلاصه سازي و همسان سازي)، داده كاوي (فرآيند اصلي كه روالهاي هوشموند براي استخراج الگوها از داده ها به كار گرفته ميشوند)، ارزيابي الگو (براي مشخص كردن الگوهاي صحيح و مورد نظر به وسيله معيارهاي اندازهگيري)، ارائه دانش (يعني نمايش بصري، تكنيكهاي بازنمايي دانش براي ارائه دانش كشف شده به كاربر استفاده ميشود). داده كاوي فقط يك ابزار است و نه يك عصاي جادويي. داده كاوي به اين معني نيست كه شما راحت به كنار بنشينيم و ابزارهاي داده كاوي همه كار را انجام دهد.
داده كاوي نياز به شناخت دادهها و ابزارهاي تحليل و افراد خبره در اين زمينهها را از بين نميبرد. داده كاوي فقط به تحليلگران براي پيدا كردن الگوها و روابط بين دادهها كمك ميكند و در اين مورد نيز روابطي كه يافته ميشود بايد به وسيله دادههاي واقعي دوباره بررسي و تست گردد.
1-4- مراحل داده كاوي :
داده كاوي در اين چرخه خود نيز شامل مراحل مختلفي ميباشد كه عبارتند از:
1- تعيين اطلاعات گذشته
2- تميز كردن داده ها و پردازش اوليه. در اين مرحله خطاهاي دادهها تصحيح ميشوند و داده هاي اشتباه جايگزين ميشوند. اين مرحله ممكن است تا 60 درصد از زمان داده كاوي را دربرگيرد.
3- يكپارچه سازي دادهها. معمولاً دادهها از منابع متفاوتي جمع آوري ميشوند بايد به صورتي درآيند كه يك مخزن از داده هاي مناسب ايجاد شود تا بتوان عمليات داده كاوي را بهتر انجام داد.
4- انتخاب مجموعه داده هاي هدف
5- يافتن ويژگيهاي مورد استفاده و تعيين ويژگيهاي جديد
6- نمايش دادهها به صورتي كه بتوان براي داده كاوي استفاده نمود.
7- انتخاب عمليات داده كاوي (طبقه بندي، خوشه بندي، پيش بيني و غيره)
8- انتخاب روش داده كاوي (شبكههاي عصبي، درخت تصميم و نظاير آن)
9- داده كاوي و جستجو براي يافتن الگوي مناسب
10- ارزيابي و تحليل اگلوي به دست آمده و حذف الگوهاي نامناسب
11- تفسير نتايج دادهها و استنتاج از اطلاعات با ارزش
بايد توجه داشت كه جمع آوري و محافظت از دادهها نكته بسيار مهمي ميباشد. اصولاً چون قابل و نوع دادهها در طول زمان تغيير ميكند ممكن است بسياري از دادههاي موجود در قالبهاي متفاوت باشند و همچنين بسياري از دادههاي قديمي از بين رفته و دور ريخته شوند. در حالي كه ممكن است اهميت اين دادها از دادههاي جديد به هيچ وجه كمتر نباشد. همچنين به علت اين كه دادهها ميتوانند از منابع مختلف داخلي و خ ارجي مانند كاركنان شركت، مديران، مشتريان، كارفرمايان، پيمانكاران باشند باز هم ممكن است قالب دادهها با هم يكسان نباشد. به همين دليل انتخاب دادههاي درست و يكپارچه سازي قالب آنها به منظور استفاده در داده كاوي از اهميت بسيار بالايي برخوردار ميباشد. در شكل 1-1 ميتوان مراحل داده كاوي را به اختصار نشان داد.
شكل 1-1 مراحل داده كاوي
1-5-اجزاي اصلي سيستم داده كاوي:
سيستم داده كاوي داراي اجزاي بسيار زيادي ميباشد كه در ادامه به بسياري از آنها ميپردازيم:
پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: كه از مجموعهاي از پايگاه داده ها، انباره داده، صفحه گسترده، يا ديگر انواع مخازن اطلاعات، پاكسازي دادهها و تكنيكهاي يكپارچه سازي روي اين دادهها انجام ميشود.
سرويس دهنده پايگاه داده يا انبار داده: كه مسئول بازيابي دادههاي
مرتبط براساس نوع درخواست داده كاوي كاربر ميباشد.
پايگاه دانش: اين پايگاه از دانش زمينه تشكيل شده تا به جستجو كمك كند يا براي ارزيابي الگوهاي يافته شده از آن استفاده ميشود.
موتور داده كاوي: اين موتور جزء اصلي از سيستم داده كاوي است و به طور ايده آل شامل مجموعهاي از پيمانههايي نظير توصيف، تداعي، كلاس بندي، آناليز خوشهها و آناليز تكامل و انحراف است.
پيمانه ارزيابي الگو: اين جزء معيارهاي جذابيت را به كار ميبندد و با پيمانه داده كاوي تعامل ميكند، بدين صورت كه تمركز آن بر جستجو بين الگوهاي جذاب ميباشد، و از يك حد آستانه جذابيت استفاده ميكند تا الگوهاي كشف شده را ارزيابي كند.
واسط گرافيكي كاربر: اين پيمانه بين كاربر و سيستم داده كاوي ارتباط برقرار ميكند، به كاربر اجازه ميدهد تا با سيستم داده كاوي از طريق پرس و جو ارتباط برقرار كند. اين جزء به كاربر اجازه ميدهد تا شماي پايگاه داده يا انباره داده را مرور كرده، الگوهاي يافته شده را ارزيابي كرده و الگوها را در فرمهاي بصري گوناگون، بازنمايي كند.
1-6- عمليات داده كاوي:
مجموعه عملياتي را كه روش داده كاوي قادر به انجام آن است در ذيل به صورت كامل تشريح شدهاند.
1-6-1- طبقه بندي و پيشگويي
طبقه بندي يكي از عمليات رايج و مورد استفاده در داده كاوي است. طبقهبندي عملياتي است كه سازمانها را قادر ميسازد كه در حل مسائل خاص در مجموعههاي بزرگ و پيچيده به كشف الگوها دست يابند. طبقهبندي فرآيندي ميباشد كه مجموعه دادهها را به قسمتهاي مشخص تقسيم ميكند. براي مثال مشتريان يك شركت بيمه را براساس خصوصياتشان به دو گروه با ريسك بالا و ريسك پائين تقسيم ميكند. با اين كار در واقع مشتريان اين شركت طبقهبندي شدهاند.
سادهترين روشي كه براي طبقهبندي به نظر مي رسد گذاشتن حدي براي دستهها مي باشد، مثلاً افراد با درآمد بالاي مقداري مشخص را به يك دسته و افراد با درآمد پائينتر از آن را به يك دستهي ديگر تخصيص دهيم.
ميشل (1997)، مولر و چركاسكي (1998)، تعدادي از روشهايي كه مي توانند جهت داده كاوي مسائل طبقهبندي به كاربرده شوند، شامل: درخت تصميم و شبكههاي عصبي و نظير اينها را ارايه كردند. اين روشها در دامنه گستردهاي از زمينههاي مهندسي به كار برده ميشوند. براي نمونه، شبكههاي عصبي در كنترل بازخوردها براي كشف الگوها و آشكارسازي خروجي مناسب كنترل شده به كاربرده ميشوند.
طبقه بندي دادهها يك فرآيند دو مرحلهاي ميباشد. در گام اول، يك مدل براساس مجموعه دادههاي آموزشي موجود در پايگاه داده ها ساخته ميگردد. مجموعه دادههاي آموزشي از ركوردها، نمونهها،مثالها و يا اشيائي كه شامل مجموعهاي از صفات يا جنبه ها ميباشد، تشكيل شدهاند. هر نمونه يك برچسب كلاس معلوم دارد، كه در يكي از صفات به نام برچسب كلاس مشخص شده است. به هر يك از نمونه هاي مجموعه دادههاي آموزشي، يك نمونه آموزشي گويند، كه به طور تصادفي از مجموعه دادهها انتخاب ميشود. زماني كه برچسب كلاس آموزشي مشخص باشد، اين مرحله از يادگيري را يادگيري نظارت شده (يادگيري
با ناظر) مينامند. نوع ديگري از يادگيري بدون نظارت (يادگيري بدون ناظر) ميباشد،كه در آن برچسب كلاس هر نمونه آموزشي نامعلوم است (مانند خوشه بندي). به طور معمول،مدلهاي ساخته شده به فرمهايي از قواعد طبقهبندي و درخت تصميم نشان داده ميشوند.
به عنوان مثال يك پايگاه داده ها شامل اطلاعات مشتريان كارتهاي اعتبراي را در نظر بگيريد، قواعد طبقهبندي ميتواند جهت طبقه بندي مشتريان به نرخ اعتبار عالي و خوب ساخته شوند. از اين قواعد ميتوان جهت طبقه بندي نمونه دادههاي جديد استفاده كرد.
در گام دوم مدل براي طبقه بندي مناسب مشتريان جديد استفاده ميشود. قواعد يادگيري
كه از تحليل دادههاي مشتريان موجود حاصل شده است، ميتواند براي پيشگيري كلاس اعتبار مشتريان جديد با آينده مورد استفاده قرار گيرد.
از نقطه نظر كلي، طبقه بندي و رگرسيون دو نوع اصلي از مسائل پيشگويي هستند، كه طبقه بندي جهت پيشگوي مقادير گسسته و اسمي مورد استفاده قرار ميگيرد، در حالي كه رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار ميگيرد. در اينجا ما پيشگويي را براي پيشگويي برچسب كلاس به عنوان طبقه بندي و براي پيشگويي مقادير پيوسته، به عنوان پيشگويي معرفي ميكنيم.
طبقه بندي و پيشگويي كاربردهاي زيادي در بازرگاني، بانكداري، پزشكي، ارتباطات، كشاوريز و غيره دارد.
طبقه بندي را ميتوان به عنوان يك فرآيند دو مرحلهاي در نظر گرفت. اول، يك مدل طبقه بندي با توجه به مجموعه دادههاي آموزشي ساخته ميشود. چنين مدلي ميتواند به فراهم كردن يك درك بهتر از دادههاي گمشده كمك كند. به طور معمول، اين مدلها به فرمهايي از درخت تصميم، يا فرمولهاي رياضي نمايش داده ميشود. سپس مدل ميتواند قوانين اگر- آنگاه را جهت پيشگويي برچسبهاي كلاس دادههاي جديد كه داراي برچسب كلاس نامعلوم هستند، مورد استفاده قرار دهد.
1-6-1-1- روشهاي طبقه بندي:
روشهاي طبقه بندي در داده كاوي عبارتند از:
1- رگرسيون خطي چند گانه
2- رگرسيون لجستيك
3- تحليل مميزي
4- بيز ساده
5- شبكههاي عصبي
6- درختهاي تصميم
7- K- نزديكترين همسايگي
1-6-2- خوشه بندي:
خوشه بندي يكي از مهمترين ابزار كشف دادهها است كه در كشفهاي تصادفي به كار گرفته ميشود. در حال حاضر، اخذ دانش يك گلوگاه عمده در فرآيند مهندسي دانش محس
وب ميشود. الگوريتمهاي يادگيري ماشين و داده كاوي با هدف استخراج دانش از دادهها، به عنوان روشي براي حل اين مشكل مطرح ميباشند. يك رهيافت متداول در اين زمينه روش خوشه بندي است كه براي تصميمگيري يا طبقه بندي يا كلاس بندي ميتواند تصميمات نماديني را به نمونههاي جديد با استفاده از نمونههاي موجود متسب كنند. روشهاي خوشه بندي به واسطه قابليت دركي كه در خود نهفته دارند، از اقبال خوبي برخوردار شده اند. وجود قابليت درك از جه
ات گوناگوني حائز اهميت ميباشد: فهم قلمرو، درك قابليتهاي كلاسبندي، توجيه تصميم و بالاخره وجود قوانيني نماديني كه ميتوانند از روي خوشههاي استخراج شده و سپس در يك سيستم تصميمگيري مبني بر قوانين به كار گرفته شوند.
خوشهبندي در واقع يك عمليات غيرنظارتي ميباشد. اين عمليات هنگامي استفاده ميشود كه ما به دنبال يافتن گروههايي از دادههاي مشابه ميباشيم بدون اينكه از قبل پيش بيني در مورد شباهتاي موجود داشته باشيم. خوشه بندي معمولاً هنگامي استفاده ميشود كه به دنبال يافتن گروههايي از مشتريان هستيم كه قبلاً شناخته نشدهاند. براي مثال ميتوان شباهتهاي مشتريان در استفاده از تلفن همراه را به منظور گروهبندي مشتريان و تشخيص خدمت جديدي جستجو نمود.
خوشه بندي عملي است كه در طي آن گروههايي از دادهها و يا اقلام وجود دارند به طوري كه هر مورد به يك خوشه نسبت داده ميشوند واعضاي داخل خوشه نيز بايد داراي شباهت ذاتي با هم باشند و معيار اندازهگيري شباهت بايد كاملاً مشخص باشد و براي هر جفت از موارد قابل محاسبه باشد. بنابراين در هر خوشه يك خود شباهتي بين اقلام آن خوشه وجود دارد.
پايگاههاي داده بسيار بزرگ ممكن است شامل متغيرهاي بسيار زياد، ابعاد بسيار بزرگ و ساختار بسيار پيچيده باشند به طوريكه حتي بهترين روشهاي داده كاوي مستقيم هم نمي توانند الگوهاي معني داري در آنها را استخراج نمايند. در خيلي از موارد مشكل اين نيست كه الگويي براي كشف شدن وجود ندارد بلكه در واقع تعداد زيادي الگو وجود دارد ولي روشهاي داده كاوي براي جواب دادن به سوالي كه مطرح شده است، الگويي كشف نميكنند.
در بازاريابي ممكن است افراد، جامعه را به وسيله متغيرهايي كه از قبل به عنوان معيارهاي مناسبي ميشناختيم طبقهبندي نماييم. در حالي كه ممكن است به دليل پيچيدگي پايگاه دادهها نظري در مورد متغيرهاي طبقهبندي كننده و يا چگونگي تعيين و يا خوشه ها نداشته باشيم. در اين گونه موارد است كه به سراغ روشهاي خوشه بندي ميرويم.
خوشه بندي يك روش داه كاوي غير مستقيم است. براي اكثر روشهاي داده كاوي مثل درخت تصميم گيري و شبكههاي عصبي، با يك مجموعه آموزشي شروع كرده و به كمك اين مجموع
ه سعي ميشود يك مدل براي بخشبندي داده ها، ايجاد گردد. سپس از آن مدل براي پيش بيني دادههاي جديد استفاده شود.
در روش خوشه بندي هيچ دستهاي از قبل وجود ندارد و در واقع متغيرها به صورت مستقل و وابسته تقسيم نميشوند. بلكه ما در اينجا به دنبال گروههايي از دادهها هستيم كه به هم
شباهت دارند و با كشف اين شباهتها ميتوان رفتارها را بهتر شناسايي كرد و بر مبناي آنها طوري عمل كرد كه نتيجه بهتري حاصل شود.
1-6-3- تحليل روابط و وابستگيها :
پيشرفت تكنولوژي فروشگاههاي خرده فروشي را قادر ساخته است حجم زيادي از دادههاي مربوط به خريد هر يك از مشتريان كه از آن به عنوان سبد بازار ياد ميشود را جمع آوري و ذخيره نمايند. فراهم بودن جزئيات اطلاعات ثبت شده مشتريان منجر به بهبود روشهايي شده است كه به طور اتوماتيك روابط بين آيتمهايي كه در پايگاه دادهها انبارش شدهاند را جستجو ميكنند.
همزمان با پيدايش علم داده كاوي در اوايل دهه 90 الگوريتمهاي استخراج قوانين وابستگي از پايگاه دادهها نيز پابه عرصه گذاشت. نويسندگان زيادي در زمينه استخراج قوانين وابستگي در پايگاه دادهها بحث كردهاند. در به مقايسهي الگوريتمهاي مهم استخراج قوانين وابستگي، مزيتها و معايب الگوريتمها پرداخت شده است.
اساساً ارتباط ميان مجموعه اشياء وابستگيهاي جالب توجهي هستند كه منجر به امكان آشكارسازي الگوهاي مفيد و قوانين وابستگي براي پشتيباني تصميم، پيش بينيهاي مالي،سياستهاي بازاريابي، وقايع پزشكي و خيلي كاربردهاي ديگر ميشود. در حقيقت توجهات زيادي را در تحقيقات اخير به خود جلب كرده است.
تحليل وابستگيها يك حالت غير نظارتي داده كاوي ميباشد كه به جستجو براي يافتن ارتباط در مجموعه دادهها ميپردازد. يكي از كاربرديترين حالات تحليل وابستگيها «تجزيه تحليل سبد بازار» ميباشد كه در آن هدف يافتن كالاهايي است كه معمولاً به طور همزمان خريدار ميشوند. اين كار كمك ميكند كه خرده فروشان بهتر بتوانند كالاهاي خود را سازماندهي كرده و چيدمان بهتري از محصولات خود داشته باشند.
دادههاي موجود در سبد بازار نشان دهنده خريد مشتري در يك زمان خاص هستند. هر مشتري خريد مجزايي را در كميتههاي مختلف و زمانهاي متفاوت انجام ميدهد. با تجزيه و تحليل سبد بازار بينشي براي خرده فروشان از اينكه چه محصولاتي با هم خريداري ميشوند فراهم ميگردد و بنابراين ميتوانند رفتار خريد مشتريان را پيش بيني كنند اين كار به آنها كمك ميكند كه بهتر بتوانند كالاهاي خود را سازماندهي كرده و چيدمان بهتري از محصولات خود داشته باشند و بنابراين سودآوري خود را افزايش دهند.
1-6-4- پيش بيني :
در طبقه بندي گروههايي مشخص مي شوند كه اقلام به آنها تعلق دارند. پيشگوييهايي كه براساس مدلهاي طبقه بندي ارايه ميشوند داراي يك خروجي گسسته ميباشد كه مشخص ميكند كه مثلاً يك مشتري جزء گروه با پاسخ مثبت است يا منفي و يك مريض جزء گروه با ريسك بالا است يا پائين. ولي پيش بيني بر خلاف پيش گويي يك مقدار پيوسته را پيش بيني ميكند مثلاً تقاضاي آينده با قيمت نفت در سال آينده. پيش بيني معمولاً به وسيله رگرسيون (عملياتي كه با
تعيين ارتباط بين متغيرها به پيش بيني ميپردازد) صورت ميگيرد. بستههاي نرم افزار مانند SAS و SPSS معمولاً توانايي حل مسالههاي پيجيده را فراهم مينمايند. ولي استفاده از چنين عمليات آماري نياز به دانش بالاي آمار در خصوص شرايط و چگونگي استفاده از اين ابزارها را دارد. ابزارهاي داده كاوي نظير شبكههاي عصبي نيز به وفور براي پيش بيني استفاده ميشود.
از مسايل ساده پيش بيني عبارتند از: پيش بيني مقادير پيوسته براساس يكسري دادههاي موجود. براي مثال پيش بيني درآمد يك فرد براساس مشخصات فرد. ابزارهايي نظير درخت تصميم گيري و شبكههاي عصبي چنين كاري را انجام ميدهند.
از مسايل پيچيده پيش بيني ميتوان به پيش بيني يك يا چند مقدار براساس الگوهاي تكراري و متوالي مانند سطح سهام بازار در 30 روز آينده براساس دادههاي 6 ماه گذشته اشاره كرد. ابزارهاي داده كاوي به سختي چنين پيش بينيهايي را انجام ميدهند. در اين گونه مواقع دادههاي موجود بايد به صورتي مناسب و در جهت مناسب استفاده شوند و فرمت دادههاي خروجي به درستي مشخص باشد. همچنين در اين گونه پيش بيني ها نياز به يك تحليلگر به منظور پردازش دادههاي ورودي و تحليل دادههاي خروجي بيشتر احساس ميشود.
1-7-زيربناي داده كاوي:
تكنيكهاي داده كاوي نتيجهي تحقيقات گسترده و بلند مدتي است كه در طول سالها براي افزايش بازدهي تجاري موسسات بكار برده ميشدند. تحقيقات در اين زمينه از زماني آغاز شد كه براي نخستين بار اطلاعات تجاري هر سازمان، بر روي سيسمتهاي ذخيره سازي آن زمان كه ا زنوع
مغناطيسي بودند، ذخيره شدند. اين رشته تحقيقات با توسعه و پيشرفت سيسمتهاي اطلاعات كه قابليت ذخيرهي حجم بيشتري از دادهها را فراهم ميكردند و همچنين از سرعت بسيار بالاتري در ذخيره سازي و بازيابي اطلاعات برخوردار بودند،اهميت بشتري يافت. روشهاي دسترسي تصادفي يا رندم به اطلاعات و پيدايش روشهاي حركت در ميان دادهها، خصوصاً بصورت بلادرنگ، فناوري داده كاوي را متحول ساخت.
روشهاي داده كاوي بر پايههاي زير استوار هستند:
• گردآوري حجم عظيمي داده
• كامپيوترهاي چند پردازندهي قدرتمند
• الگوريتمهاي داده كاوي
در سالهاي 1960 صنعت گردآوري اطلاعات و امكان ذخيرهي دادهها در تجهيزاتي نظير نوار و دي
سك توسط شركتهايي كه IBM و CDC از پيشگامان آنها بودند، شكل تجاري به خود گرفت. با رواج چنين مكانيسمهايي تبادل استاتيك اطلاعات امكانپذير شده، پرسشهاي تجاري از قبيل آنكه سود خالص شركت در پنج سال آخر فعاليت چقدر بود هاست؟ پاسخ داده ميشود. 20 سال بعد از فناوري فوق، با پيشرفتهاي نرم افزاري و استفاده از بانكهاي اطلاعاتي رابطهاي و زبان جستجوي ساخت يافته توسط شركتهاي موفقي همچون ORACLE، SYBASE، INFORMIX، BM، MICROSOFT و ... اطلاعات در همان لحظهي ثبت شدن قابل تبادل بودند. بعبارت ديگر تبادل اطلاعات بصورت ديناميك امكانپذير شده بود. نمونهاي از سوالات تجاري كه اين سيستم پاسخگوي آن است چنين بود: «مقدار فروش شعب (كشور يا شهر مورد نظر) در ماه مارس گذشته چه ميزان بوده است؟». در سالهاي دههي نود نوبت به تكنولوژيهايي همچون انبار دادهها و امكانات تصميمگيري نرم افزاري رسيد.
1-8- تكنولوژيهاي مرتبط با داده كاوي:
1- پردازش تحليل روي خط OLAP-5
2- بانكهاي اطلاعاتي چند بعدي
3- انبار دادهها
پيشگامان ابزارهاي نرم افزاري چنين تكنولوژيهايي شركتهايي نظير Pilot, Comshare, Arbor Cognos،Microstrategy بودند. البته بلافاصله در همان زمان شركتهايي نظير ORACLE, IBM
MICROSOFTكه امروزه نام آنها را در همه جا مشاهده ميكنيم نيز كنترل جريان را بدست گرفته و نرم افزارهاي آنها بازار را تسخير كرد. هستهي فناوري داده كاوي شامل علوم آمار، هوش مصنوعي، آموزش ماشين و علوم نوين ديگري است كه در طول سالهاي گذشته پيشرفت قابل توجهي داشته است.