مقاله در مورد داده کاوی در پزشکی

word قابل ویرایش
43 صفحه
5700 تومان

چکیده
در دنیای پزشکی امروز،‌داده‌های مربوط به علائم بیماران مبتلا به بیماری‌های گوناگون و نتایج روش‌های کمکی برای تشخیص این بیماری‌ها، بسیار وسیع و گسترده هستند، به طوری که معمولاً تحلیل و در نظر گرفتن همه جنبه‌ی کلیه عوامل دخیل توسط یک فرد، دشوار به نظر می‌آید. این جاست که نیاز به یک سیستم مکانیزه برای کمک به کشف الگوهای موجود و هم چنین پیش بینی رخدادهای آتی کاملاً احساس می‌شود. دانش داده کاوی به عنوان ارائه کننده‌ی این سیستم

مکانیزه کمک‌های شایانی در پیشرفت‌های پزشکی به ویژه در زمینه‌ی تشخیص بیماری‌های گوناگون کرده است. در بعضی از بیماری‌ها در صورت تشخیص دیرهنگام، می‌توانند به عنوان عوارض جدی و خطرناک و حتی به مرگ منجر شوند، لذا تشخیص به موقع آن‌ها برای پیشرفت درمان ضروری است. در این مقاله به بررسی تأثیرات الگوریتم‌های داده کاوی در بیماری‌ها و علوم پزشکی پرداخته‌ایم.
واژگان کلیدی: داده‌کاوی، شبکه عصبی، درخت تصمیم

مقدمه:
داده کاوی فرآیند است خودکار برای استخراج الگوهایی که دانش را بازنمایی می‌کنند، که این دانش به صورت ضمنی در پایگاه داده‌های عظیم، انباره داده و دیگر مخازن برزرگ اطلاعات، ذخیره شده است. داده کاوی، به طور همزمان از چندین رشته علمی، نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه‌های عصبی،‌آمار، شناسایی الگو، سیستم‌های مبتنی بر

دانش،‌حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده بهره می‌برد. داده کاوی در اواخر دهه ۱۹۸۰ پدیدار گشته، در دهه ۱۹۹۰ گام‌های بلندی در این شاخه از علم برداشته شده و انتظار می‌رود در این قرن به رشد و پیشرفت خود ادامه دهد؛ و افزایش روز افزون پیشرفت در زمینه تکنولوژی اطلاعات باعث شده که رشد چشم‌گیری در علوم مختلف به وجود آید. یکی از این رشته‌ها که تغییر در آن قابل ملاحظه است،‌رشته پزشکی می‌باشد. استفاده از تکنیک‌های داده کاوی در این شاخه از علم باعث شده که در کلیه مباحث مخصوصاً تشخیص بیماری‌ها کمک بسیاری به پزشکان شود.

۱-۱-تاریخچه داده کاوی:

در یک تحقیق که بر روی گروه‌های تجاری بسیار بزرگ در جمع‌آوری داده‌ها صورت گرفته مشخص گردید که ۱۹ درصد از این گروه‌ها دارای پایگاه داده‌هایی با سطح بیشتر از ۵۰ گیگا بایت می‌باشند و ۵۹ درصد از آنها انتظار دارند که در آینده‌ای نزدیک در چنین سطحی قرار گیرند.
در صنایعی مانند کارت‌های اعتباری و ارتباطات و فروشگاه‌های زنجیره‌ای و خریدهای الکترونیکی و اسکنرهای بارکد خوان هر روزه داده‌های زیادی تولید و ذخیره می‌شوند. افزایش سرعت کامپیوترها باعث به وجود آمدن الگوریتم‌هایی شده است که قدرت تجزیه و تحلیل بسیار بالایی دارند بدون اینکه محدودیتی در زمینه ظرفیت و سرعت کامپیوترها داشته باشند.
در سال ۱۹۸۹ و ۱۹۹۱ کارگاههای کشف دانش و معرفت ازپایگاه داده‌ها توسط پیاتتسکی و همکارانش برگزار شد. در فواصل سالهای ۱۹۹۱ تا ۱۹۹۴ کارگاههای کشف دانش و معرفت از پایگاه‌ داده‌ها توسط فییاد و پیاتتسکی و دیگران برگزار شد. به طور رسمی اصطلاح داده کاوی برای اولین بار توسط فییاد در اولین کنفرانس بین المللی «کشف دانش و داده کاوی» در سال ۱۹۹۵ مطرح شد. امروزه کنفرانسهای مختلفی در این زمینه در سراسر دنیا برگزار می‌شود.

افزایش داده‌های بسیار باعث پیدایش فرصتهای تازه برای کار در علوم مهندسی و کسب و کار شده است. زمینه داده کاوی و کشف دانش از پایگاه‌ داده‌ها به عنوان یک رشته علمی جدید در مهندسی و علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزه‌های گوناگون و در برداشتن فرصتهای بی‌نظیر اکنون برای کاربرد داده کاوی و کشف دانش از پایگاه داده‌ها و بری توسعه مفاهیم و روشهای تازه در این زمینه آماده است. فرآیندهای صنعتی زیادی اکنون برای مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینه‌های محصول به طور خودکار و کامپیوتری شده‌اند.
۱-۲- داده کاوی چیست؟
نگاهی به ترجمه تحت اللفظی داده کاوی، به ما در درک بهتر این واژه کمک می‌کند. Mine به معنای استخراج از منابع نهفته و با ارزش زمین اتلاق می‌شود. پیوند این کلمه با کلمه داده‌، جستجویی عمیق جهت پیدا کردن اطلاعات اضافی مفید که قبلاً نهفته بودند، از داد‌های قابل دسترس حجیم، را پیشنهاد می‌کند.
داده کاوی یک رشته نسبتاً جدید علمی می‌باشد که از انجام تحقیقات در رشته‌های آمار، یادگیری ماشین، علوم کامپیوتر خصوصاً مدیریت پایگاه داده‌ها شکل گرفته است.
تعاریف متنوعی از داده کاوی در مراجع مختلف و توسط افراد مختلف ارائه شده از جمله:
۱- داده کاوی عبارت است از فرآیند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه‌ داده‌های بزرگ و استفاده از آن در تصمیم‌گیری در فعالیت‌های تجاری مههم.
۲- اصطلاح داده کاوی به فرآیند نیمه خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می‌شود.
۳- داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده‌ها.
۴- داده کاوی یعنی تجزیه و تحلیل مجموعه داده‌های قابل مشاهده برای یافتن روابط مطمئن بین داده‌ها.
۵- عبارت داده کاوی مترادف با یکی از عبارت‌های استخراج دانش، برداشت اطلاعات، وارسی داده‌ها و حتی لایروبی کردن داده‌هاست که در حقیقت کشف دانش در پایگاه داده‌های (KDD) را توصیف می‌کند.
اما تعریفی که در اکثر مرجع به اشتراک ذکر شده عبارت است از «استخراج اطلاعات و دانش و کشف الگوهای پنهان از پایگاه‌ داده‌های بسیار بزرگ و پیچیده». داده کاوی یک متدولوژی بسیار قوی و با پتانسیل بالا می باشد که به سازمان ها کمک می‌کند که بر روی مهمترین اطلاعات از مخزن داده‌ها ی خود تمرکز نمایند.
داده کاوی فرآیندی است که از ابزارهای تحلیلی گوناگونی برای کشف الگوها و روابط بین داده‌ها استفاده می‌کند که ممکن است برای اعتبار بخشیدن به پیش‌بینی استفاده شود.
داده کاوی کمک می‌کند تا سازمان‌ها با کاوش بر روی داده‌های یک سیستم، الگوها و رفتارهای آینده را کشف و پیش بینی کرده و بهتر تصمیم بگیرند. داده کاوی با استفاده از تحلیل وقایع گذشته یک تحلیل اتوماتیک و پیش بینانه ارائه می‌نماید و به سوالاتی جواب می‌دهد که پاسخ آنها در گذشته ممکن نبوده و یا به زمان زیادی نیاز داشته است.
همانگونه که در تعاریف گوناگون داده کاوی مشاهده می‌شود، تقریباً در تمامی تعاریف به مفاهیمی چون استخراج دانش، تحلیل و یافتن الگوی بین داده ها اشاره شده است.
۱-۳-داده کاوی و کشف دانش از پایگاه داده:
اصلی‌ترین دلیلی که باعث شده داده کاوی کانون توجهات در علوم پزشکی قرار بگی

رد، مسئله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها، اطلاعات و دانش سودمند استخراج می‌کنند. داده کاوی عبارت از اقتباس یا استخراج دانش از مجموعه‌ای از داده‌ها است.
داده کاوی را می‌توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده، نظیر: عملیات جمع آوری داده‌ها و ایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده می‌باشد.
به منظور شناسایی و استخراج الگو و روابط جدید که بتواند دانش جدیدی را به ثمر برساند، کشف دانش در پایگاه‌های اطلاعاتی روش‌هایی متنوع و گسترده‌ای را به کار می‌برد مانند ترکیب قدرت رایانه و تخصیص قدرت و مهارت در انسان. کشف دانش دارای مراحل تکراری زیر است:
پاک سازی داده‌ها (از بین بردن نویز و ناسازگاری داده‌ها)، یکپارچه سازی داده‌ها (چندین منبع داده ترکیب می‌شوند)، انتخاب داده‌ها (داده‌های مرتبط با آنالیز از پایگاه داده بازیابی می‌شوند)، تبدیل کردن داده‌ها (تبدیل داده‌ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی و همسان سازی)، داده کاوی (فرآیند اصلی که روال‌های هوشموند برای استخراج الگوها از داده ها به کار گرفته می‌شوند)، ارزیابی الگو (برای مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازه‌گیری)، ارائه دانش (یعنی نمایش بصری، تکنیک‌های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می‌شود). داده کاوی فقط یک ابزار است و نه یک عصای جادویی. داده کاوی به این معنی نیست که شما راحت به کنار بنشینیم و ابزارهای داده کاوی همه کار را انجام دهد.
داده کاوی نیاز به شناخت داده‌ها و ابزارهای تحلیل و افراد خبره در این زمینه‌ها را از بین نمی‌برد. داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید به وسیله داده‌های واقعی دوباره بررسی و تست گردد.
۱-۴- مراحل داده کاوی :

داده کاوی در این چرخه خود نیز شامل مراحل مختلفی می‌باشد که عبارتند از:
۱- تعیین اطلاعات گذشته
۲- تمیز کردن داده ها و پردازش اولیه. در این مرحله خطاهای داده‌ها تصحیح می‌شوند و داده های اشتباه جایگزین می‌شوند. این مرحله ممکن است تا ۶۰ درصد از زمان داده کاوی را دربرگیرد.
۳- یکپارچه سازی داده‌ها. معمولاً داده‌ها از منابع متفاوتی جمع آوری می‌شوند باید به صورتی درآیند که یک مخزن از داده های مناسب ایجاد شود تا بتوان عملیات داده کاوی را بهتر انجام داد.
۴- انتخاب مجموعه داده های هدف
۵- یافتن ویژگیهای مورد استفاده و تعیین ویژگی‌های جدید
۶- نمایش داده‌ها به صورتی که بتوان برای داده کاوی استفاده نمود.
۷- انتخاب عملیات داده کاوی (طبقه بندی، خوشه بندی، پیش بینی و غیره)
۸- انتخاب روش داده کاوی (شبکه‌های عصبی، درخت تصمیم و نظایر آن)
۹- داده کاوی و جستجو برای یافتن الگوی مناسب
۱۰- ارزیابی و تحلیل اگلوی به دست آمده و حذف الگوهای نامناسب
۱۱- تفسیر نتایج داده‌ها و استنتاج از اطلاعات با ارزش
باید توجه داشت که جمع آوری و محافظت از داده‌ها نکته بسیار مهمی می‌باشد. اصولاً چون قابل و نوع داده‌ها در طول زمان تغییر می‌کند ممکن است بسیاری از داده‌های موجود در قالبهای متفاوت باشند و همچنین بسیاری از دادههای قدیمی از بین رفته و دور ریخته شوند. در حالی که ممکن است اهمیت این دادها از داده‌های جدید به هیچ وجه کمتر نباشد. همچنین به علت این که داده‌ها می‌توانند از منابع مختلف داخلی و خ ارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب داده‌ها با هم یکسان نباشد. به همین دلیل انتخاب داده‌های درست و یکپارچه سازی قالب آن‌ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار می‌باشد. در شکل ۱-۱ می‌توان مراحل داده کاوی را به اختصار نشان داد.

شکل ۱-۱ مراحل داده کاوی
۱-۵-اجزای اصلی سیستم داده کاوی:
سیستم داده کاوی دارای اجزای بسیار زیادی می‌باشد که در ادامه به بسیاری از آن‌ها می‌پردازیم:
پایگاه داده، انباره داده یا دیگر مخازن اطلاعات: که از مجموعه‌ای از پایگاه داده ها، انباره داده، صفحه گسترده، یا دیگر انواع مخازن اطلاعات، پاکسازی داده‌ها و تکنیک‌های یکپارچه سازی روی این داده‌ها انجام می‌شود.
سرویس دهنده پایگاه داده یا انبار داده: که مسئول بازیابی داده‌های

مرتبط براساس نوع درخواست داده کاوی کاربر می‌باشد.
پایگاه دانش: این پایگاه از دانش زمینه تشکیل شده تا به جستجو کمک کند یا برای ارزیابی الگوهای یافته شده از آن استفاده می‌شود.
موتور داده کاوی: این موتور جزء اصلی از سیستم داده کاوی است و به طور ایده آل شامل مجموعه‌ای از پیمانه‌هایی نظیر توصیف، تداعی، کلاس بندی، آنالیز خوشه‌ها و آنالیز تکامل و انحراف است.
پیمانه ارزیابی الگو: این جزء معیارهای جذابیت را به کار می‌بندد و با پیمانه داده کاوی تعامل می‌کند، بدین صورت که تمرکز آن بر جستجو بین الگوهای جذاب می‌باشد، و از یک حد آستانه جذابیت استفاده می‌کند تا الگوهای کشف شده را ارزیابی کند.
واسط گرافیکی کاربر: این پیمانه بین کاربر و سیستم داده کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سیستم داده کاوی از طریق پرس و جو ارتباط برقرار کند. این جزء به کاربر اجازه می‌دهد تا شمای پایگاه داده یا انباره داده را مرور کرده، الگوهای یافته شده را ارزیابی کرده و الگوها را در فرم‌های بصری گوناگون، بازنمایی کند.

 

۱-۶- عملیات داده کاوی:
مجموعه عملیاتی را که روش داده کاوی قادر به انجام آن است در ذیل به صورت کامل تشریح شده‌اند.

۱-۶-۱- طبقه بندی و پیشگویی
طبقه بندی یکی از عملیات رایج و مورد استفاده در داده کاوی است. طبقه‌بندی عملیاتی است که سازمانها را قادر می‌سازد که در حل مسائل خاص در مجموعه‌های بزرگ و پیچیده به کشف الگوها دست یابند. طبقه‌بندی فرآیندی می‌باشد که مجموعه‌ داده‌ها را به قسمت‌های مشخص تقسیم می‌کند. برای مثال مشتریان یک شرکت بیمه را براساس خصوصیاتشان به دو گروه با ریسک بالا و ریسک پائین تقسیم می‌کند. با این کار در واقع مشتریان این شرکت طبقه‌بندی شده‌اند.
ساده‌ترین روشی که برای طبقه‌بندی به نظر می رسد گذاشتن حدی برای دسته‌ها می باشد، مثلاً افراد با درآمد بالای مقداری مشخص را به یک دسته و افراد با درآمد پائین‌تر از آن را به یک دسته‌ی دیگر تخصیص دهیم.
میشل (۱۹۹۷)، مولر و چرکاسکی (۱۹۹۸)، تعدادی از روشهایی که می توانند جهت داده کاوی مسائل طبقه‌بندی به کاربرده شوند، شامل: درخت تصمیم و شبکه‌های عصبی و نظیر این‌ها را ارایه کردند. این روشها در دامنه گسترده‌ای از زمینه‌های مهندسی به کار برده می‌شوند. برای نمونه، شبکه‌های عصبی در کنترل بازخوردها برای کشف الگوها و آشکارسازی خروجی مناسب کنترل شده به کاربرده می‌شوند.
طبقه بندی داده‌ها یک فرآیند دو مرحله‌ای می‌باشد. در گام اول، یک مدل براساس مجموعه داده‌های آموزشی موجود در پایگاه داده ها ساخته می‌گردد. مجموعه داده‌های آموزشی از رکوردها، نمونه‌ها،‌مثالها و یا اشیائی که شامل مجموعه‌ای از صفات یا جنبه ها می‌باشد، تشکیل شده‌اند. هر نمونه یک برچسب کلاس معلوم دارد، که در یکی از صفات به نام برچسب کلاس مشخص شده است. به هر یک از نمونه های مجموعه داده‌های آموزشی، یک نمونه آموزشی گویند، که به طور تصادفی از مجموعه داده‌ها انتخاب می‌شود. زمانی که برچسب کلاس آموزشی مشخص باشد، این مرحله از یادگیری را یادگیری نظارت شده (یادگیری

با ناظر) می‌نامند. نوع دیگری از یادگیری بدون نظارت (یادگیری بدون ناظر) می‌باشد،‌که در آن برچسب کلاس هر نمونه آموزشی نامعلوم است (مانند خوشه بندی). به طور معمول،‌مدلهای ساخته شده به فرمهایی از قواعد طبقه‌بندی و درخت تصمیم نشان داده می‌شوند.
به عنوان مثال یک پایگاه داده ها شامل اطلاعات مشتریان کارتهای اعتبرای را در نظر بگیرید، قواعد طبقه‌بندی می‌تواند جهت طبقه بندی مشتریان به نرخ اعتبار عالی و خوب ساخته شوند. از این قواعد می‌توان جهت طبقه بندی نمونه داده‌های جدید استفاده کرد.
در گام دوم مدل برای طبقه بندی مناسب مشتریان جدید استفاده می‌شود. قواعد یادگیری

که از تحلیل داده‌های مشتریان موجود حاصل شده است، می‌تواند برای پیشگیری کلاس اعتبار مشتریان جدید با‌ آینده مورد استفاده قرار گیرد.
از نقطه نظر کلی، طبقه بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که طبقه بندی جهت پیشگوی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می‌گیرد. در اینجا ما پیشگویی را برای پیشگویی برچسب کلاس به عنوان طبقه بندی و برای پیشگویی مقادیر پیوسته، به عنوان پیشگویی معرفی می‌کنیم.
طبقه بندی و پیشگویی کاربردهای زیادی در بازرگانی، بانکداری، پزشکی، ارتباطات، کشاوریز و غیره دارد.
طبقه بندی را می‌توان به عنوان یک فرآیند دو مرحله‌ای در نظر گرفت. اول، یک مدل طبقه بندی با توجه به مجموعه داده‌های آموزشی ساخته می‌شود. چنین مدلی می‌تواند به فراهم کردن یک درک بهتر از داده‌های گمشده کمک کند. به طور معمول، این مدلها به فرمهایی از درخت تصمیم، یا فرمولهای ریاضی نمایش داده می‌شود. سپس مدل می‌تواند قوانین اگر- آنگاه را جهت پیشگویی برچسب‌های کلاس داده‌های جدید که دارای برچسب کلاس نامعلوم هستند، مورد استفاده قرار دهد.
۱-۶-۱-۱- روشهای طبقه بندی:
روشهای طبقه بندی در داده کاوی عبارتند از:
۱- رگرسیون خطی چند گانه
۲- رگرسیون لجستیک
۳- تحلیل ممیزی
۴- بیز ساده
۵- شبکه‌های عصبی
۶- درختهای تصمیم
۷- K- نزدیکترین همسایگی
۱-۶-۲- خوشه بندی:
خوشه بندی یکی از مهمترین ابزار کشف داده‌ها است که در کشف‌های تصادفی به کار گرفته می‌شود. در حال حاضر، اخذ دانش یک گلوگاه عمده در فرآیند مهندسی دانش محس

وب می‌شود. الگوریتم‌های یادگیری ماشین و داده‌ کاوی با هدف استخراج دانش از داده‌ها، به عنوان روشی برای حل این مشکل مطرح می‌باشند. یک رهیافت متداول در این زمینه روش خوشه بندی است که برای تصمیم‌گیری یا طبقه بندی یا کلاس بندی می‌تواند تصمیمات نمادینی را به نمونه‌های جدید با استفاده از نمونه‌های موجود متسب کنند. روش‌های خوشه بندی به واسطه قابلیت درکی که در خود نهفته دارند، از اقبال خوبی برخوردار شده اند. وجود قابلیت درک از جه

ات گوناگونی حائز اهمیت می‌باشد: فهم قلمرو، درک قابلیت‌های کلاس‌بندی، توجیه تصمیم و بالاخره وجود قوانینی نمادینی که می‌توانند از روی خوشه‌های استخراج شده و سپس در یک سیستم تصمیم‌گیری مبنی بر قوانین به کار گرفته شوند.
خوشه‌بندی در واقع یک عملیات غیرنظارتی می‌باشد. این عملیات هنگامی استفاده می‌شود که ما به دنبال یافتن گروه‌هایی از داده‌های مشابه می‌باشیم بدون اینکه از قبل پیش بینی در مورد شباهت‌ای موجود داشته باشیم. خوشه بندی معمولاً هنگامی استفاده می‌شود که به دنبال یافتن گروه‌هایی از مشتریان هستیم که قبلاً شناخته نشده‌اند. برای مثال می‌توان شباهت‌های مشتریان در استفاده از تلفن همراه را به منظور گروه‌بندی مشتریان و تشخیص خدمت جدیدی جستجو نمود.
خوشه بندی عملی است که در طی آن گروه‌هایی از داده‌ها و یا اقلام وجود دارند به طوری که هر مورد به یک خوشه نسبت داده می‌شوند واعضای داخل خوشه نیز باید دارای شباهت ذاتی با هم باشند و معیار اندازه‌گیری شباهت باید کاملاً مشخص باشد و برای هر جفت از موارد قابل محاسبه باشد. بنابراین در هر خوشه یک خود شباهتی بین اقلام آن خوشه وجود دارد.
پایگاه‌های داده بسیار بزرگ ممکن است شامل متغیرهای بسیار زیاد، ابعاد بسیار بزرگ و ساختار بسیار پیچیده باشند به طوریکه حتی بهترین روش‌های داده کاوی مستقیم هم نمی توانند الگوهای معنی داری در آن‌ها را استخراج نمایند. در خیلی از موارد مشکل این نیست که الگویی برای کشف شدن وجود ندارد بلکه در واقع تعداد زیادی الگو وجود دارد ولی روشهای داده کاوی برای جواب دادن به سوالی که مطرح شده است، الگویی کشف نمی‌کنند.
در بازاریابی ممکن است افراد، جامعه را به وسیله متغیرهایی که از قبل به عنوان معیارهای مناسبی می‌شناختیم طبقه‌بندی نماییم. در حالی که ممکن است به دلیل پیچیدگی پایگاه داده‌ها نظری در مورد متغیرهای طبقه‌بندی کننده و یا چگونگی تعیین و یا خوشه ها نداشته باشیم. در این گونه موارد است که به سراغ روشهای خوشه بندی می‌رویم.
خوشه بندی یک روش داه کاوی غیر مستقیم است. برای اکثر روش‌های داده کاوی مثل درخت تصمیم گیری و شبکه‌های عصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموع

ه سعی می‌شود یک مدل برای بخش‌بندی داده ها، ایجاد گردد. سپس از آن مدل برای پیش بینی داده‌های جدید استفاده شود.
در روش خوشه بندی هیچ دسته‌ای از قبل وجود ندارد و در واقع متغیرها به صورت مستقل و وابسته تقسیم نمی‌شوند. بلکه ما در اینجا به دنبال گروه‌هایی از داده‌ها هستیم که به هم

شباهت دارند و با کشف این شباهت‌ها می‌توان رفتارها را بهتر شناسایی کرد و بر مبنای آنها طوری عمل کرد که نتیجه بهتری حاصل شود.
۱-۶-۳- تحلیل روابط و وابستگیها :
پیشرفت تکنولوژی فروشگاه‌های خرده فروشی را قادر ساخته است حجم زیادی از داده‌های مربوط به خرید هر یک از مشتریان که از آن به عنوان سبد بازار یاد می‌شود را جمع آوری و ذخیره نمایند. فراهم بودن جزئیات اطلاعات ثبت شده مشتریان منجر به بهبود روش‌هایی شده است که به طور اتوماتیک روابط بین آیتم‌هایی که در پایگاه داده‌ها انبارش شده‌اند را جستجو می‌کنند.
همزمان با پیدایش علم داده کاوی در اوایل دهه ۹۰ الگوریتم‌های استخراج قوانین وابستگی از پایگاه داده‌ها نیز پابه عرصه گذاشت. نویسندگان زیادی در زمینه استخراج قوانین وابستگی در پایگاه داده‌ها بحث کرده‌اند. در به مقایسه‌ی الگوریتمهای مهم استخراج قوانین وابستگی، مزیت‌ها و معایب الگوریتم‌ها پرداخت شده است.
اساساً ارتباط میان مجموعه اشیاء وابستگی‌های جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش بینی‌های مالی،‌سیاست‌های بازاریابی، وقایع پزشکی و خیلی کاربردهای دیگر می‌شود. در حقیقت توجهات زیادی را در تحقیقات اخیر به خود جلب کرده است.
تحلیل وابستگی‌ها یک حالت غیر نظارتی داده کاوی می‌باشد که به جستجو برای یافتن ارتباط در مجموعه داده‌ها می‌پردازد. یکی از کاربردی‌ترین حالات تحلیل وابستگی‌ها «تجزیه تحلیل سبد بازار» می‌باشد که در آن هدف یافتن کالاهایی است که معمولاً به طور همزمان خریدار می‌شوند. این کار کمک می‌کند که خرده فروشان بهتر بتوانند کالاهای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند.
داده‌های موجود در سبد بازار نشان دهنده خرید مشتری در یک زمان خاص هستند. هر مشتری خرید مجزایی را در کمیته‌های مختلف و زمانهای متفاوت انجام می‌دهد. با تجزیه و تحلیل سبد بازار بینشی برای خرده فروشان از اینکه چه محصولاتی با هم خریداری می‌شوند فراهم می‌گردد و بنابراین می‌توانند رفتار خرید مشتریان را پیش بینی کنند این کار به آنها کمک می‌کند که بهتر بتوانند کالاهای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند و بنابراین سودآوری خود را افزایش دهند.
۱-۶-۴- پیش بینی :

در طبقه بندی گروه‌هایی مشخص می شوند که اقلام به آن‌ها تعلق دارند. پیشگویی‌هایی که براساس مدلهای طبقه بندی ارایه می‌شوند دارای یک خروجی گسسته می‌باشد که مشخص می‌کند که مثلاً یک مشتری جزء گروه با پاسخ مثبت است یا منفی و یک مریض جزء گروه با ریسک بالا است یا پائین. ولی پیش بینی بر خلاف پیش گویی یک مقدار پیوسته را پیش بینی می‌کند مثلاً تقاضای آینده با قیمت نفت در سال آینده. پیش بینی معمولاً به وسیله رگرسیون (عملیاتی که با

تعیین ارتباط بین متغیرها به پیش بینی می‌پردازد) صورت می‌گیرد. بسته‌های نرم افزار مانند SAS و SPSS معمولاً توانایی حل مساله‌های پیجیده را فراهم می‌نمایند. ولی استفاده از چنین عملیات آماری نیاز به دانش بالای آمار در خصوص شرایط و چگونگی استفاده از این ابزارها را دارد. ابزارهای داده کاوی نظیر شبکه‌های عصبی نیز به وفور برای پیش بینی استفاده می‌شود.
از مسایل ساده پیش بینی عبارتند از: پیش بینی مقادیر پیوسته براساس یکسری داده‌های موجود. برای مثال پیش بینی درآمد یک فرد براساس مشخصات فرد. ابزارهایی نظیر درخت تصمیم گیری و شبکه‌های عصبی چنین کاری را انجام می‌دهند.
از مسایل پیچیده پیش بینی می‌توان به پیش بینی یک یا چند مقدار براساس الگوهای تکراری و متوالی مانند سطح سهام بازار در ۳۰ روز آینده براساس داده‌های ۶ ماه گذشته اشاره کرد. ابزارهای داده کاوی به سختی چنین پیش بینی‌هایی را انجام می‌دهند. در این گونه مواقع داده‌های موجود باید به صورتی مناسب و در جهت مناسب استفاده شوند و فرمت داده‌های خروجی به درستی مشخص باشد. همچنین در این گونه پیش بینی ها نیاز به یک تحلیل‌گر به منظور پردازش داده‌های ورودی و تحلیل داده‌های خروجی بیشتر احساس می‌شود.
۱-۷-زیربنای داده کاوی:
تکنیکهای داده کاوی نتیجه‌ی تحقیقات گسترده و بلند مدتی است که در طول سالها برای افزایش بازدهی تجاری موسسات بکار برده می‌شدند. تحقیقات در این زمینه از زمانی آغاز شد که برای نخستین بار اطلاعات تجاری هر سازمان، بر روی سیسمتهای ذخیره سازی آن زمان که ا زنوع

مغناطیسی بودند، ذخیره شدند. این رشته تحقیقات با توسعه و پیشرفت سیسمتهای اطلاعات که قابلیت ذخیره‌ی حجم بیشتری از داده‌ها را فراهم می‌کردند و همچنین از سرعت بسیار بالاتری در ذخیره سازی و بازیابی اطلاعات برخوردار بودند،‌اهمیت بشتری یافت. روشهای دسترسی تصادفی یا رندم به اطلاعات و پیدایش روشهای حرکت در میان داده‌ها، خصوصاً بصورت بلادرنگ، فناوری داده کاوی را متحول ساخت.
روشهای داده کاوی بر پایه‌های زیر استوار هستند:
• گردآوری حجم عظیمی داده
• کامپیوترهای چند پردازنده‌ی قدرتمند
• الگوریتمهای داده کاوی
در سالهای ۱۹۶۰ صنعت گردآوری اطلاعات و امکان ذخیره‌ی داده‌ها در تجهیزاتی نظیر نوار و دی

سک توسط شرکتهایی که IBM و CDC از پیشگامان آنها بودند، شکل تجاری به خود گرفت. با رواج چنین مکانیسمهایی تبادل استاتیک اطلاعات امکانپذیر شده، پرسشهای تجاری از قبیل آنکه سود خالص شرکت در پنج سال آخر فعالیت چقدر بود هاست؟ پاسخ داده می‌شود. ۲۰ سال بعد از فناوری فوق، با پیشرفتهای نرم افزاری و استفاده از بانکهای اطلاعاتی رابطه‌ای و زبان جستجوی ساخت یافته توسط شرکتهای موفقی همچون ORACLE، SYBASE، INFORMIX، BM، MICROSOFT و … اطلاعات در همان لحظه‌ی ثبت شدن قابل تبادل بودند. بعبارت دیگر تبادل اطلاعات بصورت دینامیک امکانپذیر شده بود. نمونه‌ای از سوالات تجاری که این سیستم پاسخگوی آن است چنین بود: «مقدار فروش شعب (کشور یا شهر مورد نظر) در ماه مارس گذشته چه میزان بوده است؟». در سالهای دهه‌ی نود نوبت به تکنولوژی‌هایی همچون انبار داده‌ها و امکانات تصمیم‌گیری نرم افزاری رسید.
۱-۸- تکنولوژی‌های مرتبط با داده‌ کاوی:
۱- پردازش تحلیل روی خط OLAP-5
۲- بانکهای اطلاعاتی چند بعدی
۳- انبار داده‌ها
پیشگامان ابزارهای نرم افزاری چنین تکنولوژیهایی شرکتهایی نظیر Pilot, Comshare, Arbor Cognos،Microstrategy بودند. البته بلافاصله در همان زمان شرکتهایی نظیر ORACLE, IBM

MICROSOFTکه امروزه نام آنها را در همه جا مشاهده می‌کنیم نیز کنترل جریان را بدست گرفته و نرم افزارهای آنها بازار را تسخیر کرد. هسته‌ی فناوری داده کاوی شامل علوم آمار، هوش مصنوعی، آموزش ماشین و علوم نوین دیگری است که در طول سالهای گذشته پیشرفت قابل توجهی داشته است.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
wordقابل ویرایش - قیمت 5700 تومان در 43 صفحه
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد