بخشی از مقاله
چکیده
در دنیای امروز با عنایت به حجم وسیع و پیچیدگی دادههای موجود ، بیش از پیش نیاز به ابزاری کارا ، مؤثر و مطمئن به منظور کشف دانش سودمند و مورد نیاز در این دادهها ، احساس میشود. دادهکاوی - Data Mining - ابزاری است که برای رسیدن به چنین دانشی ما را یاری میکند. یکی از زمینههای پر کاربرد دادهکاوی ، در علم پزشکی است این مقاله درصدد پاسخگویی به این پرسش است که آیا داده کاوی تأثیری بر فرآیندهای پزشکی دارد. با این فرضیه که در صنعت مراقبت های بهداشتی، داده کاوی به طور عمده برای پیش بینی بیماریها استفاده می شود. تکنیک های استخراج داده های عظیم برای پیش بینی بیماری ها از قبیل طبقه بندی، خوشه بندی، قوانین ارتباطات ، خلاصه سازی ، رگرسیون و غیره میباشد . داده کاوی تکنیکی است برای شناسایی داده ها یا دانش تصمیم گیری در پایگاه داده به طوری که بتوان آنها را در حمایت از تصمیم گیری، پیش بینی و برآورد استفاده کرد.
کلید واژه - الگوریتم ، پایگاه داده ، تکنیک های داده کاوی ، فرآیند های پزشکی ، خوشه بندی ،
-1 مقدمه
پیشبینی رفتار آینده بیمار بر حسب تاریخچه ، یکی از مهمترین برنامههای تکنیکهای دادهکاوی است که میتواند در مدیریت مراقبت از سلامت استفاده شود. زمانی که پارامترهای لازم برای تشخیص بیماری زیاد میشود ، تشخیص و پیشبینی بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکانپذیر است. به همین دلیل در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار میگیرد، که میتوان گفت پزشکان به کامپیوتر نیازمند شدهاند. این کار موجب شده است که خطاهای احتمالی ناشی از خستگی یا بی تجربگی فرد متخصص تا حدی کاهش پیدا کند و دادههای پزشکی مورد نیاز ، طی مدت زمان کمتر و با جزئیات و دقت بیشتر در اختیار پزشک قرار گیرد.
ابزارهای آنالیز و مدلسازی مانند دادهکاوی ، پتانسیل خوبی برای ایجاد یک محیط غنی از دانش دارند که میتوانند کمک قابل توجهای به کیفیت تصمیمات بالینی نمایند.از مهمترین زمینه های کاربردی ، استخراج قواعد طبقه بندی در حیطه علم پزشکی است. با به کارگیری الگوریتم های داده کاوی می توان سیستم های هوشمندی ابداع کرد که به شکل خودکار و بدون نیاز به نظارت پزشک قادر به فهم و تفسیر ویژگی های پزشکی افراد باشند یا اطلاعات مفیدی را اکتشاف کنند که متخصصان را در قضاوت صحیح یاری رساند. در ادبیات داده کاوی تا کنون مجموعه بسیار متنوعی از روش ها ارائه شده است که هر یک دارای نقاط ضعف و قدرت به خصوصی بوده که عملکرد آن بسته بهنوع داده و شرایط حاکم بر مساله متفاوت است.Wickramasinghe و همکاران ، مهم ترین علت استفاده از داده کاوی را بشرح زیر بیان کرد ه اند :
دلیل اصلی استفاده از داده کاوی ، افزایش حجم داده های موجود و آتی سازمان ها است که نیاز به پردازشی فراتر از رویکردهای سنتی دارد . برای انسان کنار آمدن با این حجم انبوه و در حال رشد داده ها با اتکای محض به شیوه های سنتی غیر ممکن است. ذهن انسان به هنگام تحلیل انبوه داده ها ممکن است دچار خطا شود و علاوه بر این، همیشه سعی بر این دارد که نتایج را مبنی بر تجربیات و آزمون های قبلی بنا دهد ؛ اما داده کاوی بدون تکیه بر فرضیه های از پیش تعیین شده به تحلیل داده ها می پردازد. یکی از مهم ترین مزایای داده کاوی به ویژه در حجم وسیع داده ها ، این است که داده کاوی نسبت به استخدام تیمی از افراد خبره بسیار کم هزینه تر است . اگر چه داده کاوی مانند سایر تکنیک ها بدون مداخله انسان میسر نیست ، اما به راحتی اجازه می دهد تحلیلگری که در آمار یا برنامه نویسی زیاد حرفه ای نیست بتواند به مدیریت فرایند استخراج دانش از داده ها بپردازد .
-2 اصطلاحات و مفاهیم اصلی در داده کاوی
-1-2 تعریف داده کاوی
واژه لاتین Mine به معنای استخراج از منابع نهفته و با ارزش زمین اطلاق می شود . ادغام این کلمه با Data به معنی داده بر جستجویی عمیق از داده های قابل دسترس با حجم زیاد برای یافتن اطلاعات مفید که قبلا نهفته بودند ، تاکید دارد داده کاوی دارای تعریف های مختلفی است این تعریف ها به مقدار زیادی به پیش زمینه ها و نقطه نظرهای افراد بستگی دارد. هر نویسنده ، محقق و کاربر با توجه به دیدگاه و نوع نگرش خود تعریف های مختلفی از داده کاوی ارائه کرده اند به عنوان مثال می توان به چند تعریف داده کاوی که در ادامه آمده است اشاره کرد:
. داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد. شکل - 1 -
. داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد.
. داده کاوی استخراج نیمه اتوماتیک الگوها ، تغییرات، وابستگی ها ، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد .
. داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
. اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.
. داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها.
-2-2 تاریخچه داده کاوی
در سال 1975جان هنری هلند کتابی به نام الگوریتم ژنتیک نوشت که این کتاب تکنیک جستجو در علم رایانه برای یافتن راه حل تقریبی برای بهینهسازی و مسائل میباشد. در واقع الگوریتمهای ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیشبینی یا تطبیق الگواستفاده میکنند. الگوریتمهای ژنتیک اغلب گزینه خوبی برای تکنیکهای پیشبینی بر مبنای رگرسیون هستند.درهوش مصنوعی الگوریتم ژنتیک یک تکنیک برنامهنویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده میکند. سال 1980 اصطلاح database mining مطرح شد. در این دوره کارشناسان می توانستند به روابط معنادار پی ببرند.
در سال 1989 اصطلاح کشف دانش در پایگاه داده - Knowledge Discovery in Databases - یا به مختصر KDDتوسط Piatetsky-Shapiro مطرح گردید.در سال 1990 اصطلاح داده کاوی مطرح گشت. در این زمان شرکت های خرده فروش و بازارهای مالی با استفاده از داده کاوی به تجزیه و تحلیل داده ها و پیش بینی نوسانات در نرخ بهره و افزایش مشتری می پرداختند.در سال Bernhard E. Boser 1992 ، Isabelle M. Guyon و Vladimir N. Vapnik فرآیند ماشین بردار پشتیبانی SVM که یکی از روشهای یادگیری با نظارت است و از آن برای طبقهبندی و رگرسیون استفاده می شود را بهبود بخشیدند.در سال Piatetsky-Shapiro 1993 خبرنامه KDnuggets را راه اندازی کرد. این خبرنامه در واقع پل ارتباطی بین پژوهشگرانی است که در کارگاه KDD شرکت کرده اند. در سال 2001 اگرچه علم داده از سال 1960 شکل گرفته بود ولیکن William S. Cleveland در این سال علم داده را به عنوان یک رشته مستقل معرفی نمود.
-3-2 فنون داده کاوی
. ابزارهای پرس و جو : ابزارهای متداول زبان پرس و جوی ساختار بندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.
. فنون آماری : مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید.
. مصور سازی : با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی ، گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
. پردازش تحلیلی پیوسته : از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا و انتهای پیوسته را برای انجام پرسش و پاسخ ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
. یادگیری مبتنی بر مورد : این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.
. درختان تصمیم گیری : این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را