بخشی از مقاله

چکیده

تمرکز اصلی این پژوهش بر روی به کار بردن روش های جدید قواعد ارتباطی در زمینه های پزشکی برای کشف بیماری است. همچنین یک سیستم برای کشفیات علم پزشکی بر پایه قواعد و شبکه های بیژین - Bayesian Network - معرفی میکنیم.صنعت پزشکی مقادیر زیادی از داده های پزشکی را جمع آوری می کنند که متاسفانه برای یافتن اطلاعات پنهان در تصمیم گیری های موثر، استخراج نمیشوند.

کشف الگوی پنهان و روابط آنها اغلب غیر عملی است. تکنیک های داده کاوی می تواند کمکی برای حل این موضوع باشد. داده کاوی ابزارهای زیادی در تجارت و زمینه های علمی پیدا کرده است. قواعد ارتباطی درالگوریتم ژنتیک برای پیش بینی درست وجود بیماری استفاده می شود.

در این پژوهش از شبکه های بیژین نیز استفاده شده است الگوریتمی برای پیدا کردن قواعد وابستگی ژنوتایپ فنوتایپ از داده های مرتبط به بیماری های پیچیده وجود داشت.این الگوریتم بر پایه الگوریتم ژنتیک بود که با تکنیک های سنتی داده کاوی مقایسه می شد و اثبات شده بود که نشانه های طبقه بندی همانندی را با پیدا کردن نتایج بیشتر از تولید مصنوعی داده ها بدست می آورد. برای مثال، در یکی از مقالات فرض بر این است که چندین گروه از Snps - single nucleotide polymorphism - ها بیشترین تاثیر را در بروز و گسترش بیماری پیچیده ای مثل شیزوفرنی دارند.انگیزه اصلی استفاده از الگوریتم ژنتیک در کشف قوانین پیش بینی - Prediction rules - سطح بالا، به دلیل انجام جستجو جهانی و مقابله بهتر با ویژگی تعامل نسبت به الگوریتم القایی قوانین گریدی - Greedy rule - ، استفاده شده در داده کاوی میباشد.

مقدمه

اهداف کلی داده کاوی کشفیات جدید ، جالب توجه و دانش مفید درپایگاه داده است.بر طبق قرارداد داده ها به صورت دستی انالیز می شوند.بسیاری از روابط مخفی و پنهان و بالقوه به وسیله آنالیزور ممکن است شناسایی نشود.این روز ها بسیاری از سازمان ها مثل بیمارستان های مدرن به صورت متعدد مقادیر زیادی اطلاعات را تولید و جمع آوری می کنند.این رشد افزاینده اطلاعات نیازمند یک راه مکانیزه برای استخراج داشته های مفید می باشد.

بنابراین زمینه های پزشکی محل بزرگی برای بکارگیری داده کاوی می باشد.بر اساس داده کاوی ما می توانیم کشفیات جالب و نظم های خاصی را استخراج کنیم.کشفیات جدید می تواند در زمینه های مشابه در افزایش راندمان و بهبود تصمیم گیری در کار استفاده شوند.دلیل اصلی جذابیت استخراج داده و توجه صنعت به آن به سال های اخیر بر می گردد که باعث دسترسی عظیمی به اطلاعات و نیاز حتمی برای تبدیل هر داده موثر می شود.اطلاعات بدست آمده می توانند برای ردیابی ابزارها از مدیریت تجارت،کنترل تولید و آنالیز بازار برای طراحی و جستجوی علمی وآنالیز داده های سلامت استفاده شوند.

داده کاوی به کشف علمی در KDD که یک اتوماسیون یا استخراج کاربردی از الگوهای موجود علمی جمع شده در بسترهای داده ای عظیم است می پردازد.داده ها خانه هایی بودند و بقیه اطلاعات عظیم مخزن انها.داده کاوی در زمینه های حیاطی و مراقبت های سلامتی گسترش یافته است.الگوریتم های تکاملی یک زیرمجموعه از محاسبات تکاملی است که زیرمجموعه از هوش مصنوعی است.محاسبات تکاملی یک شکل عمومی از تکنیک های محاسباتی است.محاسبات تکاملی یک تحقیق قدرتمند ارائه می دهند و نمونه بهبود یافته ای با مکانیسم های بیولوژیکی تاثیر می یابد که آن ها انتخاب طبیعی و ژنتیک هستند.

پردازش تکاملی برای شرح الگوریتم هایی استفاده می شود که انتخاب طبیعی را برای بهینه سازی و یادگیری ماشین را نشان می دهند.آن ها بر اساس انتخاب طبیعی داروین طرح ریزی شده اند.الگوریتم ها یک گروه منحصر به فرد را در فضای تحقیق مورد مطالعه و جستجو قرار می دهند.مثال هایی برای پردازش تکاملی شامل الگوریتم های ژنتیک - Ga - و برنامه ریزی ژنتیک - Gp - برنامه ریزی تکاملی - Ep - و استراتژی تکاملی - Es - است.

داده کاوی می تواند به عنوان یک مشکل تحقیقاتی مطرح شود که برای یافتن بهترین دانش از میان فرضیات مختلف تلاش می کند.از آنجایی که پردازش تکاملی یک الگوریتم تحقیقی موازی و قوی است می تواند به عنوان یک داده کاوی در محیط های شلوغ استفاده شود.الگوریتم ژنتیک یک نمونه کلی از از محاسبات تکاملی ارائه می دهد.این الگوریتم برای کارهای تحقیقاتی جهانی کارامد است.مخصوصا زمانی که فضای زیادی برای استفاده از روش های تحقیقاتی قطعی وجود داشته باشد.این مساله از مکانیسم انتخاب گونه های طبیعی با صفات ژنتیکی پیروی می کند مانند انتخاب،کرایسنگ اوور و جهش.

جهش ها مانند Snps مورد مطالعه قرار گرفته اند.مقادیر زیادی داده از دسته بندی ژنی DNA ها بدست اورده شده که نیازمند اندازه گیری هستند ، بدین گونه ویژگی های زیادی باید محاسبه شوند.این محاسبات می توانند در مورد بیماری های پیچیده باشد.

در این بیماری ها جدا از اثر زمینه های ژنتیکی،عوامل محیطی،اثر آنها و همچنین روشی که شخص می تواند زمینه ژنتیکی داشته باشد،اما هرگز بیماری گسترش نیابد بررسی می شود.بر اساس طبیعت این بیماری ها سخت است رابطه ای بین یک ژن و بیماری آن برقرار شود.به طور کلی این نوع از بیماری ها ترکیب اثرات چندین مرحله Snps می شود که جداگانه اثرات کمتری دارند.شیوع و تاثیر بسیار زیادی از بیماری های پیچیده مثل سرطان،اختلالات روانی و بیماری های قلبی عروقی وجود دارد.هدف نهایی از این کار پیشنهاد دادن الگوریتمی است که توانایی استخراج قواعد ترکیب شده از set های snps است که زمینه های ژنتیکی را برای مطالعات گسترده در بیماری های ژنتیکی بیان کند.الگوریتم های ژنتیک - Ga - یک تکنیک هوش مصنوعی است.

این یک روش تحقیقاتی بر پایه تئوری تکامل داروین است.بر اساس نتایج الگوریتم های ژنتیکی الهام گرفته شده تکامل زیستی و ژنتیک مولکولی می باشد.این الگوریتم ها یک استنتاج عمومی از اعمال تصادفی شبیه اعمال موجود در تکامل زیستی - جهش و نوترکیبی - می سازند.همچنین انتخاباتی با ضوابط اخیر که برایند نامیده می شود.برایند برای تصمیم گیری که کدام ویژگی های فردی انتخاب شده،مناسب ترین ویژگی ها هستند برای احتمال کلی تکثیر استفاده می شود.

الگوریتم ژنتیک روش تحقیقاتی عمومی هدفمندی را که بر پایه ایده های تکاملی از انتخاب طبیعی و ژنتیک است معرفی می کند.آن ها پروسه های طبیعی را بر پایه اصول لامارک و داروین شبیه سازی می کنند.زمینه ژنتیکی و محاسبه تکاملی اولین بار به وسیله Turing که پیشنهاد یک الگوی زودرس برای الگوریتم ژنتیک را داد کشف شد.Hollandکارهای زیادی را در GEC سال های 1960 و 1970 انجام داد.هدف او فهمیدن پروسه سازگاری طبیعی و طراحی زیستی در سیستم مارپیچ مصنوعی بود که منجر به فرمول سازی الگوریتم های ژنتیک شد.

الگوریتم های ژنتیک عموما در شبیه سازی کامپیوتری اجرا می شوند که یک مشکل بهبود یافته را تعیین می کنند.اعضای فضای نمونه های انتخاب شده افراد خوانده می شوند که کروموزوم ها را بیان می کنند.الگوریتم های ژنتیک در یک روش تکراری به وسیله تولید جمعیت جدید رشته مانند از هر یک از نمونه های قدیمی کار می کنند.هر رشته در دوتایی،واقعی و غیره کد گذاری شده اند.نگارش های candidate solutions یک ساختار تکاملی همبستگی و یک اندازه گیری سازگاری با هر رشد است که نمایانگر سازگاری برای آن مشکل است.پروسه انتخابی الگوریتم ژنتیک بسیار ساده شده و شبیه سازی شده با مدل های زیستی است.

تعریف مساله

رشد چشمگیر بیماری های قلبی عروقی و اثرات و عوارض آنها و هزینه های بالایی که بر جامعه وارد می کند ، باعث شده که جامعه پزشکی به دنبال برنامه هایی جهت بررسی بیشتر،پیشگیری،شناسایی زود هنگام و درمان موثر آن باشد. از این رو با استفاده از دادهکاوی و کشف دانش در سیستم مراکز قلب و عروق میتوان دانش ارزشمند را ایجاد کرد که این دانش کشف شده میتواند باعث بهبود کیفیت سرویس به وسیله مدیران مرکز شود و همچنین میتواند به وسیله پزشکان استفاده شود تا رفتار آینده بیماران قلبی و عروقی از روی سابقه داده شده پیش بینی کنند. ونیز تشخیص بیماری قلبی از روی ویژگیهای گوناگون و نشانهها، ارزیابی فاکتورهای ریسکی که باعث افزایش حمله قلبی می شود. از مهمترین کاربردهای داده کاوی و کشف دانش درسیستم بیماران قلبی و عروقی می باشد.

چالش ها

یکی از چالش های موجود در کار این بود که شبکه بیزین یادگیری خودسرانه محاسباتی انجام میدهد.اما بیزین میتواند با یادگیری فرضیات و تحمیل کردن محدودیت ها یادگیری انجام دهد.برای مثال الگوریتم Chow,Liu,Rebane وPearl میتواند شبکه هایی با سه ساختار را بفهمند

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید