بخشی از مقاله

چکیده

دادهکاوی پزشکی یک زمینهی تحقیقاتی در حوزهی بهداشت و درمان است که به استخراج روابط پنهان بین الگوها کمک میکند. کاوش در پایگاه دادههای پزشکی، خدماتی ازجمله تشخیص پزشکی، اتخاذ تصمیمات آگاهانه و... را در بردارد. در دنیای پزشکی امروز، دادههای مربوط به علائم بیمارانی که مبتلابه بیماریهای گوناگون هستند و نتایج روشهای کمکی برای تشخیص این بیماریها، بسیار زیاد است. این علت باعث میشود، تحلیل تمام جنبههای دخیل توسط فرد دشوار شود.

در اینجا نیاز به یک سیستم مکانیزه برای کمک به کشف الگوهای موجود و پیشبینی رخدادهای آتی احساس میشود. نواحی تحقیقاتی زیادی درداده کاوی پزشکی وجود دارد. ما در این مقاله بر روی روشهای دادهکاوی، یا روشهای یافتن بیماریهای متناوب دورهای تأکیدداریم. الگویی را که در فواصل زمانی منظم رخ میدهد را دوره مکرر گویند. الگوهایی که بهصورت دورهای تکرار میشود، به مردم نگران برای گرفتن تصمیمات آگاهانه کمک میکند. به این منظور ما روشهای مختلفی را که در دادهکاوی پزشکی، برای کشف بیماریهای متناوب دورهای به کار میرود را تجزیهوتحلیل میکنیم.

مقدمه

دادهکاوی، شامل استخراج دانش از حجم عظیمی از دادهها میباشد. دادهکاوی علاوه بر جمعآوری و مدیریت داده، شامل تجزیهوتحلیل و پیشگویی نیز میشود. الگوهای متناوب دورهای، اغلب به دادههایی که در فواصل زمانی منظم رخ میدهد، گرایش دارند. الگوهای متناوب، مجموعه آیتمها، توالیها یا زیر ساختارهایی هستند که در یک مجموعه داده با فرکانسی بیشتر یا مساوی آنچه توسط کاربر بهعنوان یک حد آستانه تعیینشده است، تکرار شده باشندمعمولاً. الگوهای متناوب دورهای، برای پشتیبانی کمینه و تناوب بیشینه محدودیتهایی را در نظر میگیرند. مفهوم کاوش مجموعه آیتمهای متناوب، نخستین بار برای کاویدن اطلاعات در پایگاههای تراکنش موردتوجه قرار گرفت .

- Agrawal et al,1993 - فرض کنید که I = {i1,i2,...,im} مجموعه همه آیتمهای موجود در یک پایگاه تراکنش، مانند D باشد. مجموعه آیتم -kآیتمی که شامل k آیتم از مجموعه I است، متناوب خواهد بود اگر و تنها اگر تعداد تراکنشهای موجود در D که مشتمل بر هستند از | D | کمتر نباشد .در این تعریف، یک حد آستانهی تعیینشده توسط کاربر است که پشتیبانی کمینه نامیده میشود و|D| تعداد تراکنشهای موجود در D است - محمد کریم سهرابی،. - 1392 کشف الگوهای متوالی را یافتن تمام الگوهای متوالی مکرر در یک پایگاه دادهی دنبالهای، با در دست داشتن پشتیبانی کمینه گویند. انواع الگوهای تکرارشونده ما به 3 صورت است:

-1دستهای از موارد : - Itemset - دستهای از موارد، اقلامی را گویند که بهکرات خریداری میشود، مثل نان و پنیر. در این دسته ترتیب مهم نیست؛ یعنی مهم نیست که ابتدا در سبد خرید ما پنیر گذاشته شود یا شیر.

-2زیر دنباله : - subsequence - که در این دسته ترتیب مهم استمثلاً. شخصی ابتدا یک موس وایرلس سپس یک باتری شارژی و سپس شارژر میخرد.

-3زیر ساختار : - substructure - در این دسته نهتنها ترتیب مهم است، بلکه بهصورت ساختار پیچیدهتری بهصورت غیرخطی مانند درخت میتوانیم آنها را نشان دهیم. در درخت ترتیب نداریم و رابطهها از جنس سلسله مراتبی میباشد. ازجمله کاربردهای کشف الگوهای متوالی، میتوان به کاربردهای آن در خردهفروشی، وب، مخابرات، پزشکی، بیمه و... اشاره کرد. کشف الگوهای متوالی میتواند به پزشکان در تشخیص بیماریها کمک کند. دنبالهای از علائم و نشانهها، ممکن است به تشخیص بیماری خاصی منجر شود و درنتیجه پزشکان با درمان زودتر آن، از پیشرفت آن جلوگیری کنند. مطالب زیر را در مقاله شرح خواهیم داد:

الف - روشهای دادهکاوی پزشکی که برای کاوش بیماریهای متناوب دورهای در حوزه بهداشت و درمان استفاده میشود.

ب - تجزیهوتحلیلهای مرتبط با دادهکاوی پزشکی که با کاوش الگوهای متناوب دورهای مرتبط هستند. ادامهی ساختار مقاله به شرح زیر است: در بخش بعد بر رویداده کاوی پزشکی بهخصوص بیماریهای متناوب دورهای مطالعاتی را انجام میدهیم. سپس کاوش الگوهای متناوب دورهای را مورد تجزیهوتحلیل قرار میدهیم. در انتها به خلاصهای از یافتهها، سپس نتیجهگیری و کارهای آینده اشاره میکنیم.

کارهای مرتبط

در این قسمت بر روی الگوهای متناوب دورهای مطالعاتی را انجام میدهیم. - surana et al,2012 - مقالهای با عنوان »یک روش مؤثر برای کاوش الگوهای متناوب دورهای در پایگاه داده مبادلاتی« را ارائه کرده است. در این مقاله یک روش دادهکاوی جدید به نام «maxCPF-Tree» برای کاوش الگوهای متناوب دورهای ارائه میشود. این الگوریتم «maxCPF-Tree» با محدودیتهای متعدد، مربوط به دوره تناوب و پشتیبانی کمینه ساخته میشود. دو پارامتر مهم در این الگوریتم minsup1 و maxprd2 است. مقادیر این دو پارامتر خروجی الگوریتم را تعیین میکنند. Minsup

حداقل تعداد تراکنشهای یک الگو را که در پایگاه داده باید ظاهر شود را کنترل می کند و Maxprd بیشترین زمان اختلاف بین دو حضور متوالی یک الگو در پایگاه داده را کنترل میکند. در - surana et al,2012 - مدل اصلی الگوهای متناوب دورهای بهصورت روبرو است: , L1'L2'…'LQ اگر x مجموعهای از آیتمها باشد، x I را یک الگو - یک مجموعه آیتم - گوییم. یک تراکنش t= - tid,y - یک تاپل است که tid نشاندهنده شماره تراکنش و Y یک الگو است. دو پارامتر minsup و maxprd توسط کاربر تعیین میشود.

جدول - 2 - نشاندهنده کاوش الگوهای متناوب دورهای برای پایگاه داده جدول - 1 - است. S و P به ترتیب تعداد پشتیبانی و تناوب را نشان میدهد. ستونهای با عنوان III,II,I الگوهای استخراجشده، مبتنی بر روش اصلی، مدلهای 3MCPF و MAXCPF را به ترتیب نمایش میدهد. در جدول - 1 - یک پایگاه داده تراکنشها را در نظر میگیریم. هر تراکنش با یک شناسه منحصربهفرد - tid - نمایش داده میشود که برچسب زمانی آن تراکنش نیز میباشد. برچسب زمانی، زمان وقوع تراکنش را نشان میدهد. مجموعه آیتم I={a,b,c,d,e,f,g,h} که {a,b} در آن یک الگو است، وجود دارد. این الگو در tid های 1، 3، 5، 7 و 9 رخ میدهد؛ بنابراین T{a,b}={1,3,5,7,9} و s - a,b - =[T{a,b}]=5 میباشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید