بخشی از مقاله

چکیده

پیش زمینه: تکنولوژی میکروآرایه اجازه میدهد محققان به طور همزمان بیانهای تعداد بسیار زیاد هزاران ژن را اندازهگیری کنند. در طی اجرای مراحل تکنیک میکروآرایه، ماتریس عددی بدست میآید که سطرهای آن ژنها و ستون ها نشان دهنده یک نمونه یا شرایط آزمایشگاهی میباشد. دو مرحله مهم در آنالیزهای پیشرفته دادهها خوشهبندی و طبقهبندی است. در این مقاله از ترکیب الگوریتم رقابت استعماری - ICA - که یک الگوریتم نوین برای بهینه سازی داده هاست، با الگوریتم KHM برای خوشه بندی داده های میکروآرایه استفاده شده است. ترکیب الگوریتم ICA با سایر الگوریتم های خوشه بندی باعث بهبود دقت الگوریتم های خوشه بندی و طبقه بندی میشود. مهمترین هدف این مقاله بررسی اجرای تکنیکهای خوشهبندی و طبقهبندی موجود روی دادههای میکروآرایه بیان ژن سرطان پستان است.

نتایج: روشهای مورد بررسی شامل خوشه بندی و طبقه بندی داده های میکروآرایه سرطان پستان می باشد. الگوریتمICA_KHM برای خوشه بندی و الگوریتم ترکیبی کدگذاری تنک با ICA برای طبقه بندی استفاده شده است. نتایج بدست آمده نشان میدهد که الگوریتم ترکیبی ICA_KHM دقت بالاتری نسبت به سایر الگوریتمهای خوشهبند دارد. و همچنین طبقه بندی این داده ها با استفاده از کدگذاری تنک به همراه ICA دقت بالاتری دارد.

کلمات کلیدی:خوشهبندی ، میکروآرایه، الگوریتم ICA-KHM ، کدگذاری تنک

-1 مقدمه

سرطان شامل همه انواع تومورهای بدخیم میشود که در پزشکی آنها را بیشتر با نام نئوپلاسم * میشناسند. وقتی که یکی از سلولهای بدن توسط عوامل مختلف، رشد غیر طبیعی میکند، باعث رشد غیرعادی سلولهای دیگر میشود و در نهایت منجر به تولید تومور میشود. ژنتیک سرطان هم اکنون یکی از تخصصهای در حال گسترش است. در سطح مولکولی،سرطان به دلیل وقوع جهش یا جهشهایی در DNA اتفاق میافتد که باعث تکثیر بیش از حد سلول میشود. عموما ژنها در توسعه و پیشرفت سرطان نقش مهمی دارند. سرطان پستان شایعترین سرطان در زنان جهان است. سال 2008، سرطان سینه بیش از 20 درصد افزایش یافته است. علاوه بر دلایل خطرناک ژنتیکی و هورمونی که زنان را ابتلا به سرطان پستان میکند، دلایل دیگری همچون سبک زندگی، محافظتی و تغذیه نیز نقش مهمی در این بیماری دارند.[1]

بیوانفورماتیک یعنی استفاده از فناوری انفورماتیک به منظور تجزیه و تحلیل دادههای زیستی است. بیوانفورماتیک همزمان با پروژه های ژنوم رشد کرد و دادههای این پروژهها را ذخیره و مورد بررسی قرار داد. یکی از شاخههای مهم بیوانفوماتیک، فناوری میکروآرایه است. تکنولوژی میکروآرایه اجازه میدهد محققان به طور همزمان بیانهای تعداد بسیار زیاد هزاران ژن را اندازهگیری کنند. دادههای بیان ژن میکروآرایه نقش مهمی در پیشگویی و تشخیص سرطان، تنظیمسازی ژن، کشف داروهای جدید بازی میکند، مقدار بیان هر ژن میزان فعال بودن آن ژن در نمونه آزمایش و یا به عبارتی میزان نسخهبرداری از آن ژن است، بنابراین با داشتن سطوح بیان ژنهای یک نمونه میتوان حالات مولکولی آن نمونه را توصیف نمود.[2]

دادههای بیان ژن میتواند به دو روش تحت نظارت و بدون نظارت تجزیه و تحلیل شوند. در آنالیز تحت نظارت، اطلاعات در مورد ساختار جسم به طور ضمنی شناخته شده است. در آنالیز بدون نظارت دانش قبلی شناخته شده نیست. خوشهبندی دادههای بیان ژن را میتوان به دو گروه اصلی تقسیم کرد، خوشه بندی مبتنی بر ژن و خوشهبندی مبتنی بر نمونه. در خوشهبندی مبتنی بر ژن، ژنها به عنوان اشیاء مورد استفاده قرار میگیرند و نمونهها خصیصههای خوشهبندی هستند. هدف خوشهبندی مبتنی بر ژن، تشخیص ژنهای بیان شده متفاوت و مجموعه ژن ها یا شرایط با الگوی بیان مشابه است. و برای تولید یک لیست از اندازهگیریهای بیان است. خوشهبندی براساس نمونه میتواند برای زیرساخت نمونهها استفاده شود.

بکار بردن روشهای خوشهبندی متداول، برای نمونههای خوشه با استفاده از تمام ژنها به عنوان خصیصه ممکن است کیفیت و سازگاری نتایج خوشهبندی را کاهش دهد.[3]دادههای بیان ژن معمولا بصورت روشهای خوشهبندی داده منفرد استفاده میشود.[4]  مجموعه دادههای بیان ژن از یک آزمایش میکرآرایه میتواند با یک ماتریس بیان واقعی مقداردهی شود M  = {wij | 1  L  Q 1  M  P   - شکل - a1 ، که ردیفها - G= { g1 ,g2'…'Jn} - الگوی بیان ژنها را تشکیل میدهند، ستونها - S = {s1,s2'…'Vm} -  بیان پروفایلهای نمونهها را نشان میدهند. هر سلول wij ،  wisسطح بیان ژن i در نمونه j را اندازهگیری میکند. - شکل - b 1 شامل برخی از نمادگذاری است که در بخشهای زیراستفاده میشود.[5]

-1-1 اندازگیری مسافت

الگوریتم خوشهبندی، ژنها را بر اساس شباهت - یا عدم همبستگی - بین ژنها تعیین میکند. شباهت با استفاده از فاصله بین دو ژن در فضای چند بعدی اندازهگیری میشود. بعضی از روشهای رایج فاصله عبارتند از فاصله اقلیدس - - ED ، ضریب همبستگی پیرسون - - pcc ، ضریب همبستگی رتبه اسپیرمن - - srcc ، در این مقاله از فاصله اقلیدس برای اندازهگیری فاصله بین دو ژن استفاده شده است.[6]

-2-1 فاصله اقلیدس - ED -

فاصله هندسی مستطیلی بین نقاط a و b در فضای نهایی n با استفاده از قضیه فیثاغورث محاسبه میشود.

-2 روش و مواد

در    این  مقاله  دادههای  بیان  ژن  سرطان  پستان  ازدانلودشده است و سپس با استفاده از نرم افزار متلب پیادهسازی کردیم. الگوریتمهای پیادهسازی شده با این نرم افزار عبارتند از سلسله مراتبی،K-MEANS ,FCM ,PFCM, ICA_KHM میباشد. الگوریتم پیشنهادی ما برای خوشه بندی ICA-KHM و برای طبقه بندیالگوریتم کد گذاری تنک است که دقت بالاتری نسبت به سایر    تدریجی صورت میپذیرد. در الگوریتم رقابت استعماری، امپراطوری الگوریتم کد گذاری تنک است که دقت بالاتری نسبت به سایرالگوریتمها دارند.        

ط-1-2الگوریتم رقابت استعماری - - ICA1    
پایههای اصلی این الگوریتم را سیاست همسانسازی2، رقابت استعماری و   انقلاب 3تشکیل میدهند. این الگوریتم با تقلید از روند تکامل اجتماعی،اقتصادی و سیاسی کشورها و با مدلسازی ریاضی بخشهایی از این فرایند،عملگرهایی را در قالب منظم به صورت الگوریتم ارائه میدهد که میتوانند به حل مسائل پیچیده بهینهسازی کمککنند.الگوریتم  جوابهای مسئله بهینهسازی را در قالب کشورها نگریسته و  سعی میکند در طی فرایندی تکرارشونده این جوابهارا رفتهرفته بهبود داده و در نهایت به جواب بهینه مسئله برساند. در بهینهسازی،هدف یافتن یک جواب بهینه بر حسب متغیرهای مسئله است. ما یک آرایه از متغیرهای مسئله را که باید بهینه شوند، ایجاد میکنیم که آن رایک کشور مینامیم. در یک مسئله بهینهسازی Nvar بعدی، یک کشور، یک آرایه به طول Nvar *1 است. این آرایه به صورت زیر تعریف میشود.        

مقادیر متغیرها در یک کشور، به صورت اعداد اعشاری نمایش داده میشوند. برای شروع الگوریتم، تعداد N country کشور اولیه را ایجادمیکنیم.تا Nimp از بهترین اعضای این جمعیت - کشورهای دارای کمترین مقدار تابع هزینه - را به عنوان امپریالیست انتخاب میکنیم. باقی-مانده Ncol    تا از کشورها، مستعمراتی را تشکیل میدهند که هر کدام به یک امپراطوری تعلق دارند. برای تقسیم مستعمرات اولیه بین امپریالسیت-ها، به هر امپریالیست، تعدادی از مستعمرات را که این تعداد، متناسب باقدرت آن است، میدهیم. سیاست همگونسازی - جذب - با هدف تحلیل فرهنگ و ساختار اجتماعی مستعمرات در فرهنگ حکومت مرکزی انجام میگیرد.

کشورهای استعمارگر، برای افزایش نفوذ خود، شروع به ایجاد عمران - ایجاد زیرساخت های حمل و نقل، تاسیس دانشگاه و - … میکنند. در حین حرکت مستعمرات به سمت کشور استعمارگر، ممکن است بعضی از این مستعمرات به موقعیتی بهتر از امپریالیست برسند - به نقاطی در تابع هزینه برسند که هزینه کمتری را نسبت به مقدار تابع هزینه در موقعیت امپریالیست، تولید میکنند - در این حالت، کشوراستعمارگر و کشور مستعمره، جای خود را با همدیگر عوض کرده والگوریتم با کشور استعمارگر در موقعیت جدید ادامه یافته و این باراین کشور امپریالیست جدید است که شروع به اعمال سیاست همگون-سازی بر مستعمرات خود میکند. هر امپراطوریای که نتواند بر قدرت خود بیفزاید و قدرت رقابت خود را از دست بدهد، در جریان رقابت- های امپریالیستی، حذف خواهد شد این حذف شدن،به صورت تدریجی صورت میپذیرد.

در الگوریتم رقابت استعماری، امپراطوری  در حال حذف ضعیفترین امپراطوری موجود است. بدین ترتیب، درتکرار الگوریتم، یکی یا چند مورد از ضعیفترین مستعمرات ضعیف- ترین امپراطوری را برداشته و برای تصاحب این مستعمرات، رقابتی رامیان کلیه  امپراطوریها  ایجاد میکنیم. در جریان رقابتهای امپریالیستی، خواه ناخواه، امپراطوریهای ضعیف به تدریج سقوط کرده و مستعمراتشان به دست امپراطوریهای قویتر میافتد.  شروط متفاوتی را میتوان برای سقوط یک امپراطوری در نظر گرفت. در این الگوریتم، یک  امپراطوری زمانی حذف شده تلقی میشود که مستعمرات خود را از دست داده باشد. [6] مراحل ذکر شده در بالا را می توان به صورت شبه کد ریز خلاصه کرد.    

.1 چند نقطه تصادفی روی تابع انتخاب کرده و امپراطوریهای اولیه راتشکیل بده.    

.2 مستعمرات را به سمت کشور امپریالیست حرکت بده - سیاست همسانسازی یا جذب - .    

.3 عملگر انقلاب Revolution - - را اعمال کن.    

.4اگر مستعمرهای در یک امپراطوری، وجود داشته باشد که هزینهای کمتر از امپریالیست داشته باشد؛  جای مستعمره و امپریالیست را با  هم عوض کن.    

.5  هزینهی کل یک امپراطوری را حساب کن - با در نظر گرفتن هزینهی امپریالیست و مستعمراتشان - .    

6 .یک - یا چند - مستعمره از ضعیفترین امپراطوری انتخاب کرده و  آن را به امپراطوریای که بیشترین احتمال تصاحب را دارد بده.    

7 .امپراطوریهای ضعیف را حذف کن.    

8 .اگر تنها یک امپراطوری باقی مانده باشد، توقف کن وگرنه به مرحله 2 برو.    
      
 -2-2الگوریتم ICA-KHM4    
 مراحل اصلی کار ICA-KHM به این صورت است: 

اولا یک جمعیت اولیه کشورهایی که شامل k تعداد مراکز خوشه به طور تصادفی تولید شده است سپس الگوریتم ICA فرآیند بهینه سازی-نقاطی در تابع هزینه برسند که هزینه کمتری را نسبت به مقدار تابع اش را به وسیله تشکیل امپریالهای اولیه شروع میکند سپس امپریالهای اولیه در فضای حل مسئله را تشکیل میدهد. مستعمرات در هر امپریال    
شروع به حرکت به سمت امپریالیستهای مربوطهاش میکند. در طول این حرکتها امپریالیستهای قوی تقویت شده آنهایی که ضعیف بودند ضعیفتر میشوند سپس با استفاده از انقلاب، عملگر بعضی مستعمرات به طور تصادفی موقعیتشان را در فضای حل مسئله عوض    

 
در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید