بخشی از مقاله
چکیده
هدف اصلی تحقیقات فیلوژنتیکی بازسازی تاریخچه تکاملی موجودات است. ارتباطات خویشاوندی بین موجودات مختلف از طریق رسم دیاگرامهای درختی به نام درختهای فیلوژنی توصیف میشود. از بین روشهای متداول روش بیسین روشی قدرتمند برای رسم درختان فیلوژنی است. در این روش با توجه به دادههای مشاهده شده، احتمال صحت درخت که به آن احتمال پسآیند گفته میشود، بررسی می-گردد.
این روش جورهای از روش بیشینه درستنمایی است که به جای جستجوی درختی که احتمال دیدن دادههای موجود را حداکثر میکند، با توجه به دادههای موجود به دنبال درختی با بیشترین احتمال میگردد. از مزایای این روش نسبت به روش بیشینه درست نمایی این است که الگوریتم استفاده شده برای هر یافته پشتوانهای آماری ارائه می کند که این پشتوانه احتمال واقعی است در حالی که در روش بیشینه درستنمایی مقادیر بوت استراپ، احتمال نیستند.
مقدمه
فیلوژنی تاریخچه تکاملی گروهی از نهادهها است. هدف از فیلوژنی توصیف ارتباطات تکاملی از لحاظ خویشاوندی نسبی با جد مشترک است. این ارتباطات به شکل دیاگرامی شاخه شاخه یا درختی نشان داده می شود که شاخههای آن از طریق گرهها به هم وصل هستند .[1] در روشهای سنتی واکاویهای فیلوژنتیکی از روی مشخصات ریختشناختی صورت میگرفت ولی امروزه با توجه به حجم بالای دادههای مولکولی موجود، نقطه آغاز واکاوی عمدتاً دسترسی به اطلاعات توالی - توالیهای اسید نوکلئیک یا پروتئین - است.
با این وجود، دسترسی به چنین منبع قابل اعتمادی از شواهد به معنی پایان مشکلات و مسائل تحقیق فیلوژنتیکی نیست. بلکه جنبههای محاسباتی اهمیت مییابند. روشهای اصلی رسم درختهای فیلوژنی شامل روشهای مبتنی بر فاصله1 و روشهای مبتنی بر صفت2 است. روشهای مبتنی بر فاصله مانند روش الحاق مجاور3، فاصلههای دوتایی بین توالیها را محاسبه کرده و توالیهای دارای بیشترین تشابه را در یک گروه قرار میدهد. به عبارت دیگر فاصله بین هر جفت توالی محاسبه میشود و از ماتریس فاصله به دست آمده برای ساخت درخت استفاده میشود.
این روش ساده و سریع است و برای بررسیهای اولیه مفید است اما برای استفاده از درخت نهایی باید آن را با نتایج سایر روشها مقایسه کرد. در مقابل، روشهای مبتنی بر صفات مانند روشهای پارسمونی4، بیشینه درستنمایی5 و بیسین6 هستند. روشهای مبتنی بر صفات، به طور هم زمان کلیه توالیهای مورد بررسی را مقایسه میکند در حالی که برای ساخت درخت هر بار یک صفت را در نظر گرفته و یک امتیاز به هر درخت میدهد. در روش بیشینه پارسمونی امتیاز درخت کمترین تعداد تغییرات است. در روش بیسین این امتیاز احتمال پسآیند7 است.
از لحاظ تئوری درختی که بهترین امتیاز را دارد از طریق مقایسه کلیه درختان ممکن به دست میآید. در عمل به دلیل تعداد بالای درختان ممکن این کار غیر ممکن است و برای حل این مشکل از الگوریتمهای جستجوی هورستیک استفاده میشوند. این روشها درختی اولیه با یک الگوریتم سریع تولید کرده و سپس برای بهبود امتیاز درخت تنظیمات مجدد انجام میدهند. روشهای بیشینه درستنمایی و بیسین بر مبنای مدل هستند اما روشهای پارسمونی بر مبنای مدل نیستند .[2] روشهای آماری برای بازسازی فیلوژنی سعی بر محاسبه احتمال درختهای فیلوژنتیکی مختلف دارند و به این منظور باید از یک مدل تکامل توالی استفاده کنند. مدل تکامل توالی این واقعیت را در نظر میگیرد که احتمال وقوع تمام جهشها در یک توالی یکسان نیست .[1]
روش بیسین، فرمولBayes
روشهای آماری بر مبنای بیسین از مقالهای که پس از فوت Reverend Thomas Bayes در سال 1763 منتشر گردید زاده شد. روشهای آماری بیسین روشی رسمی بری استنتاج احتمال وقوع یک رخداد از طریق در نظر گرفتن احتمال پیشآیند وقوع این رخداد و نیز دادههای موجود است. تئوری Bayes در اینجا شرح داده شده است. قضیه Bayes امکان محاسبه یک مدل از روی نتایجی که تولید میکند را فراهم کرده است. این احتمال که احتمال پس¬آیند نامیده میشود، طبق فرمول زیر محاسبه میشود: P - Biased - احتمال پیشآیند است و برابر 0,1 است. 3 - 4'6 %LDVHG - احتمال است و برابر 24,441 است. P - 4,6 - احتمال غیر مشروط دادههای مشاهده شده است و برابر 0,03 است.
طبق فرمول فوق احتمال کج بودن تاس 0/179 است. یعنی بیشینه درستنمایی و بیسین نتیجه مشابه ندارند. میتوانیم آزمایش را ادامه دهیم و در این حالت 0/179 را به عنوان اطلاعات قبلی - احتمال پیشآیند - استفاده کنیم به عبارتی .P - Biased - = 0.179 معمولاً اطلاعات قبلی دردسترس نیست یا محقق چون نمیخواهد نتایج تحت تاثیر عقاید شخصی قرار گیرد مایل به استفاده از اطلاعات قبلی نیست. در این حالت پیشآیند یکسان استفاده میشود، یعنی احتمال تمام مدلها یا توپولوژیهای ممکن مساوی درنظر گرفته میباشد.
اگر پیشآیند یکسان استفاده شود، از آنجایی که Pr - D - نیز برای مشاهدات داده شده ثابت است، طبق فرمول قضیه Bayes در این فرمول :Prob [T|D] احتمال پس¬آیند است. :Prob [T] احتمال پیشآیند8 است، یعنی احتمال تئوری T قبل از جمعآوری یا مشاهده داده است. :Prob [D|T] احتمال است. یعنی احتمال مشاهده دادهها تحت این فرض - مدل یا درخت - . :Prob [D] احتمال مشاهده دادهها بدون توجه به اینکه کدام تئوری صحیح است که با فرمول Pr - D|T - Pr - T - برای تمام توپولوژیهای ممکن حساب میشود.
به عبارت دیگر: P[D]= - Prob[Data|Model] x Prob[Model] + Prob[Data|Alt] x Prob[Alt] - با یک مثال ساده فرمول فوق شرح داده میشود. فرض کنید 90 تاس سالم و 10 تاس کج در یک جعبه قرار داده میشوند. سپس یک تاس به طور تصادفی از جعبه بیرون کشیده میشود. احتمال معیوب بودن تاس 0/1 است. به این احتمال پیشآیند گفته میشود. فرض کنید تاس دو بار پرتاب شود و نتیجه 4 و6 باشد. با توجه به احتمالات مذکور در مورد سالم یا معیوب بودن تاس چه حدسی می-زنید؟
در سالهای اخیر استنباط بیسی به عنوان روشی قدرتمند برای بازسازی فیلوژنی معرفی شده است. استنباط بیسی تا حدی به بیشینه درستنمایی مرتبط است اما پرسش اصلی که مطرح میگردد کاملاً متفاوت است. در حداکثر احتمال پرسش این است که احتمال دیدن دادههای مشاهده شده - D - با فرض صحیح بودن مدل - T - چقدر است، P - D\T - ؟ در حالی که در استنباط بیسی پرسش این است که احتمال این که این مدل - T - با داشتن دادههایی - D - که مشاهده نمودهایم صحیح باشد چقدر است، P - T\D - ؟ برای فهم بهتر تفاوت بیشینه درستنمایی و بیسین مثالی ساده در زیر ذکر میشود: اگر دو تاس را پرتاب کنید، احتمال اینکه هر دو تاس عدد یک را نشان دهند 1/36 است.
زیرا شانس آمدن 1 در تاس اول 1/6 و در تاس دوم نیز 1/6 میباشد و با ضرب این عدد، دو پاسخ به دست میآید. به زبان ساده به این احتمال یک نتیجه خاص تحت یک فرض مشخص - درمورد چگونگی عمل یک شیء - گفته میشود. در این مثال داده نشان دادن عدد 1 در هر دو تاس است و مدل یا فرض سالم بودن تاس است. این روش در بازی با تاس مفید است و در فیلوژنتیک قدری غیرقابل اطمینانتر است. در میز بازی با تاس در مورد نحوه کار سیستم ایده و اطلاعات خوبی در دسترس است.
تاس سالم است و شما میتوانید درمورد آنچه پیش میآید حدس خوبی داشته باشید. در فیلوژنتیک نتیجه یعنی همردیف سازی توالی را ازقبل میدانید. آنچه نمیدانید مدلی است که آن همردیف سازی را ایجاد کرده است - فرض را نمیدانید - . میخواهیم پروسه تاریخی که این نتایج را ایجاد کرده بدانیم. بنابراین روشهای آماری سنتی معکوس میشود. بهجای استنباط یک نتیجه از روی مدل، می- خواهیم از روی نتیجه یک مدل را استنباط کنیم.
به طور مثال در مثال بالا در هر دو تاس عدد 1 ظاهر شده و سعی میکنیم از روی آن بفهمیم تاسها سالمند یا خیر .[4] در فیلوژنتیک اگر بخواهیم احتمال پس¬آیند یک نیا 9 را محاسبه کنیم. نیاز به مجموع کلیهی پس¬آیندهای درختان دارای این نیا داریم. اما احتمال دادهها و انتگرالی که در صورت کسر فرمول فوق استعموماً قابل محاسبه نیستند. راهحل به کار رفته، استفاده از انتگرالی به نام Markov chain Monte Carlo است .[6]
الگوریتم - MCMC - Marco Chain Monte Carlo
اخیرا روشهای MCMC برای برآورد تقریبی احتمال پسآیند بهکار برده شده است. توابع احتمال مدلهای فیلوژنتیکی پیچیده هستند و انتگرالگیری تحلیلی امکانپذیر نیست، لذا روشهای بیسی به MCMC وابستهاند .[7] در MCMC هدف این است که انتگرال-گیری احتمال پسآیند در پارامترهای موردنظر - مثلاً توپولوژی- طول شاخه و پارامترهای جایگزینی - ازنظر محاسباتی امکانپذیر و ساده شود. سازوکاری که این زنجیره استفاده میکند شامل تغییر تدریجی از یک نقطه شروع که به صورت تصادفی انتخاب شده، میباشد و متناوباً بعضی از مقادیر پارامترها مانند توپولوژی، طول شاخه و پارامترهای جایگزینی را به صورت تصادفی تغییر میدهد.
این پیشنهادات یا تغییرات با احتمالی که توسط الگوریتم-Metropolis Hastings تعیین میشود، پذیرفته میشوند و زنجیره مارکوف تا زمانیکه به یک وضعیت ثابت برسد پیش میرود. نتایج MCMC مستقیماً به صورت احتمال تفسیر میشوند. نتایج میتوانند احتمال درست بودن یک درخت خاص برای توالیها تحت یک مدل جایگزینی تصادفی را برآورد کنند .[4 , 8 , 9] فرض کنید برای حل یک مساله تعداد زیادی راه حل داشته باشید.
ترجیح می دهید همه را چک نکنید ولی میتوانید برای هر کدام یک احتمال حساب کنید: ممکن است فقط بهترین روش را بخواهید، یعنی روشی با بالاترین احتمال که این کاری است که روشهای بیشینه درستنمایی انجام میدهند: »جستجو برای یافتن بهترین راه حل منفرد.« عیب این روش این است که اطلاعات کامل ارائه نمیدهد. برای درکت بیشتر این مطلب در نظر بگیرید 99 راه-حل وجود دارد که شانس صحیح بودن 98 روش یک درصد است و شانس یکی 2 درصد است. آیا این به معنی است که راهحل دو درصدی را به عنوان پاسخ صحیح در نظر بگیریم؟ بهتر است که به جای جستجوی یک راه حل منفرد، نوعی برآیند بگیریم، تا بررسی کنیم چه شاخصهایی منجر به بهترین راه حل میشوند.
MCMC در زبان ساده، روش بررسی یک مجموعه راهحلهاست بنابراین هر نقطه با فراوانی معادل احتمال آن مشاهده میشود. الگوریتم MCMC با انجام یک سری مراحل که تشکیل یک زنجیر - ذهنی - میدهند، کار میکند. در هر مرحله یک موقعیت جدید در فضای پارامتری به عنوان حلقه بعدی در زنجیره پیشنهاد میشود. موقعیت پیشنهاد شده معمولاً شبیه موقعیت فعلی است. زیرا با تغییر تصادفی تعداد کمی از پارامترها در موقعیت فعلی، ایجاد میشود. احتمال پسآیند موقعیت جدید محاسبه میشود که اگر نسبت به موقعیت فعلی بالاتر بود، حرکت پذیرفته میشود و موقعیت پیشنهاد شده به عنوان حلقه بعدی زنجیره میشود و چرخه تکرار میشود.
اگر موقعیت پیشنهاد شده احتمال پسآیند کمتری داشته باشد، گاهی اوقات پذیرفته می- شود - حرکت کوچک به سمت پایین پذیرفته میشود در حالی که جهشهای بزرگ به سمت پایین رد میشوند - . اگر موقعیت پیشنهاد شده رد شود، موقعیت فعلی به عنوان حلقه بعدی در زنجیره اضافه میشود - یعنی 2 حلقه آخر زنجیره یکسان خواهند بود - و چرخه تکرار خواهد شد. با میلیونها بار تکرار این روش در فضای پارامتری یک زنجیره طویل از موقعیتها ایجاد میشود.
در پایان واکاوی، به محقق برآوردی داده میشود که احتمال این که هر درخت خاص همان درخت تکاملی صحیح به وجود آورنده دادهها باشد، چقدر است. البته این احتمال منوط به این است که مدل تکامل توالی مناسب و توزیع پیشآیند پارامترها منطقی و معقول باشد. با این وجود همچنان نشان دهنده معیار اطمینانی که باید در درخت قرار داده شود، میباشد .[10] امروزه برای رسم یک درخت فیلوژنی بر مبنای روش بیسین از نرم افزار MrBayes استفاده میشود .[11]
مزایا و معایب روش بیسین
مزایای روش بیسین نسبت به سایر روشهای رسم درختهای فیلوژنی به این شرح است:
MCMC -1 برای هر شاخصی که مییابیم معیاری میدهد و این معیار یک احتمال واقعی است. در حالی که مقادیر بوت استراپ، احتمال نیستند و یا حتی آماری نیستند. تنها چیزی که در مورد بوت استراپ 50 میتوانیم بگوییم این است که از مقدار بوت استراپ 49 یا کمتر بهتر و از مقدار 51 یا بیشتر بدتر است. همچنین نشان داده شده که بوت استراپ از یک منحنی s شکل پیروی میکند و در مقادیر بالا بیش از حد و در مقادیر پایین کمتر از حد برآورد میکند.
-2 یکی از شاخصهایی که سبب عدم محبوبیت اکثر روشهای بازسازی فیلوژنی است این است که پیچیدگی محاسبهای تصاعدی دارند، یعنی اگر اندازه مساله - تعداد تاکسونها، اندازه درخت - دو برابر شود، منابع محاسباتی مورد نیاز برای حل آن - حافظه و زمان لازم برای محاسبه - بیش از دو برابر می شود، و به این ترتیب مسائل سریعاً غیر قابل حل میشوند. در مقابل روشهای بیسی پیچیدگی
خطی دارند یعنی اگر اندازه مساله دو برابر شود، زمان لازم برای حل آن نیز دو برابر میشود. البته به این معنی نیست که روشهای بیسی سریعترند بلکه به این معنی است که سادهتر مسائل بزرگتر را مدیریت میکنند.
-3 در روشهای احتمال راهحلهای موجود نه تنها شامل توپولوژی درخت - مجموعهای از نیاها و طول شاخهها - است بلکه پارامترهای مدل تکامل مولکولی را نیز شامل میشوند در حالیکه این پارامترها مورد نظر نیستند، خوشبختانه، زنجیره MCMC فقط به شاخص-هایی که به آن دستور میدهیم توجه میکند. MCMC فقط شاخصهای مورد نظر را انتخاب میکند و مکررترین توپولوژیها را بدون توجه به پارامترهایی که آنها را تولید کرده، نشان میدهد. در مقابل روشهای بیشینه درستنمایی به تمام پارامترها نگاه میکند و باید در کل آنها ماکزیمم شود.