بخشی از مقاله
چکیده
براي سالها ارائه مدل پیش بینی کنندهاي کارا و دقیق براي پدیدههایی که تحت تاثیر عوامل زیادي رخ میدهند اما به دلیل وجود محدودیتهایی تعداد تکرار - مشاهده - کمی دارند، امکانپذیر نبود. زیرا در این شرایط راهکارهاي متداول آماري که بر مبناي زیاد بودن تعداد مشاهدات نسبت به متغیرهاي تاثیر گذار شکل گرفتهاند، قابل استفاده نمیباشند. در راستاي حل این مشکل، Srivastava and Kubokawa - 2007 - برآوردگر Crude را با استفاده از روشهاي بیز تجربی که به عنوان جدیدترین دیدگاه آماري است، معرفی کردند و برتري آن را در مدل بندي دقیق نسبت به دیگر برآوردگرها در این زمینه نشان دادند. در بررسی برخی بیماريها انجام آزمایشات تشخیصی سخت، پرهزینه و نتایج حاصل از آن غیرمطمئن میباشد.
لذا بررسی تاثیرات و تغییرات ایجاد شده ناشی از بیماري در بخشهایی از بدن نظیر خون که به سهولت می تواند مورد آزمایش هاي دقیق قرار گیرد، حائز اهمیت میباشد. پیش بینی دقیق میزان بیماري و تعیین چگونگی تاثیرات آن میتواند گامی بزرگ در جهت یافتن درمانهاي موثر باشد. براي این منظور لازم است فاکتورهاي سلولی، بیولوژیکی و محیطی مورد توجه قرار گیرد، در حالیکه تعداد مشاهدات با محدودیت زیادي همراه میباشد. با استفاده از برآوردگر Crude مدلی پیش بینی کننده براي تشخیص دقیق میزان بیماري، ارائه شده است. همچنین تعداد عوامل موثر بر بیماري نیز مشخص میشود که خود گشایش راهی درجهت ساخت داروهاي مناسب است.
مقدمه
یکی از مهمترین کاربردهاي آمار در عرصههاي مختلف علم از قبیل اقتصاد، ژنتیک، زمین شناسی، فیزیک، بیولوژي و ... مدل بندي و پیشبینی میباشد. امروزه، مدلهاي رگرسیونی، Data mining، شبکههاي عصبی مصنوعی و decision trees از مهمترین روشهاي مهم در مدلبندي و پیشبینی پدیدهها میباشند - 7 - ، - 3 - ، . - 8 - به طور کلی استفاده از این روشها با در دست داشتن تعداد زیاد مشاهدات امکانپذیر است در حالی که در اکثر پدیدههاي بیولوژیکی از قبیل بیماريهاي خاص و بیان ژنها، تعداد متغیرها - یا عاملهاي مؤثر، - p بسیار زیاد و تعداد مشاهدات - یا تکرارها، - n بسیار کم است.
پیشبینی بیماريهاي خاص، بیان ژنها و پروتئین بیوانفورماتیک مثالهاي بیولوژیکی مهمی با تعداد متغیر زیاد و تعداد تکرار کم است که مدلبندي دقیقتر و مؤثرتر را میطلبد. براي مثال، در پروتئین بیوانفورماتیک پیشبینی دامنه تغییرات pH، آنزیمهاي جدید - قبل از تولید آنها در آزمایشگاه - با استفاده از توالی پروتئینی آنها مورد توجه بسیار میباشد. این پیش بینی و مدلبندي به محققین اجازه دستکاري و ایجاد تغییرات در توالی پروتئینی موجود با استفاده از روش جایگزینی آمینو اسید و یا جهش در جهت تولید آنزیم برتر در صنعت را میدهد. براي این منظور لازم است خواص و ویژگیهاي زیادي از توالی پروتئین مورد توجه قرار گیرد، در حالیکه تعداد مشاهدات با محدودیت زیادي همراه میباشد. در تحلیل بیان ژنها، نیز سطوح بیان هر ژن به عنوان یک متغیر در نظر گرفته میشود که ممکن است تعداد ژنها تا 30000 برسد . - 11 -
رگرسیون خطی مهمترین روش مدلبندي میباشد. اکثر آماردانان و ریاضیدانان معتقدند که استفاده از مدلهاي رگرسیونی در شرایطی که تعداد متغیرها به مراتب بیشتر از تعداد مشاهدات باشد، امکانپذیر نمیباشد - 4 - ، . - 6 - در سالهاي اخیر تلاشهایی براي حل این مشکل به ویژه - 12 - ، - 11 - ، - 10 - صورت گرفته است. در - 12 - دیدگاه رگرسیونی بیزي جدیدي براي کلاسبندي مطرح میشود. اما اصلاحات عمده در این زمینه در - 10 - انجام شده است. آنها نشان دادهاند که برآوردگر کمترین توان دوم خطا که مهمترین و متداولترین برآوردگر در مدلهاي رگرسیونی است، خطاي پیشبینی زیادي نیز ایجاد میکند. در - 10 - با استفاده از دیدگاه بیز تجربی برآوردگرهایی براي β ، بردار ضرایب رگرسیونی، معرفی شده که ریسک به مراتب کمتري نسبت به برآوردگرهاي کمترین توان دوم خطا و برآوردگر بیزي در - 11 - دارند.
از بیز تجربی میتوان به عنوان سومین و جدیدترین دیدگاه مهم آماري نام برد. بیز تجربی قادر است پاسخ مناسبی به مسائل با تعداد داده محدود دهد و نقطه ضعف دو دیدگاه کلاسیک و بیز را در این زمینه برطرف نماید. اخیرا، بیز تجربی در بررسی و تجزیه و تحلیل بیان ژنها در میکرواري، بیماريها و پروتئین بیوانفورماتیک جایگاه ویژهاي یافته است - 2 - و . - 9 - در - 10 - برآورد بیز تجربی با نام برآوردگر Crude را معرفی و برتري آن را نسبت به برآوردگرهایی که تاکنون در این زمینه معرفی شده، نشان داده شده است. با استفاده از برآوردگر Crude مدلی پیش بینی کننده دقیق تشخیص و میزان بیماري و تعیین چگونگی تاثیرات آن، ارائه شده است.
کاربردها
در عمل با پدیدههاي بسیاري مواجه میشویم که لازم است مدلی براساس تعداد زیادي پارامتر و با در اختیار داشتن تعداد بسیار کمی داده به عنوان مشاهده برازش شود. در شرایطی که فراهم نمودن نمونه به اندازه کافی بزرگ امکانپذیر نباشد، نظیر بررسی بیماريهاي نادر، برخی شاخصهاي اقتصادي، بیولوژي، فیزیک، بیوتکنولوژي، ژنتیک، بیوانفورماتیک و .... مدلبندي رگرسیونی بیز تجربی به نحو موثري کارگشا میباشد. مدل پیشنهاد شده در این مقاله را میتوان در زمینه هاي گسترده اي در شاخه هاي گوناگون بیولوژي و پزشکی مورد استفاده قرار داد، زیرا که در بیولوژي به طور گسترده با تعداد تکرارهاي کم روبرو هستیم که برازش مدل را به طور معمول غیر ممکن میسازد. در ادامه نیز عملکرد مدل را با تحلیل دادههاي پروتئین بیوانفورماتیک نشان میدهیم.
مدل پیشبینی کننده جهت تعیین میزان تراکم استخوان
در بررسی اثر 17 فاکتور خونی بر روي تراکم استخوان که در Golbahar et al. - 2004 - صورت گرفته است، فاکتورهایی نظیر Pth Folate Calciton و...اندازه گیري شده است. میخواهیم براساس دادههاي حاصل ازبررسی روي 13 نفر، مدل پیش بینی کننده براي تشخیص میزان تراکم استخوان به دست آوریم. با حل معادله برآوردگر بیز تجربی Crude مقدار 9.1 به دست آمده است که با استفاده از این برآوردگر، نتایج به صورت زیر در ستون Y_C جدول - 1 - به دست آمده است.
همچنین در ستون Y مقادیر حقیقی تراکم استخوان و در ستون Y_ls مقادیر به دست آمده با استفاده از برآوردگر کمترین مربعات آمده است. مشاهده میشود که برآوردگر پیشنهادي در این مقاله دقت بسیار بالایی در تخمین و پیشبینی میزان تراکم استخوانی دارد. از ضریب تبیین R2 نیز به عنوان شاخص بسیار مهمی در تعیین دقت مدل استفاده کرده که مقدار آن براي برآوردگر پیشنهادي - برآوردگر بیز تجربی - Crude، 0/999978 - یعنی تقریبا - %100 و براي برآوردگر متداول - برآوردگر کمترین مربعات - ، 0/3004007 - تقریبا - %30 به دست آمد. همچنین بعد زیرفضا 8 میباشد که نشانگر این است که از 17 فاکتور خونی تنها 8 فاکتور در میزان تراکم استخوانی موثر است.