بخشی از مقاله
چکیده -
DNA عامل اصلی انتقال وراثت بوده که از دو رشته تشکیل شده است. قسمتهایی از DNA که دارای کدهایی برای عملکرد ملکولها میباشد ژن نامیده میشود و قسمت هایی از ژن که درگیر فرآیند پروتئین سازی می شود نواحی کدکننده پروتئین - اگزون - نامیده می شود. تشخیص دقیق نواحی کدکننده از نواحی غیرکدکننده - اینترون - به چالشی در تحقیقات بیوانفورماتیک تبدیل شده است.
در این مقاله، الگوریتمی بر مبنای ترکیب روش تبدیل توالی DNA به سیگنال با متد EIIP و روشهای فیلتر کردن چندفازه به منظور شناسایی نواحی کدکننده پروتئین در توالی DNA ارائه شده استو ضمناً بکارگیری فیلتر چندفاره موجب کاهش حجم محاسبات شدهاست.
الگوریتم پیشنهادی با الگوریتمهائی که پیشتر ارائه شدهاند همچون گورتزل،تجزیه به نقاط تکین - SVD - ، اعداد جفت شده - Paired Numeric - و تبدیل ویولت گابور اصلاح شده - MWGT - مورد مقایسه و ارزیابی قرار گرفتند. نتیجه بدستآمده از روش پیشنهادی دارای نویز بسیار کم و قلههای بزرگ بوده که منجر به صحت %94/1 شده است که نشان دهنده برتری روش پیشنهادی در مقایسه با دیگر روشهای مقایسهای است.
- 1 مقدمه
دئوکسیریبونوکلئیکاسید - Deoxyribonucleic Acid - یا DNA به عنوان ماده اصلی برای رشد و انتقال صفات وراثتی در گونههای زنده در نظر گرفته میشود.[1] یک رشته DNA ملکول طویلی از خانواده بیوپلیمرهاست که اطلاعات ژنتیکی را حمل میکند و دارای وظایف بیولوژیکی مهمی از جمله ذخیره و انتقال اطلاعات ژنتیک میباشد. این ملکول از دو رشته پلیمر خطی تشکیل شده و متشکل از واحدهای منومری به نام نوکلوتید میباشد. شکل 1 ساختار ملکول DNA را نشان میدهد. همانطورکه مشاهده میشود، هر نکلوتید از سه بخش: یک قند پنج کربنه - قند دئوکسی ریبوز - ، یک تا سه گروه فسفات - 4− - و نیز یک باز آلی نیتروژندار تشکیل شده است. بازهای موجود در نوکلوتیدها نیز چهار نوع مختلف: آدنین - A - ، گوانین - G - ، تیمین - T - و سیتوزین - C - را دارد
شکل:1 ساختار مولکول >3@ DNA
بخش هایی از رشته DNA که پروتئین را کدگذاری میکنند اگزون نامیده میشوند. نواحی کدکننده پروتئین که اگزون نامیده میشوند دنبالهای از نکلوتیدها هستند که کدهای لازم برای تولید پروتین را دارا میباشند در حالیکه نواحی غیر کدکننده پروتئین که اینترون نامیده میشوند هیچگونه کدی برای تولید پروتئین ندارند که در شکل 2 نشان داده شده است
شکل:2 نواحی اگزون- اینترون در [6] DNA
در روش محاسبه مقدار طیف هر یک از توالی باینری نوسان کننده با دوره تناوب p به عنوان یک نویز جمع شونده رفتار کرده که وجود نویز 1/f مانع از تشخیص این دو ناحیه میشود .[8 ,7] از اینرو روشهای پردازش سیگنال دیجیتال برای آنالیز رشتههای ژنوم به خصوص برای تشخیص نواحی کدکننده پروتئین استفاده میشود .[9 ,7] برای استفاده از روشهای پردازش سیگنال تبدیل نوکلوتیدها به مقادیر عددی و ترجمه رشتههای نکلوتیدی به سیگنالهایی در حوزه زمان امری ضروری است .[10] براساس نمایش FASTA، دنباله DNA شامل چهار نوکلوتید است که با حروف A، C، Tو G نام گذاری میشوند .[6] بنابراین باید از یک نگاشت مناسب برای تبدیل این حروف به مقادیر عددی به منظور اعمال روشهای پردازش سیگنال استفاده کنیم.
روشهای نگاشت مختلفی توسط محققین مختلف پیشنهاد شدهاند. تبدیل باینری یکی از قدیمیترین و سادهترین روشها است که در آن نوکلوتیدهای A، C، T و G به چهار دنباله باینری x [n] و xT[n]، x [n]، xA[n] نگاشت میشوند .[7] این چهار دنباله در صورت حضور نکلوتید برابر یک و در غیر این صورت صفر هستند. یک روش دیگر نمایش در حوزه مختلط میباشد. که طبیعت تکاملی بودن A-T و C-G را مد نظر قرار داده است .[11] به روش های نگاشت دیگری نظیر نگاشت اعداد حقیقی ، اعداد اتمی و QPSK-base می توان اشاره نمود.
پس از نگاشت دنباله DNA به مقادیر عددی، سیگنال حاصل جهت نیل به اهدافی همچون تعیین نواحی کدکننده مورد پردازش قرار میگیرد. یکی از علت های اصلی استفاده از روشهای پردازش سیگنال برای دادههای ژنی وجود تناوبهای پنهان در دنبالههای DNA است در این راستا هرزل و همکاران نشان دادند که تناوب-های 3، 10/5، 200 و 400 در رشتههای DNA وجود دارند
نواحی کدکننده پروتئین، دارای مشخصه تناوب-3 میباشند که در دیگر قسمتهای ملکول DNA مشاهده نمیشود .[19] در روشهایی که معمولا مورد استفاده قرار میگیرند خاصیت تناوب-3 برای شناسایی نواحی ژنی استفاده میگردد
تعیین دقیق ناحیه اصلی کدکننده و نویز کم، معیار های اصلی در مسئله پیشبینی نواحی است که براین اساس هدف از انجام این تحقیق پیشبینی نواحی اصلی کدکننده و رفع مشکلات مذکور است.
در این تحقیق، الگوریتمی جدید مبتنیبر روشها و تبدیلات حوزه زمان به فرکانس جهت شناسایی نواحی کدکننده ارائه شده است. در الگوریتم پیشنهادی نخست، از تبدیل فوریه زمان کوتاه - STFT - جهت انتقال به حوزه فرکانس استفاده شده است. سپس با بکارگیری فیلتر میانگذر - Anti-notch - خاصیت تناوب-3 استخراج شده است. در ادامه جهت تحلیل طیف، چگالی توان سیگنال حاصل توان محاسبه شده و سپس با اعمال فیلتر چندفازه - Polyphaser Filter - نویز سیگنال کاهش یافته است. در پایان با اعمال یک مرحله آستانهگذاری نواحی کدکننده تعیین گردیده است.
ساختار مقاله به صورت زیر است: در بخش 2 روشهای پردازشی بهکارگرفته شده پیشنهادی در این تحقیق ارائه میگردد. در بخش 3 نتایج پیادهسازی ارائه میگردد و در نهایت در بخش 4 جمعبندی و نتیجهگیری پرداخته میشود.
- 2 پردازش دادهها و الگوریتم پیشنهادی
در این بخش ابتدا به معرفی شیوه پردازش و تحلیل سیگنال بدست آمده پرداخته شده است و در نهایت الگوریتم پیشنهادی ارائه گردیده است.
1 - 2 تحلیل STFT دنباله DNA
از تبدیل فوریه زمان کوتاه - STFT - برای تحلیل دنباله DNA استفاده میشود. طبق تعریف برای یک بلوک x - n - به طول N، STFT عبارت است از:
از - - میتوان به عنوان معیاری برای تعیین نواحی احتمالی کدکننده پروتئین استفاده کرد. اگر ناحیهای متعلق به نواحی پروتئینی باشد با توجه به خاصیت تناوب-3 قلهای در فرکانس N - k=N/3 طول پنجره و مضربی از سه است - مشاهده میشود. درحالیکه این قله در نواحی غیر پروتئینی مشاهده نمیشود. مقدار پیشنهاد شده برای N در مقالات برابر 351 است که ما نیز در این تحقیق از آن استفاده کردهایم
2 - 2 الگوریتم پشنهادی
در این بخش، الگوریتمی برای تعیین موقعیت نواحی کدکننده پروتئین برمبنای DFT ، فیلتر های Anti-notch و چندفازه ارائه میکنیم که جزئیات آن در شکل 3 نشان داده شده است. همانطور که مشاهده میشود، در روش پیشنهادی ابتدا دنباله DNA را با روش EIIP به سیگنال عددی تبدیل شده است سپس با اعمال فیلتر میانگذر خاصیت تناوب-3 یا فرکانس 1/3 استخراج شده است.
در مرحله بعد سیگنال به پنجرههایی به طول 351 تقسیم شده و دوباره از همان فیلتر میانگذر عبور کرده و چگالی توان - PSD - با توجه به معادله 2 محاسبه شده است سپس پنجره به اندازه یک واحد رو به جلو جابهجا شده و همین فرآیند تکرار شده تا پنجره به انتهای سیگنال برسد. هنگامیکه پنجره به انتها رسید دنباله جدیدی که بدست آمده را S[k] مینامیم. در مرحله بعد با اعمال یک فیلتر چندفازه، نویز موجود در S[k] کاهش یافته که موجب کم شدن حجم محاسبات و نرمتر شدن سیگنال میگردد.
رابطه فیلتر میانگذر - Anti-notch - استفاده شده برای یافتن تناوب-3 بصورتی که در ادامه آمده است تعریف میشود:
که در رابطه - 3 - مقدار = 23 و = 0.992 است.
پنجره بکار گرفته شده برای بخشبندی سیگنال کایزر میباشد که طول آن 351 در نظر گرفته شده است که باعث کاهش نویز پس زمینه میشود. به منظور نرم سازی از فیلتر پایین گذر FIR با پنجره بلکمن که دارای مرتبه 100 و فرکانس نمونه برداری و فرکانس قطع Fc = 0.004 KHz استفاده شده است. به منظور کاهش مشکلات ناشی از نشتی طیف STFT و همچنین کاهش میزان نویز از فیلتر چندفازه که دارای ضریب فشردگی M=4 و تابع تبدیلی با مخرج یک و ضریب صورت 0.6667 استفاده شده است
شکل:3 بلوک دیاگرام الگوریتم پیشنهادی