بخشی از مقاله
چکیده
کمپلکسهای پروتئینی به صورت گروههایی از پروتئینها تعریف میشوند که با همکاری یکدیگر فرآیند زیستی خاصی را انجام میدهند. تشخیص کمپلکسهای پروتئینی با استفاده از شبکه برهمکنش پروتئین-پروتئین، میتواند به فهم بهتر مکانیزم سلولها کمک کند و برای اهداف درمانی مثل کشف دارو مورد استفاده قرار گیرد. خوشهبندی شبکههای برهمکنش پروتئینی یکی از روشهای متداول در استخراج کمپلکسهای پروتئینی است.
الگوریتمهای خوشهبندی پیشنهاد شده، یا به تنهایی از توپولوژی شبکه برهمکنش پروتئینی و یا از ترکیب توپولوژی شبکه و بینشهای زیستی برای تشخیص کمپلکسهای پروتئینی استفاده میکنند. همهی این الگوریتمها به عنوان ورودی، شبکهای از برهمکنشهای پروتئینی دریافت میکنند، این در حالی است که قابلیت اطمینان دادههای مربوط به این برهمکنشها که از روشهای با توان عملیاتی بالا استخراج میشوند، کم است.
در این پژوهش، با استفاده از اطلاعات پروتئینهای همولوگ میان گونههای مختلف، سعی در ایجاد شبکه برهمکنش پروتئین-پروتئین شده و از این شبکه جدید به عنوان ورودی الگوریتمهای خوشهبندی استفاده میشود. نتایج حاصل از معیارهای ارزیابی برای حالتی که شبکه برهمکنش پروتئینی بهدست آمده از روش پیشنهادی به عنوان ورودی به الگوریتمهای تشخیص کمپلکس داده شود، نسبت به زمانیکه شبکه استاندارد طلایی بهعنوان ورودی الگوریتمها داده شود، نشان داد که استفاده از اطلاعات تکاملی بین گونهها میتواند در تشخیص کمپلکسهای پروتئینی موثر باشد.
-1 مقدمه
از آنجایی که دادههای زیستی با نرخ بسیار بالایی ایجاد شده و حجم عظیمی از اطلاعات را فراهم میآورند، پردازش این دادهها به لحاظ حجم و پیچیدگی محاسباتی، سنگین و پرهزینه میباشد. حل مسائل پیچیدهی زیستی نیازمند روشهای پیشرفتهی محاسباتی است و علم بیوانفورماتیک با رویکرد حل چنین مسائلی متولد شد.[1] رفتار سلولی و اغلب فعالیتهایی که در سلول انجام میشود برعهده پروتئینها است. اکثر پروتئینها نقش خود را با همکاری پروتئینهای دیگر در سلول اعمال میکنند و در نتیجه در تعامل با یکدیگر یک فرآیند زیستی خاصی را انجام میدهند. مسائل مورد بررسی در این پژوهش به یکی از شاخههای علم بیوانفورماتیک یعنی تشخیص کمپلکسهای پروتئینی در شبکههای برهمکنش پروتئین-پروتئین میپردازد . انواع مختلفی از برهمکنش میان پروتئینها وجود دارد[2] که مهمترین آنها شامل موارد زیر است:
• برهمکنش فیزیکی: سادهترین حالتی که دو پروتئین با یکدیگر برهمکنش دارند، زمانیست که به طور فیزیکی به یکدیگر متصل میشوند. این اتصال غالبا بهوسیله مناطقی از دو پروتئین از لحاظ ابعاد، میزان آمینواسید و ویژگیهای ساختاری ایجاد میشود.
• برهمکنش غیرمستقیم: زمانی که تعدادی پروتئین در یک کمپلکس پروتئینی قرار میگیرند، در واقع یک برهمکنش غیرمستقیم یا برهمکنش از طریق عضویت در یک کمپلکس وجود دارد. اگر چه در این ساختار ممکن است تعدادی از پروتئینها با یکدیگر به طور مستقیم نیز برهمکنش فیزیکی داشته باشند، اما برهمکنش دیگر پروتئینها که از طریق این دسته از پروتئینها صورت میگیرد، غیرمستقیم خواهد بود.
• برهمکنش عملکردی: برهمکنش عملکردی یا برهمکنش ژنتیکی زمانی اتفاق میافتد که پروتئینها به یک مسیر عملکردی یا متابولیکی2 متعلق باشند. روشهایی که این دسته برهمکنشها را کشف میکنند با روشهای مربوط به ردیابی دو دسته برهمکنش قبل، به کلی متفاوت هستند.
برهمکنش میان پروتئینها را میتوان به صورت شبکه یا گراف مدل کرد که در آن پروتئینها رئوس گراف و برهمکنش بین پروتئینها به عنوان یالها در نظر گرفته میشوند. روشهای مختلفی در تشخیص برهمکنش میان پروتئینها وجود دارند که به دو دسته روشهای آزمایشگاهی و روشهای محاسباتی تقسیم میشوند. از جمله روشهای آزمایشگاهی میتوان به روشهای مخمر دو رگه[4] - Y2H - 3، استفاده از طیفسنج جرمی4 و ریزآرایهی پروتئینی[5] 5 اشاره کرد که روشهای پربازده6 یا روشهای با مقیاس بالا7 به حساب میآیند.
دادههایی که از طریق این روشهای آزمایشگاهی تولید میشوند، قابل اطمینان نیستند و همچنین ممکن است تمام برهمکنشهای موجود را تولید نکنند. بنابراین روشهای محاسباتی برای پیشبینی برهمکنشهای پروتئینی توسعه پیدا کردند.
از جمله روشهای محاسباتی میتوان روشهای مقیاس ژنی8، روشهای مبتنی بر توالی9، روشهای مبتنی بر ساختار 10، روشهای مبتنی بر یادگیری11 و روشهای مبتنی بر توپولوژی شبکه12 را نام برد. اما به طور کلی هیچ روش کاملی که بتواند بدون خطا برهمکنشها را در مقیاس وسیع بیابد وجود ندارد. علاوه براین، یافتن شبکه برهمکنش پروتئین-پروتئین مناسب برای پیشبینی کمپلکسهای پروتئینی بسیار موثر خواهد بود. کمپلکسهای پروتئینی اجتماعی از پروتئینها هستند که در یک زمان و مکان خاص باهم برهمکنش دارند تا یک فرآیند زیستی خاصی را انجام دهند.
کمپلکسهای پروتئینی از بنیادیترین واحدهای عملیاتی هستند که بسیاری از عملکردهای اساسی زیستی مانند رونویسی DNA، ترجمهی mRNA، انتقال پیام، کنترل چرخه سلولی و ... را اجرا میکنند. خوشهبندی شبکههای برهمکنش پروتئین-پروتئین یکی از روشهای متداول به منظور تشخیص کمپلکسهای پروتئینی است . در این زمینه الگوریتمهای خوشهبندی مختلفی همچون MCL[9]، [10] MCODE، [11] CFinder، [12] RNSC، [13] COACH و
... با هدف تشخیص کمپلکسهای پروتئینی در سالهای مختلف ارائه شدند.
در نتیجه عملکرد الگوریتم خوشهبندی و داشتن شبکه برهمکن پروتئین- پروتئین مناسب میتواند در پیشبینی کمپلکسهای پروتئینی با دقت بالا موثر باشد. در این پژوهش، ابتدا با استفاده از اطلاعات پروتئینهای همولوگ، شبکه برهمکنش پروتئین-پروتئین جدیدی ایجاد شده و سپس با استفاده از الگوریتم خوشهبندی COACH، کمپلکسهای پروتئینی از این شبکه برهمکنشی جدید استخراج شدند. معیارهای ارزیابی نشان میدهند که با استفاده از شبکهی برهمکنش بدست آمده از اطلاعات پروتئینهای همولوگ، به عنوان ورودی به الگوریتمهای خوشهبندی، میتوان کمپلکسهای پروتئینی با دقت مناسبتری را پیشبینی کرد.
-2 کارهای مرتبط
تاکنون الگوریتمهای محاسباتی مختلفی با دیدگاههای متفاوت برای عمل خوشهبندی روی شبکههای برهمکنش پروتئین-پروتئین مطرح شدهاند. این الگوریتمها از اطلاعات و مجموعه دادههای آزمایشگاهی برای ت شخیص کمپلکسهای پروتئینی ا ستفاده میکنند. معمولا در این روشها، شبکههای برهمکنش پروتئین-پروتئین با استفاده از گراف مدل شده و زیرگراف چگال بهعنوان کمپلکس پروتئینی در نظر گرفته میشوند. برهمین اساس تقریبا تمامی این روشها مبتنی بر مفاهیم نظریه گراف میباشند. اما روشهایی که تنها با استفاده از مفاهیم نظریه گراف سعی در حا مسئله دارند، بهدلیل نادیده گرفتن جنبههای زیستی کمپلکسهای پروتئینی، معمولا دقت بالایی ندارند .[14] بههمین دلیل در سالهای اخیر محققان تلاش گردهاند تا با دخالت دادن برخی اطلاعات زیستی الگوریتمهای بهتری ارائه دهند.
در یک دید کلی روشهای تشخیص کمپلکس را میتوان به دو دسته زیر تقسیم کرد:
- روشهای مبتنی بر نظریهی گراف
- روشهای مبتنی بر نظریه گراف در ترکیب با دیدگاههای زیستی
روشهای مطرح شده در این دو دسته، از نظر رویکرد محاسباتی الگوریتم و نوع د ید گاه های زیستی ب کارگرف ته شده در تشخیص کمپلکسهای پروتئینی، با یکدیگر متفاوت ه ستند. رویکردهای محا سباتی بکار رفته در الگوریتمها میتوانند به شکلهای مختلفی باشند. از یک دید سطح بالا میتوان رویکردهای محا سباتی را به د ستههای زیر تق سیمبندی کرد:
• ادغام و رشد خوشهها متفاوت هستند. ساختار پروتئینها در سطوح مختلفی تعریف میشود.
• بخشبندی شبکه ساختار اول پروتئینها9، توالی 20 آمینواسید مختلف است که در یک زنجیره
• همترازی شبکه خطی به یکدیگر پیوستهاند. دو پروتئین مختلفی که در ساختار اول خود
شکل .1 دستهبندی کلی روشهای تشخیص کمپلکسهای پروتئینی
از طرف دیگر دیدگاههای زی ستی نیز انواع مختلفی دارند. ب سته به نوع مفاهیم زیستی بهکار رفته، میتوان روشهای مبتنی بر نظریه گراف در ترکیب با دیدگاههای زیستی را به چهار گروه زیر دستهبندی کرد:
• روشهای مبتنی بر ساختار هسته و پروتئینهای الحاقی
• روشهای مبتنی بر اطلاعات عملکردی پروتئینها
• روشهای مبتنی بر اطلاعات تکاملی پروتئینها
• روشهای مبتنی بر اطلاعات برهمکنشی
دستهبندی کلی روشهای تشخیص کمپلکسهای پروتئینی مطرح شده در این بخش را میتوان در شکل 1 مشاهده کرد. همچنین تعدادی از الگوریتمهای ت شخیص کمپلکس در جای منا سب خود در این دستهبندی قرار گرفته اند.
-3 روش پیشنهادی
در این بخش رویکرد پیشنهادی برای حل مسئله تشخیص کمپلکسهای پروتئینی از شبکه برهمکنش پروتئین-پروتئین ایجاد شده با استفاده از اطلاعات پروتئینهای همولوگ ارائه میشود. برای آشنایی با پروتئینهای همولوگ، ابتدا مفهومی از ساختار پروتئین معرفی میشود. الفبای تشکیلدهنده پروتئینها، 20 نوع آمینواسید مختلف بوده که هر یک از نظر اندازه، شکل، خاصیت آبگریزی8 و فعل و انفعالات شیمیایی با یکدیگر تشابه معنیداری داشته باشند، همولوگ یکدیگر در نظر گرفته میشوند و بنابراین توالی DNA آنها نیز مشابه به هم میباشد. همچنین دو پروتئین همولوگ از نظر تکاملی بهم مرتبط هستند و از یک ژن اجدادی مشترک تکامل یافتهاند
در واقع همولوگها، پروتئینهایی هستند که ذاتا مشابه یکدیگر باشند. به طور کلی دو نوع پروتئین همولوگ وجود دارد:
• پروتئینهای ارتولوگ: پروتئینهای مشابه یکدیگر در گونههای متفاوت را پروتئینهای ارتولوگ میگویند.
• پروتئینهای پارالوگ: پروتئینهای مشابه یکدیگر در یک گونهی یکسان را پروتئینهای پارالوگ میگویند.
1-3 نحوه محاسبه پروتئینهای همولوگ
از آنجایی که هدف یافتن کمپلکسهای یک گونه، از طریق اطلاعات پروتئینهای همولوگ در گونههای دیگر است، در اینجا منظور از پروتئینهای همولوگ، نوع ارتولوگ آن میباشد. برای یافتن پروتئینهای همولوگ یک گونه، میتوان از الگوریتمی به نام Blast12 استفاده کرد. این الگوریتم برای مقایسه اطلاعات توالی بیولوژیکی مانند مقایسه بین توالی آمینواسید پروتئینهای مختلف بکار میرود. برای محاسبه پروتئینهای همولوگ، ابتدا برای هر پروتئین، دنبالهای از الفبای آمینواسید تشکیل دهنده ی آن پروتئین استخراج شد.