بخشی از مقاله

چکیده

امروزه کمتر سیستمی وجود دارد که در معرض حمله ویروسهای کامپیوتری که با گذشت زمان نسلهای زیادی را طی کرده ، نباشد. همانطور که طراحان ویروس ها، موتورهای چند شکلی زیادی را ایجاد کردند اسکنر های ویروس هم در دفاع در مقابل ویروسها قویتر میشوند. اسکنرهای تجاری ضد ویروس معمولاً بر اساس امضا هستند یعنی الگوهای ناشناخته را اسکن میکنند تا مشخص کنند که یک فایل ویروسی است یا نه . برای رهایی از شناسایی با امضا ، طراحان ویروس روشهای مبهم کد گذاری را برای تولید ویروسهای کامپیوتری دگرگون شده، به کار گرفتهاند.

چون ظاهر ویروسها از نسلی به نسلی دیگر تغییر میکند اسکنرهای با امضا نمیتوانند همه نمونههای ویروسها را شناسایی کنند. در این مقاله با استفاده از مدل مخفی پروفایل مارکوف ، سیستمی برای تشخیص و شناسایی ویروس-های دگرگون شده پیشنهاد میگردد. همچنین در این مقاله بررسی میشود، که آیا از این مدل میتوان برای شناسایی انواع خانواده ویروسهای دگرگون شده استفاده کرد. آزمایشهای سیستم بر روی بدافزارهای تولید شده توسط مولد ویروس PS-MPC صورت گرفته است و برای مقایسه از فایلهای منبع Cygwin به عنوان فایلهای سالم استفاده شده است. نتایج بدست آمده نشان میدهد استفاده از مدل مخفی پروفایل مارکوف کارایی مناسبی دارد.

.1 مقدمه

نرم افزار مخرب یا تروجان هر نوع نرم افزاری است که عمدا برای اهداف تخریب بدون آگاهی کاربر طراحی شده است. محبوب ترین روش شناسایی نرم افزارهای مخرب که امروزه استفاده میشود تشخیص امضاء است. هنگامیکه یک ویروس شناسایی میشود اگر امضاء آن بر روی سیستم بروز نگهداری شود دیگر تهدید به شمار نمیآید، بنابراین نیاز به پایگاه داده ای از علائم مشخصه است که باید بطور مداوم بروز گردد. [1] برای دور زدن شناسایی، نویسندگان ویروس آغاز به تغییر ویروس بجای ساخت ویروس جدید کردند.

این تکامل در ویروسهای رمز نگاری شده است که هر بار که انتشار می-یابند از کلید مختلفی استفاده میکنند ولی اغلب از یک امضاء استفاده مینمایند. از طرف دیگر، ویروسهای چند شکلی آغاز به استفاده از طرحهای رمزنگاری تصادفی کردند و به رمزنگاری چند شکلی توسعه یافتند. اغلب این ویروسها زمانی که رمزگشایی شوند با استفاده از تشخیص امضا شناسایی می گردند. نوع دیگری از ویروسها، ویروسهای دگرگون شده هستند که تمام بدنه کد ویروس را بدون از دست رفتن تاثیر آن تغییر میدهند.[2] به طور کلی شناسایی ویروسهای دگرگون شده فوقالعاده مشکل است. اما با استفاده از تکنیکهایی که شباهت زیادی به روشهای یادگیری انسان دارد این ویروسها قابل کشفند.

.2 ادبیات موضوع و مروری بر کارهای گذشته

همانطور که ویروسهای کامپیوتری تکامل پیدا میکنند و پیچیده تر میگردند، نرم افزار آنتی ویروس باید برای دفاع در برابر حملات ویروسی پیچیدهتر گردد. در این بخش به بحث درمورد روشهای تشخیص ویروس پرداخته میشود که در طول سالها استفاده شدهاند.

-1اسکنر مبتنی بر الگو در اسکنرهای نسل اول  اسکنر نسل اول به دنبال امضاء ویروس است که دنبالهای از بایتهای استخراج شده از ویروسها در فایلها و یا در حافظه است.

-2شناسایی تقریبا دقیق در اسکنرهای نسل دوم اسکنرهای نسل دوم برای شناسایی ویروسهای تکامل یافته، فرآیند تشخیص خود را اصلاح میکنند. اسکنر هوشمند دستورالعملهای ناخواسته مانند nop را نادیده میگیرد و آن را در امضاء ویروس دخیل نمی کند.

-3شبیه سازی کد در این روش، اسکنر کد ویروس را بر روی ماشین مجازی اجرا مینماید. شبیه سازی کد یک تکنیک بسیار قوی بخصوص در برخورد با ویروسهای رمزنگاری شده و چندشکلی است.

-4 تجزیه و تحلیل اکتشافی تجزیه و تحلیل اکتشافی برای تشخیص ویروسهای جدید یا ناشناخته استفاده میشود. اغلب اوقات، از آن برای شناسایی انواع خانوادههای ویروسی موجود استفاده میشود. محققان سعی میکنند از تکنیکهای یادگیری ماشین برای تجزیه و تحلیل اکتشافی در ویروسهای دگرگون شده، استفاده کنند.

در سال 1999 برگرن چندین روش مبتنی بر تجزیه فایلها به دنبال بیتهای تشکیل دهنده آنها معرفی کرد. کپهارت در سال 1995 از الگوریتم جداساز ANN بر روی دنباله بایتهای به دست آمده از تجزیه بدافزارهای دسته بوت سکتور، برای تشخیص بدافزارها از فایلهای سالم استفاده کرد. فریدون رضایی و مسعود خلیلی روشی به نام دایره تشخیص را پیشنهاد دادند که براساس تئوری مدل مخفی مارکوف است. آنها برای متمایز کردن خانواده ویروسها از سه عنصر استفاده کرده اند: احتمال وقوع رشتهای، احتمال وقوع کاراکتر قرار گرفته ویژه و میزان شباهتهای ویروس. مجتبی اسکندری و ستار هاشمی در سال 2012 روش" استخراج گراف برای تشخیص نرم افزارهای مخرب ناشناخته" را معرفی کردند که تلاش میکند هدف فایل PE یا همان فایل اجرایی قابل حمل در یک ویندوز ایستا را درک کند.

[3] Tony Abou-Assaleh و همکاران نیز در [4] روشی براساس n-gram به نام CNG یا آنالیز معمولی - Common  n-gram N-gram analysis - برای تشخیص کد مخرب پیشنهاد دادند. وینگ ونگ1 در سال 2006 روشی براساس مدل مخفی مارکوف برای تشخیص ویروسهای دگرگون شده پیشنهاد داد. Da Lin در سال 2009 بررسی میکند که آیا ضعفی در روش شناسایی براساس مدل مخفی مارکوف وجود دارد یا نه و ابزار تولید ویروسهای تغییر یافته را برای رهایی از شناسایی براساس این مدل تولید مینماید. Da Lin با تولید ویروسهای شبیه به فایل نرمال، شناسایی با ویروس یاب مدل مخفی مارکوف را غیر ممکن ساخت.[5]

.3 روش پیشنهادی

روش کلی به دو قسمت تقسیم میگردد : قسمت اول شامل تولید دنباله چندگانه مرتب شده - - MSA مجموعهای از ویروسهای دگرگون شده از یک خانواده است و در قسمت دوم از MSA تولید شده در قسمت اول برای آموزش مدل مخفی پروفایل مارکوف استفاده میکنیم و در فاز تست به دنبالههای ویروسی و غیر ویروسی رتبهای تخصیص داده می-شود.

.1-3 تولید دنباله چندگانه مرتب شده

بطور خلاصه، گامهای زیر برای ساختن MSA انجام خواهد شد:

-1تعریف الفبای ویروس

-2 ایجاد همترازی دوتایی

-3 استفاده از همترازیهای دوتایی برای ساختن 3 MSA

.1-1- 3 تعریف الفبای ویروس اساسا یک ویروس از دنبالهای از آپکدها یا دستورالعملهای

پردازشی تشکیل شده است که از کد اسمبلی ویروس بدست میآید. بجای درنظر گرفتن کل دستورالعمل - که میتواند شامل یک دستورالعمل، آفست، دادهها، و ثبات پردازنده باشد - تنها دستورالعملهای سطح بالا درنظر گرفته میشوند و بقیه نادیده گرفته میشوند. برای سادگی نمایش یک آپکد مانند یک کاراکتر مجزا، تنها 36 تا از معروفترین آپکدها درنظر گرفته میشوند. این آپکدها میتوانند با حروف الفبا انگلیسی [A-Z] یا اعداد تک رقمی [9-0] درنظر گرفته شوند. سایر آپکدها با کاراکتر * نمایش داده میشوند. سمبل ʽ$ʼ محتمل ترین کاراکتر است. سمبل ʽ9ʼ برای آپکدی که کمتر از همه مورد استفاده است در نظر گرفته شده است. * نیز برای آپکدهایی است که به ندرت در مجموعه داده دیده میشوند.[6]

.2-1-3 ایجاد همترازی دوتایی در روش ارائه شده برای تشخیص ویروسهای دگرگون شده4،

ابتدا باید همترازی دوتایی بین توالی آپکد ها5 را بدست آورد. دنبالههایی که کاملا مشابه هستند نیازی به همترازی ندارند زیرا از قبل همتراز هستند. برای نمایش همترازی، توالیها را میتوان بصورت سطرهایی در ماتریس درنظر گرفت که سمبلها ستونهای منحصر بفرد هستند. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید