بخشی از مقاله

چکیده

ردهبندی ترافیک با اهدافی مانند جلوگیری از استفاده از انواع خاصی از برنامهها یا شناسایی پایگاههای اینترنتی مورد بازدید کاربران، کاربردهای عملی زیادی داشته و الگوریتمهای متنوعی برای آن پیشنهاد شده است. تمرکز اصلی الگوریتمهای ردهبندی ترافیک موجود، بررسی و تشخیص لحظهای ترافیک بوده و بیشتر توجه به جریان عبوری و مقصد ترافیک دارند. در این مقاله، با اولویتدهی به کاربر مبدأ ترافیک و سابقهی استفادهی هر کاربر از شبکه و ذخیرهی این اطلاعات در نمایهی کاربری؛ روشی نمایهرانه برای ردهبندی ترافیک مطرح میکنیم. روش پیشنهادی، امکان اعمال خط مشیها در سطح کاربران شبکه، مانند »پایین آوردن پهنای باند و تحلیل دقیقتر ترافیک کاربرانی که غالباً در زمان اداری به امور غیرکاری میپردازند«، را فراهم میآورد.

به علاوه، از نمایهها به عنوان دادهای جدید و ارزشمند برای بهبود نتایج ردهبندی ترافیک استفاده می شود. همچنین در صورت نگهداری اطلاعات در نمایهها به صورت تجمیعی، سطح قابل قبولی از حریم خصوصی برای کاربران تضمین میشود. یکی دیگر از مزایای روش نمایهرانه، امکان ادغام نتایج چندین الگوریتم مختلف ردهبندی ترافیک در نمایهی کاربر، و نتیجهگیری و اقدام بر اساس حاصل تمام نتایج است.

-1 مقدمه

ردهبندی ترافیک را میتوان شناسایی ویژگیهای غیرآشکار جریان ترافیک عبوری شبکه، توسط ناظری غیر از مبدا و مقصد ترافیک دانست. شناسایی ویژگیهای ترافیک در سطوح مختلفی میتواند انجام پذیرد. برای مثال در بالاترین سطح میتوان ترافیک را از منظرهایی مانند کشف یا رمز بودن شناسایی کرد، یا در سطوح ریزدانهتری مانند نوع پروتکل ارتباطی مورد استفاده بررسی کرد. همچنین میتوان شناسایی سایت مقصد ترافیک وب را به عنوان هدف ردهبندی در نظر گرفت. در صورتی که ردهبندی در هیچ یک از این سطوح ممکن نباشد، هدف دستکم ایجاد دیدی کلی نسبت به ویژگیهای ترافیک خواهد بود .[1]

روشهای با تمرکز روی کاربر، روشهایی هستند که به شناسایی کاربر مبدأ تعامل اهمیت داده و سعی در شناسایی کامل یا حدس مدل رفتاری وی دارند. در حوزهی تحلیل ترافیک، معمولا فرض میشود که امکان شناسایی کاربر وجود ندارد، و تنها در برخی روشها مانند بلینک اقدام به شناسایی و ایجاد نمایه برای گرههای مهم شبکه - که معمولا ارائه دهندگان سرویس هستند نه کاربر نهایی - شده و با کمک آن ردهبندی ترافیک انجام میپذیرد. همین میزان از توجه به ماهیت اجزای شبکه نیز نتایج قابل قبولی را در پی داشته و باعث افزایش دقت تشخیص و ردهبندی شده است .[1] علت این عدم توجه به  کاربر، تجمیع شده بودن ترافیک و نامعین بودن مبدأ تبادلات در اکثر کاربردهای ردهبندی ترافیک است.

ولی برای نمونه در حوزهی سامانههای تشخیص نفوذ، به خاطر اهمیت شناسایی مبدأ خطرات و نیاز به انجام اقدامهای بازدارنده، شناسایی کاربران کاملا مورد توجه و اهمیت است. البته در این حوزه، شرایط مسأله تقریباً وارون ردهبندی ترافیک است، چرا که مبدأ ترافیک کاملا مشخص و ثابت بوده، و هدف شناسایی رفتار بدخواهانه یا رفتار متفاوت از حالت طبیعی شناخته شده برای کاربر است. در حالی که در ردهبندی ترافیک، علاوه بر مشخص نبودن مبدأ، هدف شناسایی نوع ترافیک است، بدون این که اطلاعاتی در مورد رفتار حالت طبیعی یک کاربر داشته باشیم.

روش پیشنهادی در این پروژه، رویکردی میانی بین دو حالت سامانههای تشخیص نفوذ و روشهای تحلیل ترافیک مستقل از کاربر است. در این روش، نه کاملا فرض میکنیم که هیچ اطلاعاتی از کاربران وجود ندارد، و نه فرض میکنیم که دیقاً تکتک کاربران با جزییات شناخته شده هستند. چنین فرضیاتی برای شبکههای متوسط تا بزرگ با کاربران متغیر و احیاناً ناشناس، فرضیات واقعگرایانه و مفیدی است. اینترنت ارائه شده در مکانهای عمومی، ارائه دهندگان سرویس VPN، و شبکه میان کاربران و یک ISP نمونههایی از چنین محیطهایی هستند. نمای کلی رویکرد روش این پروژه، ایجاد نمایه برای کاربران از روی ردهبندی ترافیک، و به تدریج با تکمیل شدن نمایهی کاربری، استفاده از نمایهی ایجاد شده در جهت بهبود دقت ردهبندی ترافیک هر کاربر است.

چنین رویکردی میتواند منبع دادهی ارزشمندی را برای انجام ردهبندی ترافیک به سایر دادههای موجود از ترافیک بیفزاید. برای نمونه، در صورتی که بدانیم یک جریان داده از سمت فرد الف است، بنا به سابقهی این فرد، که مثلا فردی دوستدار فیلمهای اینترنتی است، میتوان با احتمال بیشتری قضاوت کرد که جریان داده از یک نوع خاص، مثلا ویدئو است. در نتیجه، یک جریان ترافیکی اولا تابع مشخصات رفتاری و سوابق کاربر منشا آن است، و ثانیا خود نمونهای از رفتار کاربر محسوب میشود. در نتیجه، میتوان از سوابق موجود کاربر به عنوان اطلاعات افزودهای برای تشخیص احتمال تعلق جریان ترافیکی به یک ردهی خاص بهره برد، و ضمنا از آن برای بالا بردن شناخت خود از کاربر مبدا ترافیک نیز استفاده کرد.

لازم به ذکر است که به خاطر گستردگی فناوریهای مورد استفاده در بستر اینترنت، ترافیک اینترنتی حالات بسیار متفاوتی را از نظر بستر سخت افزاری انتقال، پروتکل مورد استفاده در لایههای مختلف شبکه، نوع رمزنگاری دادهها، قالب انتقال دادهها، و جزئیات مربوط به برنامههای نرمافزاری ارسال و دریافت کننده اطلاعات داراست. به همین دلیل الگوریتمهای ردهبندی ترافیک دارای تنوع زیادی از نظر خروجی، اطلاعات جمعآوری شده، و روش مورد استفاده هستند و هر یک ممکن است در شرایط خاصی بهتر عمل کرده و در شرایط بسیاری کارایی نامناسبی داشته باشند .[2] این موضوع نمایانگر ضرورت داشتن چارچوبی برای ادغام و استفاده از الگوریتمهای متفاوت است تا بتوان بسته به نوع ترافیک عبوری، از مناسبترین الگوریتم برای شناسایی و ردهبندی آن بهره برد.

در این پژوهش، برای رده بندی ترافیک، اقدام به نگهداری نمایه برای هر یک از کاربران شبکه و استفاده از آن برای اعمال خط مشیهای امنیتی بر روی نوع استفاده ی کاربران از شبکه می نماییم. این رویکرد ابداعی که آن را ردهبندی نمایه رانهی ترافیک می نامیم، هم امکان اعمال خط مشیهای پیچیدهتری مانند »سرعت دریافت اطلاعات برای کاربرانی که بالای نیمی از وقت خود را به تماشای فیلم میپردازند، نصف سایر کاربران باشد« را فراهم میسازد، هم به بالا بردن دقت ردهبندی لحظهای ترافیک کمک میکند، و نیز با لحاظ ملاحظاتی، حریم خصوصی کاربران را مورد احترام قرار میدهد. در ادامه ابتدا در بخش 2 به بررسی موضوع مهم حریم خصوصی کاربران و روش رعایت آن در ردهبندی ترافیک میپردازیم، سپس در بخش 3 روش نمایهرانهی پیشنهادی خود را شرح داده، و در بخش 4 نیز جزییات نمایهی طراحی شده برای استفاده در این روش را مطرح مینماییم.

-2 ملاحظات حریم خصوصی کاربران

ردهبندی ترافیک، در صورت پیادهسازی مناسب و به کار گیری به جا، میتواند کاربردهای بسیاری داشته باشد. از نظر مدیریت شبکه، ردهبندی ترافیک روشی مناسب برای فراهم آوری کیفیت متمایز سرویس1 برای بستههای متعلق به کاربردهای خاص مانند بستههای کنترلی یا ترافیک تعاملی است. از نظر شناسایی نیازها، ردهبندی ترافیک با نمایش دقیق نوع استفاده از شبکه، برای برنامهریزی برای طراحی بهتر و توسعهی هدفمند بسترهای شبکه، منبع اطلاعاتی ارزشمندی خواهد بود. همچنین با رصد روند تغییرات گرایش کاربران به گونههای مختلف ترافیک، میتوان اطلاعات تجاری مفیدی در مورد بازارهای در حال گسترش به دست آورد.

از منظر دیگر، داشتن دید لحظهای نسبت به شبکههای کوچکتر و تشخیص نوع ترافیک عبوری و به ویژه تغییرات غیرمنتظره در ترافیک، از ملزومات اطلاعاتی سامانههای تشخیص نفوذ2 بوده و در تامین امنیت شبکههای خصوصی نقش مهمی دارد. علاوه بر این، در بسیاری از محیطهای خاص مانند سازمانها، خط مشیهای مشخصی از نظر نوع مجاز استفاده از شبکه وجود دارد که به دلایل امنیتی، مالی، کاری، اخلاقی یا غیره وضع شدهاند و اعمال این خط مشیها نیازمند ردهبندی هدفمند ترافیک است.

در حوزههای مشابهی مانند کنترل دسترسی کودکان یا فراهم آوری بسترهای پاک اینترنتی برای کاربران علاقهمند، همین کاربردها متصور میباشد. در اینجا لازم به توضیح است که با این وجود که کاربردهای اشاره شده ممکن است به صورت ساده و مبتنی بر ویژگیهای آشکار جریان ترافیک مانند درگاه مورد استفاده، قابل حصول باشند، لیکن استقرار راهکار منطبق با مقتضیات ارتباطات کنونی اینترنت، مانند رمز شده بودن دادهها و وجود خدمات متعدد برای تغییر خصوصیات ظاهری ترافیک و دور زدن خط مشیها، مستلزم بهکارگیری الگوریتمهای پیشرفتهی ردهبندی ترافیک خواهد بود.

با این حال، ردهبندی ترافیک به دلیل آشکار کردن اطلاعاتی از ترافیک کاربران این احتمال را دارد که به افشای اطلاعات خصوصی کاربران و نقض حریم شخصی ایشان منجر شود. به همین خاطر توجه به حریم شخصی و دقت در نوع اطلاعات جمعآوری شده و روش استفاده از آن باید در طراحی الگوریتمهای ردهبندی ترافیک از ابتدا مورد توجه قرار گیرد. برای مثال، یک الگوریتم ردهبندی را در نظر میگیریم که با تحلیل ترافیک، بخش عمدهای از ترافیک هر کاربر را مشاهده میکند و مقاصد بستههای ارسالی کاربر را میداند. حال دو رویکرد برای این الگوریتم متصور است: اول این که به صورت کامل تمامی سایتها و صفحاتی که کاربر از آنها بازدید کرده است را در نمایهی کاربر نگهداری کند، و دوم این که این اطلاعات را از همان ابتدا بر حسب موضوع سایت تجمیع کرده و تنها تعداد بازدید کاربر از هر دستهی موضوعی سایتها را نگهداری کند.

با این که روش اول ممکن است در ابتدا به خاطر نگهداری حجم بیشتری از اطلاعات بهتر به نظر برسد، ولی حالات زیادی وجود دارد که روش دوم کارایی و دقت بهتری داشته باشد، مثلا به این دلیل که به این صورت حجم دادهی لازم برای پردازش کمتر میشود و ضمنا تاثیر دادههای پرت3 در تجمیع صورت گرفته شده تقلیل مییابد. از این مثال میتوان نتیجه گرفت که با در نظر گرفتن گزینههای مختلف در مراحل طراحی یک الگوریتم ردهبندی ترافیک، میتوان بدون لطمه زدن به کارایی و دقت نهایی، ملاحظات حریم خصوصی کاربران را هم در نظر گرفت.

ردهبندی ترافیک با وجود این که میتواند در مدیریت شبکهها و برنامهریزی توسعه شبکههای رایانهای نقش بسیار مفیدی داشته باشد، ولی به دلیل رواج استفادهی غیرمسئولانه و نامناسب از آن که در موارد بسیاری باعث نقض حریم خصوصی کاربران شده است، دیدی منفی نسبت به آن وجود دارد و در حوزههایی مانند شبکههای گمنامی، از ردهبندی ترافیک به عنوان حمله و از انجام دهندهی آن به عنوان بدخواه4 یاد میشود .[3] در عین حال، صورت تبیین دقیق اهداف ردهبندی ترافیک برای کاربران، و لحاظ ملزومات رعایت حریم خصوصی در طراحی الگوریتمهای آن، در موارد زیادی میتوان ردهبندی ترافیک را با رضایت کامل کاربران در شبکه مستقر کرد.

مثلا در شبکههای سازمانی، این خط مشی که فعالیتهای کاملا مرتبط با امور سازمان از نظر پهنای باند شبکه دارای محدودیت نباشند، از نظر مدیریت سازمان و کاربران مطلوب است. با این حال، پیادهسازی این خط مشی نباید مستلزم اجبار کاربران به استفاده نکردن از پروتکلهای امن اینترنتی مانند https بشود که امنیت دادههای ایشان را به خطر میاندازد. در اینجا استفادهی مسئولانه از روشهای ردهبندی ترافیک بدون نقض حریم شخصی کاربران، بهترین راه حل برای پیادهسازی خط مشی مذکور بوده و باعث جلب رضایت طرفین خواهد شد.

برای تکمیل بحث، لازم به ذکر است که دغدغههای موجود در میان کاربران در خصوص حریم شخصی خود، صرفا یک تصور اثبات نشده نبوده و در موارد بسیاری نشان داده شده است که از روی اطلاعات موجود در بستر شبکه و سرویس های اینترنتی، می توان به اطلاعات زیادی از کاربران دست یافت و از آن استفادهی نامناسب نمود. به عنوان یک نمونه، بررسیهای انجام شده روی دادههای جمعآوری شده از سرویس جستجو و ایمیل مایکروسافت نشان داده است که هویت اصلی کاربران را میتوان با دقت حدود 80٪ توسط محدودهی IP به علاوهی شناسهی مرورگر کاربران تشخیص داد .[4] اهمیت این نتیجه در این موضوع است که چنین داده هایی معمولا در فایلهای لاگ ذخیره میشود و فرض میشود که از روی آن شناسایی هویت اصلی فرد دقت پایینی دارد، ولی این پژوهش امکانپذیری شناسایی دقیق مبدا درخواستها را با اطلاعاتی ساده نشان میدهد.

همچنین با انجام تحلیلهای دقیقتر روی همین دادهها، امکان شناسایی برخی رفتارهای خاص کاربران مانند استفاده از VPN یا ویژگیهای اتصال مانند وجود NAT در میان راه وجود دارد. امکانپذیری دسترسی به این مقدار اطلاعات از روی لاگهای معمول کارگزارها هر چند از یک سو هشداری برای دقت بیشتر در دادههای جمعآوری شده از کاربران است، ولی از سوی دیگر، میتواند کاربردهای نظارتی و امنیتی مفیدی داشته باشد. مثلا در همین پژوهش، از دادههای جمعآوری شده، برای شناسایی 75000 حساب غیرواقعی ایمیل و جلوگیری از سوء استفاده از آنها استفاده شده است .[4]
 
علاوه بر دغدغه های کاربران، ملاحظات حریم خصوصی از دو حیث استانداردها و ملاحظات قانونی نیز قابل بررسی است. ملاحظات قانونی وابسته به ملیت کاربر، حوزهی شغلی فعالیت وی، و نوع اطلاعات حالتهای مختلفی را داراست. استانداردهای مختلفی نیز برای روش نگهداری و حفاظت از اطلاعات شخصی کاربران توسط موسسههایی مانند ISO و اتحادیه اروپا وضع شدهاند که تدابیر خاصی را برای ارائهدهندگان سرویس و صاحبان بسترهای شبکه لازم الاجرا میدانند .[5]

این گسترهی از قوانین و استانداردهای امنیتی نشان از گسترده بودن ملاحظات مورد نیاز برای دستیابی به حدی قابل قبول از محرمانگی اطلاعات کاربران دارد، که بر اساس نظرسنجیهای انجام شده، حدود 70٪ از کاربران در مورد رعایت این موارد در خصوص دادههای خود دغدغهمند هستند .[5] در ادامه ی این مقاله، سعی خواهیم داشت که اصول مهم رعایت حریم خصوصی را که در این بخش پیرامون آن بحث شد، در طراحی و پیادهسازی الگوریتم ردهبندی ترافیک خود مد نظر داشته باشیم تا در نهایت روش حاصل، در عین داشتن کارایی برای اعمال خط مشیها، دغدغههای حریم خصوصی را از منظر کاربران و از منظر استانداردها و قوانین مرتبط، پوشش دهد.

-3 ردهبندی نمایهرانه ترافیک

-1-3 تعاریف پایه

شناسایی ترافیک به دلیل حالات گوناگون ممکن برای ترافیک، معمولا به صورت دستهبندی جریان در تعدادی ردهی از پیش تعیین شده صورت میگیرد، که نام ردهبندی ترافیک از همین رو برای این حوزه انتخاب شده است. ردههای مذکور میتوانند در سطوح ریزدانگی مختلفی انتخاب شوند. برای مثال، در سطح پروتکل ارتباطی، ردهها مواردی مانند »وب«، »صوت«، »تصویر«، »اشتراک فایل« یا به صورت خاصتر مواردی مانند درگاه و برنامهای که مورد استفاده است، خواهند بود. مشابها در سطح شناسایی سایت مقصد نیز ردهها میتوانند سایتهای خاص به صورت موردی، یا دستهبندیهایی کلی از انواع سایتها مانند سایتهای خبری و شبکههای اجتماعی باشند .[6]

ردهها میتوانند به صورت از پیش تعیین شده باشند - مثلا وب و ویدئو - یا به صورت غیرراهنمایی شده، توسط خود الگوریتم بازشناسی شوند. یا جریان دادهای ، مشخصات مشاهده شده از یک بخش متوالی و همبسته از نظر معنایی از ترافیک عبوری را مدل میکند و کوچکترین واحدی است که نتیجهی ردهبندی روی آن اعلام میشود. با توجه به این که ترافیک عبوری حالتی جویباری و یکپارچه دارد، الگوریتمهای ردهبندی ملاکی برای جداسازی جریانهای مختلف از یکدیگر نیاز دارند، که معمولا این ملاک بر اساس تداوم ترافیک و نوع پروتکل میباشد. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید