بخشی از مقاله
چکیده
امروزه حجم زیاد اطلاعات شخصی و محرمانه و گسترش آنها در وب به منظور فعالت های تجاری، آماری و بسیاری از کاربردهای دیگر، حفظ محرمانگی دادهها را به چالش مهمی تبدیل کرده است. در نتیجه تکنیکهای داده کاوی با معضل مهم محافظت از داده-های حساس مانند دادههای بانکی، پزشکی و سایر اطلاعات محرمانهی افراد مواجه شده است و شاخهی جدیدی از داده کاوی به نام حفظ حریم خصوصی در داده کاوی پا به عرصه نهاده است.
هدف تحقیقات در این زمینه توسعه روشی است که بتواند بدون انتشار دادههای محرمانه، داده کاوی را انجام داده و به نتایج آن خدشهای وارد نکند. در این تحقیق روشی برای حفظ حریم خصوصی در داده کاوی ارائه شده است که در آن با اعمال توابع عضویت فازی روی دادههای حساس، علاوه بر اینکه از دادههای محرمانه به خوبی محافظت میشود، نتایج معتبری از خوشه بندی با روش امید ریاضی بیشینهسازی حاصل میگردد.
-1 مقدمه
هنوز هیچ تضمینی ارائه نشده است که بتوان دادهها را بدون تجاوز به حریم خصوصی مالک آن مورد داده کاوی قرار داد. بعنوان مثال در شبکههای اجتماعی اطلاعات مختلف کاربران از جمله سن، حرفه، هویت و سایر اطلاعاتی که باعث شناسایی دقیق فرد میشود نیاز به محافظت دارند. در یک سیستم پزشکی، نحوه انجام داده کاوی در اطلاعات خصوصی بیماران بدون افشای اطلاعات محرمانه، یکی از مسائلی است که با آن روبه رو هستیم و یا سیستمهای جمعآوری داده به صورت آنلاین، نمونه ای از دهها برنامه جدیدی هستند که حریم شخصی افراد را تهدید میکنند.
مشکل اصلی از آنجا ناشی میشود که چگونه میتوان هم حریم خصوصی افراد را در نظر گرفت و هم از نتایج مفید سیستمهای داده کاوی بهره برد. برای برطرف کردن موانع موجود در این زمینه، تحقیقات زیادی در حال انجام است . [2 ] روشهایی که برای حفظ محرمانگی دادهها در داده کاوی معرفی شدهاند، هر کدام دارای ویژگیها، مزایا و معایب خاصی نظیر از دست دادن دادهها هستند که ممکن است در کیفیت دانش استخراج شده از دادهها اثر گذارد تا جایی که دادهها غیر قابل استفاده شوند. در نتیجه لازم است تا از دادههای محرمانه تا حدی که سودمندی آن ها حفظ گردد، محافظت نماییم. در این تحقیق با کمک توابع عضویت فازی روشی را ارائه میکنیم تا محرمانگی دادهها، سودمندی آن ها و همچنین صحت نتایج داده کاوی حفظ شود.
-2 مفاهیم اولیه
-1-2 خوشه بندی
خوشه بندی با یافتن یک ساختار درون یک مجموعه از داده های بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود.
-1-1-2 روش های خوشه بندی
روشهای خوشهبندی را میتوان از چندین جنبه تقسیمبندی کرد:
1. خوشهبندی انحصاری5 و خوشهبندی با هم پوشی .6
در روش خوشهبندی انحصاری پس از خوشهبندی هر داده دقیقأ به یک خوشه تعلق میگیرد. ولی در خوشهبندی با همپوشی پس از خوشهبندی به هر داده یک درجه تعلق بازاء هر خوشه نسبت داده میشود. به عبارتی یک داده میتواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونهای از آن، خوشهبندی فازی است.
2. خوشهبندی سلسله مراتبی7 و خوشهبندی مسطح.8
در روش خوشه بندی سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت آنها ساختاری سلسله مراتبی نسبت داده میشود. ولی در خوشهبندی مسطح تمامی خوشههای نهایی دارای یک میزان عمومیت هستند. با توجه با اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیقتری تولید میکنند برای تحلیل دادههای با جزئیات پیشنهاد میشوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه دادههای بزرگ روشهای خوشهبندی مسطح پیشنهاد میشوند. در بین الگوریتمهای خوشه بندی انحصاری و مسطح در این تحقیق روش پیشنهادیمان را روی الگوریتم خوشه بندی پرکاربرد امید ریاضی بیشینهسازی9 بررسی کردهایم.
-2-1-2 الگوریتم امید ریاضی بیشینهسازی
الگوریتم امید ریاضی بیشینهسازی، یک روش تکرارشونده است که به دنبال یافتن برآوردی با بیشترین درست نمایی برای پارامترهای یک توزیع پارامتری است. این الگوریتم روش متداول برای زمانهایی است که برخی از متغیرهای تصادفی پنهان هستند.
شرح الگوریتم:
فرض کنید که مشاهدات x1 ,x2 ,...,xn را با d نمایش دهیم، متغیرهای پنهان h1,h2 ,...,hn را با h و همه ی پارامترهای توزیع را نیز با . در این صورت لگاریتم درست نمایی کل دادهها - پنهان و نمایان : مشاهدات - برابر خواهد بود با: - 1 - از آنجا که لگاریتم تابع اکیداً صعودی است، میتوان لگاریتم درست نمایی کل دادهها را نسبت به بیشینه کرد. البته آرگومان لگاریتم یک مجموع است و نمیتوان به سادگی پاسخ تحلیلی برای یافت. از این رو، الگوریتم ترفندی را برای بیشینه کردن حد پایین لگاریتم درست نمایی بکار میبرد.
-2-2 منطق فازی
اولین بار در پی تنظیم نظریهی مجموعههای فازی به وسیلهی پروفسور لطفی زاده [3] در صحنه ی محاسبات نو ظاهر شد. منطق فازی از منطق ارزشهای "صفر و یک" نرمافزارهای کلاسیک فراتر رفته و درگاهی جدید برای دنیای علوم نرمافزاری میگشاید، زیرا فضای شناور و نامحدود بین اعداد صفر و یک را نیز در منطق و استدلالهای خود به کار میگیرد.
-1-2-2 تابع عضویت فازی
یک مجموعه فازی با تابع عضویت مشخص میشود. تابع عضویت، مجموعه مقادیر جهانی X را به عددی در بازه [0,1] مینگارد. در این تحقیق از سه تابع عضویت پی ، S شکل و Z شکل استفاده کرده ایم که در ادامه روابط آن ها را مشاهده میکنیم.
-3 مروری بر کارهای انجام شده
داده کاوی با حفظ حریم خصوصی، اولین بار در سال 2000 با انتشار دو مقاله با این عنوان در [4, 5 ] معرفی شد .این دو مقاله به دو مسئله اصلی زیر پرداختند:
1. حفظ محرمانگی دادههای جمع آوری شده.
2. کاوش مجموعهای از دادههایی که بین چند کاربر به اشتراک گذاشته شده است.
گروه اول یک پروتکل رمزنگاری ساخت درختهای تصمیم برای دادههایی که به اشتراک گذاشته شدهاند، ابداع کردند و گروه دوم یک الگوریتم رندم سازی ارائه دادهاند که به کاربران زیادی اجازه میدهد دادههای خود را برای داده کاوی به اشتراک گذارند درحالی که دادههای محرمانه شان محفوظ مانده و افشا نشود. از آن سال تاکنون، روش ها و فنون داده کاوی با حفظ حریم خصوصی به اهداف مختلفی همچون پنهان سازی دادهها، آشفتهسازی دادهها[6]، پنهان سازی دانش، داده کاوی با حفظ حریم خصوصی توزیع شده و اشتراک دانش آگاه از حریم خصوصی برای وظایف داده کاوی مختلف ارائه شدهاند.
دو دسته روش اصلی داده کاوی با حفظ حریم خصوصی عبارتند از پریشانی تصادفی[4,7] 10 و محاسبات چند جانبه امن.[ 5] 11 روش پریشانی تصادفی مبنی بر افزایش یا ضرب خدشه تصادفی در مقادیر دادهها است. این روش جهت پنهانسازی دادهها مفید است. اگرچه در این روشها میتوان توزیع دادههای اصلی را به خوبی از روی دادههای تغییر یافته بازسازی کرد؛ اما در طی این تبدیل فواصل بین رکوردهای دادههای اصلی به خوبی حفظ نمیشود. این مسئله منجر به کاهش صحت اجرای الگوریتمهای داده کاوی بر اساس فاصله بر روی این دادهها میشود. علاوه بر این، این روشها باعث کاهش داده نیز نمیشوند.
روش محاسبات چند جانبه امن، تاکنون برای محدوده گستردهای از الگوریتم-های داده کاوی در محیطهای توزیع شده، جایی که دادهها به صورت افقی یا عمودی بین چند طرف ارتباطی توزیع شدهاند، به کار رفته است .[8,9] اما اغلب این روشها بر روی فنونی تمرکز دارند که تنها برای الگوریتمهای داده کاوی خیلی خاص مفید بوده و روند آنها به گونهای است که استفاده از آنها نیازمند تغییر الگوریتمهای داده کاوی است و اغلب امکان تعمیم آنها برای سایر الگوریتمهای داده کاوی وجود ندارد.
به علاوه این روشها دارای هزینه محاسباتی و ارتباطاتی بالایی بوده و تنها برای محیطهای توزیع شده مناسب هستند. علاوه بر دو دسته قبلی، فنونی نیز جهت حفظ حریم خصوصی برای الگوریتم-های داده کاوی از جمله خوشه بندی و طبقه بندی ارائه شده است. یکی از روشهای اصلی ارائه شده برای حفظ حریم خصوصی الگوریتمهای داده کاوی بر اساس فاصله اقلیدسی در [14] ارائه شده است.