بخشی از مقاله
مروری بر روش های مختلف محرمانگی داده ها در داده کاوی
چکیده
دانش داده کاوی فرایند کشف دانش پنهان درون داده ها است. داده کاوی در سالهای اخیر بسیار توسعه یافته و هم اکنون در بسیاری از حوزه های مختلف مورد استفاده قرار می گیرد اما با در نظر گرفتن مزیت های بی شمار داده کاوی، جمع اوری و تحلیل داده های شخصی حساس منجر به ایجاد نگرانی هایی درباره حفظ محرمانگی اطلاعات و حریم خصوصی افراد می شود. بنابراین در داده کاوی، حفظ حریم خصوصی افراد از جمله مسائل مهم و پیچیدهای است که در انتشار داده ها به منظور تحلیل، باید بدان توجه داشت. درسالهای گذشته تکنیکهایی از جمله روش های آماری و محاسبات چند جانبه امن برای تبدیل یا تغییر داده با هدف حفظ حریم خصوصی پیشنهادگردیده اند. در مقاله حاضر به بررسی روشهای موجود جهت حفظ حریم خصوصی پرداخته شده است.
کلمات کلیدی: کلمات کلیدی: دادهکاوي، داده کاوی با حفظحریمخصوصی، امنیت اطلاعات
.1 مقدمه
داده کاوی، انجام عملیات استخراج اطلاعات از بین انبوه داده ها می باشد، طوری که اطلاعات حساس موجود در پایگاه داده افشاء نشود؟ روش ها و راه حلهای بسیاری در این زمینه بیان شده است و محققان همچنان به دنبال ارائه راه حلهای جدید و بهبود روشهای قبلی می باشند؟ درسالهای گذشته تکنیکهایی برای تبدیل یا تغییر داده با هدف حفظ حریم خصوصی پیشنهاد گردیده اند. هدف کلیدی در طراحی این تکنیک ها حفظ کارآمدی داده ها بدون به خطر انداختن حریم خصوصی می باشد؛ لذا مسئله اصلی، چگونگی محافظت از مقادیر داده ای ضمن حفظ الگوهای داده ای موجود در مجموعه های داده می باشد. یعنی صاحبان داده علاوه بر حفظ حریم خصوصی باید قادر باشند صحت نتایج حاصل از داده کاوی را نیز تضمین نمایند. روشهای پیشنهادی مرتبطعمدتاً در دو گروه کلی قرار می گیرند که عبارتند از: روشهای آماری، محاسبات چند جانبه امن. حال با توجه به اینکه روش های فوق قادر به حفظ الگوهای داده ای در مجموعه های داده نمی باشند و استفاده از داده تغییر یافته توسط روشهای فوق نیازمند بازسازی توزیع داده اصلی می باشد، امکان به کارگیری آنها برای عملیات داده کاوی که نیازمند حفظ الگوهای خاصی در مجموعه های داده می باشند، وجود ندارد. بنابراین روش هایی نیز برای این گروه از عملیات داده کاوی بر پایه تبدیلات داده ای از جمله تبدیل هندسی، فوریه و موجک پیشنهاد گردیدند. تمرکز اصلی این مقاله بر روی روش های حفظ حریم خصوصی برای الگوریتم های داده کاوی می باشد. ادامه این
مقاله به صورت زیر ارائه شده استْ در قسمت دوم تعریف کاملی از داده کاوی و کاربردهای مهم آن ذکرشده است؟ در بخش سوم روش های آماری بررسی شده است؟ سپس در بخش چهارم به بررسی روش های محاسبات چند جانبه امن پرداخته شده است. در بخش پنجم انواع تبدیلات داده ای و تکنیک موجود در هر روش را مورد بررسی قرار داده است. و درنهایت بخش ششم نتیجه گیری ارائه شده است؟
.2 تعریف و کاربرد داده کاوی
داده کاوی اشاره به استخراج و کشف دانش از بین مقادیر زیادی داده خام دارد. داده کاوی یکی از مهمترین روش ها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند ؟ در داده کاوی بخشی ازعلم آمار به نام تحلیل اکتشافی داده ها، استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود ؟ علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد؟ بنابراین می توان گفت داده کاوی تئوریهای پایگاه داده ها، هوش مصنوعی، یادگیری ماشین و علم آمار را درهم می آمیزد تا زمینه کاربردی فراهم شود؟
انبارداده یکی از کلیدی ترین فناوری های مدیریت داده ها برای پشتیبانی از داده کاوی است؟ این فناوری به مجتمع سازی منابع داده های گوناگون و سازماندهی داده ها به گونهای که بتوانند به طور مؤثر کاوش شوند، می پردازد. انبار داده مکانیزمی برای بالا بردن سطح دسترسی و سهولت استخراج گزارشات مدیریتی است. ایده های که در پشت انبارهای داده قرار دارد این است که اغلب، دسترسی به داده ها از طریق پایگاه داده های ناهمگون مشکل است. واحدهای پردازشی بسیاری باید برای پردازش پرس و جو در یک محیط ناهمگون با یکدیگر همکاری کنند اما انبارداده، داده های اساسی از پایگاه داده های ناهمگون را به همراه هم عرضه می کند. به این ترتیب کاربرها فقط نیاز به انجام پرس و جو با انبار داده دارند. فرآیند استخراج دانش به معنای کشف نیمه اتوماتیک دانش از پایگاه داده و یافتن اطلاعات و الگوهای مفید از داده می باشد که باید معتبر، از قبل ناشناخته و بالقوه باشند. عبارت نیمه اتوماتیک آن به دلیل این بکار می رود که اغلب در برخی شرایط، تعاملات کاربری نیز لازم می باشد. در اولین مرحله از این فرآیند، یکپارچه سازی داده ها انجام می شود. یعنی چندین منبع داده با هم ترکیب می شوند و منبع داده یکسانی را ایجاد می کنند. در مرحله بعدی پاکسازی داده ها انجام می شود، که در طی این مرحله نویزها و ناسازگاری هایی که ایجاد شده اند حذف خواهند شد. این ناسازگاری ها معمولاً به دلیل عدم کنترل مناسب روی روش های جمع آوری داده تولید می شوند. همچنین داده ها ممکن است شامل
مقادیر بی ارزش مانند مقادیر خارج از محدوده، بی فایده و ؟؟؟ باشند؟ در سومین مرحله داده ها مورد نیاز انتخاب می شوند همچنین داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند؟ در چهارمین مرحله به فرآیند تبدیل کردن داده ها می پردازیم؟ از واژه تبدیل کردن به خلاصه سازی و همسان سازی داده ها نیز می توان تعبیر کرد؟ در مرحله بعدی نوبت به داده کاوی، همان فرایند اصلی استخراج الگوها از بین داده های موجود می رسد؟ پس از انجام داده کاوی الگوهای استخراج شده مورد ارزیابی قرار می گیرند و در نهایت به ارائه دانش از بین داده ها و الگوها خواهیم رسید؟
2,2 کاربرد ها
علارغم این که زمینه فوق جدید می باشد و حریم خصوصی هنوز تعریف کامل و مشخصی ندارد؛ کاربردهای زیادی وجود دارد که در آنها داده کاوی با حفظ حریم خصوصی مورد استفاده قرار گرفته تا در حین فراهم شدن دانش مفید، حریم خصوصی نیز حفظ شود؛ چند نمونه از این کارها عبارتند از:
1) یک مرکز کنترل بیماری می خواهد شیوع بیماری آنفولانزا را پیش بینی کند، برای این منظور نیازمند
داده های شرکت های بیمه است. حال آن که شرکت های بیمه به دلیل نگرانی هایی که در مورد افشاء بیماری افراد دارند، به مرکز کنترل بیماری اجاره دسترسی به داده ها را نمی دهد.[1]
(2 تحلیل حجم زیاد داده اهمیت زیادی در تجارت روی خط دارد و شرکت ها مزایای زیادی را از تحلیل رفتار مشتریان و فهمیدن ترجیحات و علاقه مندیهای آنها به دست می آوررند. این شرکت ها که صاحب اطلاعات محرمانه مشتریان خود هستند، اگر سرویس داده کاوی را به صورت برون سپاری 1در اختیار طرف سوم دیگری قرار دهند، در این صورت چگونه می توان تضمین کرد که شرکتی که این سرویس را رائه می دهد از اطلاعات رسیده برای اهدافی غیر از اهداف توافق شده استفاده نکند.[2]
(3 مؤسسات دارویی که می خواهند یک تحقیق مشترک انجام دهند، در حالی که اطلاعات خصوصی هر مؤسسه دیگر آشکار نشود. بنابراین در اینجا هم نیاز داریم اطلاعات حساس بیماران حفاظت شود و هم این که بتوانیم از آنها برای انجام تحقیقات یا اهداف دیگر استفاده کنیم .[3]
روش ها وتکنیک های ارئه شده برای داده کاوی با حفظ حریم خصوصی در ذیل به بررسی هر یک پرداخته می شود.
.3 روش های آماری
استفاده از روشهای آماری به گونه ای که امکان تحلیل داده را فراهم می کند، در حالی که از داده های حساس حفاظت شود انواع روش های آماری به شرح زیر می باشند:
1,3 پریشانی داده افزاینده2
روش پریشانی داده یکی از روش های متداول در داده کاوی با حفظ حریم خصوصی است. در این روش مجموعه داده های اصلی به گونه ای تغییر داده می شوند و نتیجه برای داده کاو فراهم می شود. بنابراین از آنجایی که داده، داده واقعی نیست اطلاعات خصوصی افراد آشکار نمی شود. اما مشکلی که وجود دارد این است که چگونه داده کاوی، نتایج معتبر را از چنین داده ای به دست آورد. در این روش یک trade-off ای بین حریم خصوصی و صحت3 نتایج داده کاوی وجود دارد. از یک طرف آشفتگی نباید اجازه دهد که داده های اصلی بازیابی شود و از طرف دیگر باید اجازه دهد که الگوها از داده اصلی استخراج شود. در بیشتر مواقع فراهم شدن حریم خصوصی بهتر باعث کاهش صحت نتایج داده کاوی می شود و بالعکس. پریشانی داده ها می تواند به روش های مختلفی ایجاد شود . اولین روش که ساده ترین آن نیز می باشد شامل اضافه کردن نویز (e) به یک ویژگی 4 محرمانه (x) است و نتیجه یک ویژگی پریشان شده به نام y خواهد بود. به طور عمومی این روش به صورت Y=x+e توصیف می شود. E از یک توزیع احتمال نرمال یا یکنواخت 5 به دست می آید. به
این روش پریشانی داده افزودنی گفته می شود.[4] تغییر داده اصلی به گونه ای است که توزیع داده اصلی از روی داده تصادفی قابل باز سازی باشد. چنانچه واریانس نویز افزودنی به اندازه کافی بزرگ باشد، مقادیر داده های اصلی به راحتی قابل بازیابی نخواهد بود اما صحت تخمین توزیع داده های اصلی را کاهش می دهد.[5] به تکنیک هایی که توزیع داده های اصلی را از روی داده تصادفی بازسازی می کنند، تکنیک های بر پایه بازسازی 6 گفته می شود.[6] روش پریشانی داده برای سه دسته task های اصلی داده کاوی (خوشه بندی7، رده بندی8 و قواعد انجمنی( 9 به کار می رود؛ اما task های مختلف، نیازمند روش های تصادفی کردن متفاوتی هستند. این روش در مورد پایگاه داده متمرکز 10 استفاده می شود.[4] شکل1-3 معماری روش پریشانی داده را نشان می دهد.[7]
شکل 1-3 معماری روش پریشانی داده
همانظور که در این شکل مشاهده می شود، دو دسته داده کاو وجود دارد؛ داده کاو درستکار11که توابع داده کاوی قانونی را اجرا می کنند، بدون اینکه قصد کشف وآشکار سازی داده های خصوصی فراهم کنندگان داده12 را داشته باشند؛ ودیگری داده کاو بد اندیش13که از متد های بازیابی داده خصوصی برای به دست آوردن داده های خصوصی فراهم کنندگان داده استفاده می کنند.[7] به روش پریشانی داده نام های دیگری مثل روش تصادفی14 یا روش تحریف یا اغتشاش 15 نیز اطلاق می شود.
2,3 پریشانی داده ضربی16
در این روش هر عنصر داده در یک عدد تصادفی با توزیع نرمال ناقص با mean یک و واریانس کوچک ضرب می شود. در این روش برای یک ویژگی محرمانه x ، ویژگی پریشان شده Y از طریق محاسبه Y=Xe به دست می آید. E متغییر تصادفی دارای mean، یک و واریانس تعریف شده است. زمانی که از این روش برای ایجاد پریشانی چند ویژگی محرمانه استفاده می شود، هر ویژگی باید به صورت مستقل از سایر ویژگی ها دچار پریشانی شود.[4]
3,3 روش نمونه گیری17
ایده اصلی این روش استفاده از نمونه داده ها به جای کل مجموعه داده ها است.این روش از یک تابع بر اساس توزیع احتمال18 برای حفاظت از یک ویژگی محرمانه در یک پایگاه داده امن استفاده می کند.این روش از سه مرحله تشیل شده است: (1 مشخص کردن تابع چگالی احتمالی اساسی، مقادیر ویژگی و تخمین پارامتر های این تابع. (2 تولید یک سری مجموعه های نمونه داده از تابع چگالی احتمالی تخمین زده شده، ویژگی محرمانه( 3 جانشین کردن داده تولید شده با داده محرمانه اصلی در یک ترتیب یکسان، به عنوان مثال کوچکترین مقدار نمونه جدید با کوچکترین مقدار داده اصلی جایگزین می شود. در این روش هر چه سایز پایگاه داده بزرگتر باشد، امنیت کمتری برای ویژگی محرمانه حاصل می شود.[8]
4,3 جابه جایی داده19
در این روش مقادیر زوج رکوردهای انتخابی برای زیر مجموعه ای از ویژگی ها جابه جا می شوند. شکل 2-3 نمونه ای از اعمال این روش را بر روی پایگاه داده D نشان می دهد، در این مثال مقدار ویژگی Drug بین هر زوج رکوردها جابه جا شده است. در نتیجه این جابه جایی پایگاه داده D' حاصل شده است. که علاوه بر حفظ تعداد تکرار ، محرمانگی داده نیز به خطر نمی افتد. [9 ]
2-3 مثالی از به کارگیری روش جابه جایی داده
مهمترین معایب روش آماری به شرح زیر است:
(1 بازدهی: زمان اجرای سنگین در سمت داده کاو در زمان اجرا که به علت اجرای الگوریتم بازسازی توزیع داده های اصلی است.[10]
(2 با تغییر وظایف داده کاوی، باید الگوریتم های جدیدی برای بازسازی توزیع داده های اصلی توسعه داده شود.[11]
(3 در این روش یک مصالحه بین صحت نتایج داده کاوی و امنیت داده ها وجود دارد، بنابراین این روش برای حالاتی که هم نیاز به امنیت بالا و هم صحت بالا دارد، مناسب نیست.[11]
.4 محاسبات چند جانبه امن20
سناریویی را در نظر بگیرید که سایت های دارنده داده، تمایلی به اشتراک گذاشتن داده های خود با دیگران به خاطر مقررات و یا ارزش تجاری داده ها، ندارند. دلیل دیگر این است که ترکیب همه این منابع داده ها، خود ممکن است یک تهدید به حریم خصوصی محسوب شود. از این رو، تک تک سایت ها تمایلی به آشکارسازی داده های خود ندارند. اما از طرف دیگر، انجام داده کاوی بر روی مجموع این داده ها، نتایج ارزشمندی را برای همه سایت ها که علاقه مند به بدست آوردن مدل های داده کاوی سراسری هستند، فراهم می کند یک فرض موجود که کمتر مورد تحقیق قرار گرفته، این است که مدل های داده کاوی سراسری، به صورت عمومی بوده و اطلاعات خصوصی را آشکار نمی کنند. روشی که تاکنون برای داده کاوی با حفظ حریم خصوصی توزیع شده مورد استفاده قرار گرفته، محاسبات چند جانبه امن استLindell .[12]وPinkas اولین کسانی بودند که از روش محاسبات چند جانبه امن برای داده کاوی با حفظ حریم خصوصی استفاده کردند. پروتکلی که شرکت کنندگان در آن می توانند تعدادی توابع مشترک را با داده های ورودی محلی خود محاسبه کنند، بدون اینکه داده های ورودی محلی خود را برای دیگران آشکار سازند. پروتکلی که شرکت کنندگان در آن می توانند تعدای توابع مشترک را با داده های ورودی محلی خود محاسبه کنند، بدون اینکه داده های ورودی محلی خود را برای دیگران آشکار سازند. هر شرکت کننده در پروتکل با فراهم کردن یک یا بیشتر ورودی در پروتکل شرکت می نماید. در پایان پروتکل، تنها اطلاعات اضافه ای که هر شرکت کننده می آموزد، نتیجه محاسبات است نه چیز دیگر. مدلهای متفاوتی برای پروتکل های محاسبات چند جانبه امن پیشنهاد شده است:
(1 مدل اول استفاده از یک طرف سوم(TP)21 است که در این روش محاسبات واقعی توسط TP انجام می شود. در این مدل، شرکت کنندگان داده های ورودی محلی خود را برای TP آشکار نمی کنند.
(2 در مدل دوم، طرف سومی((TP وجود ندارد و عملیات آن به وسیله شرکت کنندگان در پروتکل شبیه سازی می شود، در نتیجه محاسبات بیشتری به صورت توزیع شده، انجام می شود.
(3 در مدل نیمه درستکار، فرض بر آن است که شرکت کنندگان قابل اعتماد اما کنجکاو هستند. یک طرف نیمه درستکار مراحل پروتکل را به درستی دنبال می کند. با وجود این، ممکن است او بخواهد اطلاعاتی بیشتری از آنچه مستحق آن است را از مراحل پروتکل به دست آورد. به عنوان مثال یک شرکت کننده نیمه درستکار درباره ورودی های محلی سایر شرکت کنندگان بسیار کنجاور است. اما فعالیت های آن کم اثر بوده و با استفاده از یک پروتکل به دقت طراحی شده می توان از آشکارسازی اطلاعات اضافی برای یک شرکت کننده نیمه درستکار جلوگیری کرد.
انتخاب یک مدل خاص تا حد زیادی به کاربرد و تابع خاصی که محاسبه می شود، بستگی دارد. در کاربردهای داده کاوی، جایی که هر طرف ارتباطی به عنوان دارندگان داده نامیده می شوند، معمولاً مدل نیمه درستکار ترجیح داده می شود.مدل نیمه درستکار مخصوصاً برای کاربردهای داده کاوی مناسب است، جایی که دارند گان داده از حمله های فعال و فعالیت های فراتر از پروتکل منع می شوند در حالیکه مراحل پروتکل معمولاً به بهترین وجه توسط همه شرکت کنندگان دنبال می شود. بنابراین رفتار آنها نمی تواند درهم گسیخته و نقاق افکن باشد. [13 ]
داده ها می توانند به صورت افقی یا عمودی در بین چند سایت توزیع شوند.[14] در توزیع افقی 22همه سایت ها اطلاعات مشابهی را درباره موجودیت های مختلف جمع آوری می کنند. به عنوان مثال هر شعبه بانک اطلاعات مشابهی را در مورد مشتریان مختلف جمع آوری می کند. شکل 1-4 نمونه ای از توزیع افقی داده ها را نشان می دهد. در توزیع عمودی، سایت های مختلف مجموعه ویژگی های متفاوتی را برای موجودیت های یکسان جمع آوری می کنند. ترکیب این داده ها و اجرای الگوریتم داده کاوی بر روی آنها نتایج قابل توجه ای را ارائه می دهد که به دست آوردن آنها از هر کدام از پایگاه داده ها به تنهایی غیر ممکن است. شکل 2-4 نمونه از توزیع عمودی داده ها را نشان می دهد.
شکل 1-4 نمونه ای از توزیع افقی داده ها
شکل 2-4 نمونه از توزیع عمودی داده ها
از آنجایی که در این روش از تکنیک های رمزگذاری استفاده می شود؛ لذا به آنها روش های بر اساس رمزگذاری 23 نیز گفته می شود. در این روش فرض بر این است که داده ها بین دو یا چند سایت توزیع شده است و این سایت ها برای به دست آوردن نتایج داده کاوی کلی با هم همکاری می کنند ایجاد مدل بر اساس کل داده های سایت ها، بدون اینکه داده های هر سایت برای سایت های دیگر آشکار شود.[6] ایده اصلی این روش بر اساس انجام یک