بخشی از مقاله


مروري بر حفظ حریم شخصی در داده کاوي توزیع شده


چکیده

امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیري از روشهایی همچون دادهکاوي براي استخراج دانش، امري غیرقابل اجتناب میباشد. مساله اي که امروزه در بحث دادهکاوي وجود دارد، بحث توزیع شدگی ذاتی دادهها است. معمولا پایگاههایی که این دادهها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند. هنوز هیچ تضمینی ارایه نشده است که بتوان دادههاي خاصی را مورد دادهکاوي قرار داد؛ بدون آنکه به حریم خصوصی مالک آن اطلاعات تجاوز کرد.

ارسال داده ها و سپس مجتمع شدن آنها توسط هر یک از افرازهاي عمودي، افقی بسته به نوع ذخیره شدن آنها و همچنین در جهت بهبود حفظ محرمانگی اطلاعات صورت خواهد پذیرفت. در این پژوهش سعی بر آن شده است که مقایسه جامعی از روشهاي حفاظت از محرمانگی صورت پذیرد. ارائه روشهاي کلی چون تصادفی نمودن داده ها و رمزنگاري و همچنین بررسی نقاط ضعف و قوت هر یک، موضوعاتی است که به آن پرداخته خواهد شد.

کلیدواژه ها: داده کاوي، داده کاوي توزیع شده، حفاظت از محرمانگی، حفظ حریم خصوصی

مقدمه

به تازگی، یک حوزه تحقیقاتی جدید، به نام حفظ حریم شخصی داده کاوي توزیع شده(PPDDM) 1 پدید آمده است که هدف کلی آن حل مشکل ذیل است:

تعدادي از شرکت کنندگان می خواهند به طور مشترك یک کار داده کاوي براساس مجموعه داده هاي خصوصی که توسط هر یک از شرکت کنندگان نگهداشته شده اند را اجرا و هدایت کنند. این تنظیمات مشکل مورد توجه منافع محققان، شاغلان و توسعه دهندگان در جامعه از هر دو نظر داده کاوي و امنیت اطلاعات هستند. آنها پیشرفت زیادي در طراحی و تداوم توسعه راه حل هایی براي رسیدگی به این سناریو را داشته اند. به هر حال، محققان و پژوهشگران در حال حاضر با چالشهایی براي چگونگی تدبیر و ساخت استانداردي براي ترکیب و ارزیابی پروتکل هاي مختلف PPDDM

 

مواجه هستند، زیرا آنها با تعداد زیادي از تکنیک هاي توسعه داده شده ولو اشتباه، سر در گم شده اند.[6]

حفظ محرمانگی داده ها به قدري مهم است که گاهی مسئولین از جمع آوري داده هاي خود به منظور داده کاوي براي آنالیز و کشف روابط جلوگیري می کنند. گاهی انتشار نتایج حاصل از داده کاوي نیز براي صاحبان مشاغل خطر جدي رقابتی و تجاري را به همراه خواهد داشت تا جایی که در مواردي ذخیره و استفاده از این نتایج نیز موضوعی امنیتی به حساب خواهد آمد .[7]

حذف کامل داده هاي خصوصی روش عملی نخواهد بود. این که داده هاي خصوصی را چگونه شناسایی نماییم مسئله روشنی نیست و حتی اگر این اتفاق بیفتد از کیفیت و سودمندي داده ها به احتمال زیاد کاسته خواهد شد. از طرفی استفاده از یک منبع ایمن براي ذخیره سازي داده ها نیز به تنهایی کفایت نخواهد کرد. هر چند امنیت بالا براي یک انبار داده می تواند آن را از خطرات سو استفاده از داده ها تاحدي مصون بدارد ولی باید توجه داشت که هر حمله به این انبار داده ها را درگیر خواهد نمود، راهکار توزیع نمودن داده ها می تواند تضمین نسبی مناسبی براي کل داده ها باشد.[8]


داده کاوي توزیع شده
دادهکاوي توزیع شده(DDM) 2 عبارت است از کشف نیمه خودکار الگوهاي پنهان موجود در دادهها، در حالتی که دادهها و یا مکانیزم هاي استنتاج، به صورت توزیع شده باشند غیرمتمرکز بودن دادهها بدان معناست که دادهها به صورت توزیع شده بین دو یا چند سایت بوده و هزینه انتقال تمام یا بخشی از دادهها به یک سایت مرکزي، قابل صرف نظر نباشد 1]و.[3 دادهکاوي توزیع شده در عین حال که به عنوان راه حلی کلیدي براي مشکلات اصلی پیش روي دادهکاوي مطرح میباشد، خود سرمنشاء چالشها و مسائل متعددي گردیده است؛ حل مؤثر این مشکلات منجر به استفاده هرچه بیشتر از دادهکاوي و ایجاد امکانات جدید و بهرهبرداري از پتانسیل هاي موجود در قلمروهائی خواهد شد که علی رغم نیاز مبرم به دادهکاوي، استفاده بسیار محدودي از آن به عمل میآورند1]و.[2

معماري داده کاوي توزیع شده

داده کاوي فضایی را هم بصورت محلی در هریک از سایتهاي توزیع شده و هم در سطح سراسري می گیرد. یک نمونه معماري از روش DDM در شکل1 نشان داده شده است. فاز اول معمولا شامل تجزیه و تحلیل پایگاه داده محلی در هر یک از سایت هاي توزیع شده است. پس از آن، دانش کشف شده است که معمولا به یک سایت ادغام شده انتقال می یابد، که در آن ادغام مدل هاي توزیع محلی انجام شده است. نتایج به دست آمده، به پایگاه داده هاي توزیع شده منتقل می شود. در برخی از روش ها، به جاي یک سایت ادغام، مدل هاي محلی به تمام سایت هاي دیگر پخش می شوند، به طوري که در هر سایت می تواند به موازات مدل سراسري محاسبات را انجام دهد.[1]

شکل :1 یک نمونه معماري از داده کاوي توزیع شده[1]


نقش عامل هاي هوشمند در داده کاوي توزیع شده

در داده کاوي توزیع شده، تمام روشها بر مبناي انتقال نوعی از اطلاعات میانی، با حداکثرسازي امکان کشف دانش و حداقل سازي امکان حدس زدن اطلاعات خام توسط دیگران استوار می باشند. که عمده ترین (و شاید تنها) رویکرد موجود به داده کاوي توزیع شده، به کارگیري عاملها می باشد. عاملها به عنوان واحدهاي نرم افزار یا سخت افزار مستقل شناخته می شوند که انجام برخی از وظایف کاربران با برخی از درجه هاي خودمختاري، را عهده دار هستند.

عامل یک سیستم (نرمافزار) کامپیوتري که خودکار بوده و داراي قابلیتهاي اجتماعی، توانائی واکنش و برنامهریزي براي آینده می-باشد.

سیستم هاي چند عامله

سیستمهاي چندعامله، زیر حوزهاي در حال رشد از هوش مصنوعی است که هدفش فراهم ساختن اصول ساخت سیستمهاي پیچیدهاي است که شامل چند عامل و ساز و کارهایی براي هماهنگ سازي رفتارهاي این عاملها میباشد. از دیدگاه هوش مصنوعی توزیع شده، سیستم چندعامله، اجتماعی از عاملهاي مستقل براي حل مساله است که هر عامل کلیه خصوصیات مطرح شده را داراست4]و.[5 سیستم-هاي چندعامله داراي مشخصات زیر هستند:

دانش کافی و لازم براي حل یک مساله در یک عامل وجود ندارد. کنترل سیستم توزیع شده است(یک سیستم کنترل کلی وجود ندارد). داده ها غیر متمرکز می باشند. محاسبات بصورت غیر همزمان صورت می گیرند. عاملها براي رسیدن به اهداف خود نیاز به تعامل با یکدیگر خواهند داشت.

2


بهره گیري از عامل براي داده کاوي

سیستمهاي چندعامله را میتوان به عنوان یکی از انواع سیستمهاي باز در نظر گرفت که امکان همکاري یا رقابت تحت قواعد محیطی مشخص را براي دستیابی به هدف مشترك یا هدف خاص هر عامل فراهم میسازند. سیستمهاي چند عامله به صورت ذاتی با یک محیط داده کاوي توزیع شده تطبیق دارند و همین امر موجب گستردگی کاربرد آنها در این قلمرو شده است.[5]


تقسیم بندي سیستم هاي DDM
بررسی روشهاي حفاظت از حریم خصوصی در داده کاوي توزیع شده

اختلال6 در داده ها

اختلال یا ایجاد آشفتگی یکی از روش هایی است که می تواند حریم داده ها را حفظ نماید. اساس این روش بر این است که داده هاي هر رکورد دقیقاً مقادیر واقعی خود را نداشته باشد. پس چنانچه یک رکورد به گونه اي شناسایی شود، داده هاي مرتبط با وي همان داده هاي اصلی نخواهند بود سپس توسط راهکارهایی می توان توزیع اصلی را شناسایی و براي داده کاوي از آن استفاده نمود.(شکل[16] (2 این

روش مدلهاي پیاده سازي مختلف خواهد داشت.

در حال حاضر، بیشتر پایگاه هاي داده در شبکه ها، توزیع شده اند. سیستم هاي داده کاوي توزیع شده را می توان در سه دسته، طبقه بندي کرد:

سیستم هاي DDM مبتنی بر عامل هاي استخراج داده هاي موازي3

در اصل براي تحقق بخشیدن به هماهنگی داده کاوي موازي با استفاده از فن آوري چند عامله به منظور افزایش بهره وري کار، طراحی شده است.

سیستم هاي DDM مبتنی بر 4 Meta-Learning

در اصل به منظور بهبود کیفیت انتخاب و ترکیب الگوریتم هاي داده کاوي، و انتخاب مدل داده کاوي مناسب با توجه به همبستگی داده ها از منابع متعلق به وب سایت، طراحی شده است.

سیستم هاي DDM مبتنی بر 5 Grid

امروزه، هدف از پروژه هاي جدید DDM استخراج داده ها در یک محیط توزیع شده جغرافیایی است. آنها بر اساس استانداردها و پلتفرم شبکه Grid، به منظور پنهان کردن پیچیدگی داده هاي ناهمگن و جزئیات سطح پایین تر، هستند.

جابجایی داده ها

تنها با جابجا نمودن مقادیر یک صفت در بین تمام رکوردها می توان این عمل را انجام داد. ولی در حالتی که مقادیر اکثریت صفات و یا تمام صفات در رکوردها جا به جا شده اند، ایجاد دسته بندي ها، ناکارامد و بنا به [11] از اجراي داده کاوي کارا جلوگیري خواهد شد.

تصادفی نمودن داده ها

استفاده از تابعی که مقادیري را به صفت اصلی اضافه می نماید دستکاري داده ها و یا به اصطلاح تصادفی نمودن آنها می گویند.

توابع تصادفی ساز، توابعی هستندکه توسط اختلال که در کانال ارتباطی ایجاد میکنند داده هاي اصلی را در جهت حفظ حریم شخصی داده ها تغییرمی دهند. این توابع در زمینه تحریف داده ها استفاده می شوند که این کار را با استفاده از توابع توزیع احتمال انجام می دهد.اگرمجموعه رکوردها به صورت X={X1,X2,..XN} باشند براي هر رکورد X یک مولفه نویز با تابع توزیع FY(y) به صورت Y1..YN را تولید کرده و به آن اضافه می کنیم تا به صورت X1+Y1,..,XN+YN درآیند .


بسته به توابع تصادفی ساز مختلف راهکارهاي مختلفی نیز براي بازسازي توزیع داده هاي اصلی به وجود آمده که اکثر آنها از قضیه بیزي استفاده می کنند مانند .EM روش EM می تواند داده ها را به درستی دسته بندي کند و همچنین توزیع داده هاي اصلی را حدس بزند.[9] این شیوه یک روش محبوب براي تقریب داده هاي ناقص یا مواقعی که داده ها به شکلهاي مشابه تبدیل شده باشند و کلاً هر حالتی از تقریب زدن می باشد. این الگوریتم از دو بخش تشکیل شده است ، تقریب داده از دست داده شده و یا پنهان شده و در مرحله دوم با توجه به فرضیاتی که داریم بهترین حالت شبیه به واقعیت را انتخاب می کنیم. این گام می تواند تکرار شود و تضمین می شود که در هر دوره تکرار این شباهت بیشتر خواهد بود.[10]

مزایاي تصادفی نمودن داده ها

• در این روش براي هر رکوردي می توان در هر زمان عملیات تصادفی شدن را انجام داد و برخلاف سایر روشها نیاز به گرداوري تمام داده ها پیش از شروع کار نیست.

• نیاز به جمع آوري داده ها در یک سرور جداگانه براي تصادفی نمودن آنها نیست لذا مخاطرات حمله به سرور نیز منتفی خواهد بود.

توزیع شده کاربرد خواهد داشت. خلاصه اي از راهکارهاي فوق درجدول 1 نمایش داده شده است.


گمنام سازي با درجه K8

هر ترکیبی از مقادیر هر نسخه اي از داده ها باید حداقل به طور غیر قابل تشخیص با k مقدار مطابقت داشته باشد. یعنی هر رکورد حداقل با (K-1) مقدار داده در رکوردهاي دیگر در ارتباط است7]و.[15 در این روش داده ها را عموماً توسط دو متد تعمیم9 و سرکوب10 تبدیل می سازند:

تعمیم: در این حالت دانه بندي نمایش اطلاعات کاهش خواهد یافت مثلاً. تاریخ دقیق تولد تنها به سال تولد تغییر خواهد یافت

سرکوب: تمام مقادیر یک صفت حذف خواهند شد. هرچند این حالت به خوبی از وظیفه حفظ محرمانگی برخواهد آمد، اما احتمال ایجاد نتایج درست از این روش کاهش خواهد یافت. شکل 3 نمونه اي از مقادیر تنها بر روي یک صفت را، پیش و پس از استفاده از این روش نمایش می دهد.

• زمانی که اطلاعات تنها از طریق کاربر به پایگاه جمع آوري داده ها ارسال می شود و تبادل اطلاعات و تراکنش دیگري بین فرستنده و گیرنده صورت نمی گیرد دلیلی براي انجام محاسبات پیچیده و استفاده از پروتکل هاي تعاملی روش رمزنگاري نمی باشد. سادگی روش تصادفی نمودن داده ها بهترین راهکار براي موارد ارتباط یک طرف می باشد .[18]
• سایر موارد کاربردي این روش استفاده آن در OLAP7 و همچنین در دسته بندي داده ها و یا داده کاوي گسسته می باشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید