بخشی از مقاله
چکیده
امروزه، بسیاری از سازمانها و شرکتها اطلاعات خود را برای تجزیهوتحلیل در اختیار دادهکاوان و عموم مردم قرار میدهند. این امر میتواند تهدیدی برای حریمخصوصی افراد باشد. ازاینرو حفظ حریمخصوصی افراد در اشتراکگذاری اطلاعات سازمانی مسالهی مهمی است که در سالهای اخیر روشهای بسیاری برای آن توسعه دادهشده استغالباً. دادههای جمعآوریشده حاوی اطلاعات حساسی هستند که نباید منتشر شوند. انباشته شدن دادههایی با ویژگیهایی مانند تنوع، حجم و سرعت، باعث بروز پدیدهی »کلان دادهها« شدهاند.
پردازش کلان دادهها چالشهای جدیدی در روشهای حفظ حریم خصوصی به وجود آورده است. از مهمترین این چالشها عدم کارایی روشهای گذشته در مواجهه با حجم بالای دادهها در عین برقراری تعادل بین دقت دادهها و حفظ حریم خصوصی افراد است. در این مقاله روش پیشنهادی مبتنی بر توابع حساس به موضع و الگوریتم ژنتیک، برای تأمین شرایط -kگمنامی و -lتنوع در کلان داده ارائه میگردد. ارزیابی روش نشان میدهد این روش نسبت به روش قبلی دارای مزیت مقیاسپذیری، افزایش کیفیت دادههای منتشرشده و همچنین افزایش سطح حریمخصوصی کاربران هنگام انتشار دادهها است.
-1 مقدمه
کلان دادهها 1مجموعه بزرگی از دادهها هستند که معمولا از چند منبع اطلاعاتی متفاوت گرفته شدهاند. این نوع از دادهها از پیچیدگی زیادی برخوردار هستند که این موجب دشواری پردازش کلان دادهها میگردد بهطوریکه پردازش آنها با استفاده از ابزارهای سنتی مدیریت پایگاه داده به سادگی امکانپذیر نیست. امروزه با گسترش حجم دادهها در کاربردهای مختلف، بخشهای مختلف سازمانی و تجاری در جهت تولید دانش و اطلاعات مفید از کلان دادهها بهره-های فراوانی را میبرند.
فرایند تولید دانش و اطلاعات مفید از کلان دادهها معمولا با گردآوری، ذخیره، پردازش،تجزیه و تحلیل و اشتراکگذاری آنها همراه است. لذا از جمله مسائل مهم در طی این فرایند، حفظ حریم خصوصی افراد است. حفظ حریم خصوصی با تاکید خاص بر ضمانت صحت و محفوظ ماندن دادههای حساس هست. درواقع هدف اصلی حفظ حریم خصوصی حفاظت از اطلاعات حساس در طول فرآیند تولید دانش، پردازش، اشتراکگذاری و یا انتشار دادهها است.
مسالهی حفظ حریم خصوصی در انتشار داده یکی از مهمترین مسائل میباشد که باید به آن توجه نمود. در انتشار داده کاربران نباید با اطلاعات حساسشان تعیین هویت شوند و از طرفی داده منتشرشده باید سودمند باشد. پردازش کلان دادهها چالشهای جدیدی در روشهای حفظ حریم خصوصی به وجود آورده است. از مهمترین این چالشها عدم کارایی روشهای گذشته در مواجهه با حجم دادهها، سطح پایین گمنامی برای انتشار و برقراری تعادل بین دقت دادهها و حفظحریمخصوصی افراد است.
در روشهای حفظ حریم خصوصی دادههای منتشرشده، فرمت جداول به شکل زیر است: - شناسه صریح، شبه شناسه،2 ویژگیهای حساس، ویژگیهای غیر حساس - شناسه صریح شامل یک مجموعه از ویژگیها است مثل نام که حاوی اطلاعاتی است که بهصراحت مشخصکننده صاحب رکورد اطلاعاتی است. شبه شناسه شامل یک مجموعه از اطلاعات است که صاحب رکوردهای اطلاعاتی را مشخص میکند. ویژگیهای حساس شامل اطلاعات حساس فرد همانند بیماری، دستمزد و غیره است. هر ویژگی که جز سه دسته ویژگی فوق نباشند را ویژگیهای غیر حساس مینامیم .[1]
گمنامی یکی از روشهای حفظ حریم خصوصی دادههای منتشرشده است که از شناسایی اطلاعات حساس جلوگیری میکند. در این فرآیند دادهها به صورتی تغییر میکنند که هنگام انتشار یا استفاده از آنها اطلاعات کلیدی قابلشناسایی نباشند. دو روش اصلی برای گمنام کردن دادهها وجود دارد که در محافظت از حریم خصوصی کلان دادهها استفاده میشوند. این روشها -kگمنامی3، -l تنوع 4هستند.
-kگمنامی: این روش راهکارهایی را برای پنهان نمودن هویت کاربران بیان میکند، از مهمترین این راهکارها، تغییر مقادیر اصلی دادهها، عوض کردن مقادیر داده با هم یا تعمیم مقادیر داده، است. رویکرد محافظتی -kگمنامی زمانی استفاده میشود که محتویات اطلاعات هر فرد حداقل با k-1 فرد دیگر یکسان باشد. -kگمنامی با تعمیم صفتهای کاربران محقق میشود.[2] -lتنوع: هدف تنوع L برقراری تنوع برای ویژگی حساس در هر گروه از شبه شناسهها است.
روش -lتنوع درواقع به دنبال این است که در هر گروه از شبه شناسه حداقل L مقدار متفاوت برای ویژگیهای حساس وجود داشته باشد.[3] ساختار کلی این مقاله به این صورت ا ست که در بخش 2 در مورد کارهای صورت گرفته در این حوزه صحبت میکنیم. در بخش 3 مفاهیم پایه را معرفی میکنیم. در بخش 4 روش ارائهشده را بررسی میکنیم. در بخش 5 نتایج ارزیابی را نشان میدهیم و در بخش 6 نیز جمعبندی و کارهای آتی را ارائه میدهیم.
در [7] روشی برای برقراری -lتنوع در انتشار دادهها ارائهشده است. در این رویکرد در ابتدا برای ویژگیهای حساس یک درخت طبقهبندی ایجاد میکند و سپس بر اساس این درخت طبقهبندی و ویژگیهای حساس دادهها را تقسیم-بندی میکند. در مرحله بعد برای رسیدن بهشرط حداقل میزان تنوع l در هر مرحله یک داده از این دستهها انتخاب میکند و با توجه به کمترین فاصله که این داده با دادههای دستههای دیگر دارد در دسته نهایی قرار میدهد.
در [8] روش به نام LSH-RC برای حفظ حریم خصوصی کاربران بر مبنای نگاشت کاهش ارائه دادند که با کمک توابع حساس به موضع و خوشهبندی k-member است. این روش به این صورت عمل میکند که بهجای اینکه همه رکوردها را برای محاسبه میزان شباهت به هم مقایسه کند میآید آنهایی را که کاندید به شباهت هستند را باهم مقایسه میکند یعنی مقدار درهمسازی دادهها را حساب میکند و در دستههایی آنها را قرار میدهد.
بعدازاینکه دادهها را به دستههایی تقسیم کرد در مرحله بعد تعداد عناصر هر دسته را برای بررسی برقرار بودن شرط k گمنامی بررسی میکند. که برای انجام این کار از الگوریتم خوشهبندی k-member استفاده میکند. از مهمترین مشکلات بیان شده برای روشهای پیشین عدم کارایی این رویکردها زمانی که حجم دادهها افزایش پیدا میکند، کیفیت پایین دادههای انتشاریافته و همچنین سطح پایین حریم خصوصی افراد است. بنابراین در این مقاله روشی ارائه میشود که مشکلات بیانشده را برطرف و یا بهبود دهد.
-2 کارهای گذشته
در [4] روشی برای برقراری -lتنوع و -kگمنامی ارائهشده است. در این مدل ارائهشده از روش خوشهبندی k-member برای خوشهبندی دادهها استفادهشده است. درواقع ایده اصلی این بوده که با استفاده از الگوریتم خوشهبندی K-member مسئله گمنامسازی را به مسئله خوشهبندی تبدیل کند و مجموعهای از کلاسهای همارز را پیدا کند که در آن دادهها به توجه به خوشههای نهایی تعمیم داده شوند.
در [5] روشی برای حفظ حریم خصوصی در جریان دادهها ارائهشده است. در این روش بافری که شامل مجموعهای از خوشهها است برای عمومیسازی دادهها وجود دارد. زمانی که یک داده جدید وارد میشود میزان شباهتش با خوشههای موجود سنجیده میشود. اگر با یکی از خوشههای موجود شباهتی داشت به آن خوشه تعلق میگیرد در غیر این صورت این داده باید یک مدتزمان مشخصی را انتظار بکشد. اگر پس از زمان تعیینشده دادههای شبیه به آن وارد نشد، در آن صورت دستهای جدید با K نزدیکترین همسایه برای داده موردنظر ساخته میشود.
در [6] یک تکنیک جدید به اسم برش5 ارائهشده که دادهها را بهصورت عمودی و افقی افراز میکند که از افشای عضویت محافظت میکند. در این روش ابتدا یک افراز از صفات بر اساس محاسبه همبستگی بین صفات و خوشهبندی صفات ایجاد میکنند. بعد از ایجاد یک افراز از صفات، افراز بر اساس رکوردها ایجاد میکنیم. درواقع به این صورت که یک برش بهصورت عمودی و افقی بر روی دادها ایجاد میکند. بعد از ایجاد این تقسیمبندی بر رویدادهها نظم دادههای موجود در هر کلاس هم ارزی را با تغییر مکانهای دادهها از بین میبرد.
-3 مفاهیم پایه
در این بخش به معرفی و تعریف مفاهیم پایهای میپردازیم که با کمک آنها روش پیشنهادی را ارائه دادیم.
توابع حساس به موضع
این نوع توابع باعث کاهش ابعاد داده با ابعاد بالا میشود. از این نوع توابع برای پیدا کردن شباهت بین رکوردهای داده استفاده میشود. این توابع دادههای ورودی را بهگونهای به یکسری دستهها تقسیم میکند که رکوردهایی که کاندید شباهت هستند با احتمال بالا در یک دسته قرار میگیرند.[9] یک تابع درهمسازی بر اساس تعریف ریاضی بهصورت زیر است: تعریف :1 فرض کنید دو فاصله d1 و d2 که بر اساس یک معیار فاصلهای بهدستآمده است رابطه d1< d2 بین آنها برقرار باشد. تابع درهمسازی که برای آنها تعریف میشود بهصورت - - d1,d2,p1,p2 - حساس هست که بهصورت زیر تعریف میشوند:[10]
· اگر d - x,y - <d1 باشد با حداقل احتمال p1، رکوردهای x و y کاندیدای شباهت هستند.
· اگر d - x,y - >d2 باشد با حداکثر احتمال p2، رکوردهای x و y کاندیدای شباهت هستند. اگر h تابع درهمساز باشد زمانی که - h - x - =h - y به این معنی است که x و y توسط تابع درهمساز در یک دسته یکسان قرارگرفتهاند. درواقع برای استفاده از توابع حساس به موضع ما از تکنیک banding استفاده میکنیم. با توجه به خانواده توابع در همساز دو متغیر و در نظر گرفته میشود. در این تکنیک مقدارهای توابع درهمساز را به باند که هرکدام شامل سطر است تقسیم میکند. و دو متغیر صحیح است که توسط کاربر انتخاب میشود. با توجه به تعریف تکنیک banding دو رکورد در یک دسته یکسان قرار میگیرند اگر مقدار درهمسازی همه در حداقل یک باند یکسان باشد.
اگر s را میزان شباهت بین دو رکورد را مشخص کند بنابراین احتمال اینکه این دو رکورد در یک دسته قرار گیرد برابر - 1- - 1-s است. زمانی که بخواهیم از توابع حساس به موضع استفاده کنیم باید معیار شباهتی برای این توابع معرفی کنیم که بر اساس آن معیار، توابع درهمساز را تولید کنیم و میزان شباهت بین دادهها برای تولید کاندیدهای شباهت را بسنجیم. حال با توجه به اینکه دادههای دارای ویژگیهای مستقل از هم هست و اینکه مقدار هر ویژگی یا ابعاد در جایگاه خودش معنا دارد و همچنین هر رکورد از دادهها تبدیل به یک بردار خلوت6میشود بنابراین با یک نرمالسازی دادهها ما از توابع درهمساز تصادفی مبتنی بر شباهت کسینوسی استفاده میکنیم که تخمین خوبی از شباهتهای بین دادهها ارائه میدهد. برای استفاده از این معیار ابتدا شبه شناسه هرکدام از رکوردها را با توجه به درخت طبقهبندی7به برداری از ویژگیها تبدیل میکنیم.
بردار ویژگی بر اساس شبه شناسه و درخت طبقهبندی ساخته میشود و آن را با r* نشان میدهیم. در اینجا با توجه به مقدار گره شبه شناسه و گرههای اجداد بهجز گره ریشه، در بردار ویژگی مقدار یک و برای بقیه مقادیر صفر در نظر گرفته میشود.برای مثال درخت طبقهبندی برای ویژگی مثل کد پستی در شکل 1 آمده است. فرض کنید برای در نظر گرفتن جنسیت نیز از یک بیت که صفر نشاندهنده مرد بودن و یک نشاندهنده زن بودن هست استفاده میکنیم. همچنین برای تبدیل مقدار کد پستی 53715 به برداری از صفر و یک از شکل 2 که بر اساس درخت طبقهبندی بهدستآمده است استفاده میکنیم.
-3-2فاصله
خوشهبندی8در آمار و یادگیریماشینی، یکی از شاخههای یادگیری بینظارت 9 میباشد و فرآیندی است که در طی آن، نمونهها در دستههایی که اعضای آن مشابه یکدیگر میباشند تقسیم میشوند که به این دستهها خوشه گفته میشود. برای خوشهبندی باید یک معیار برای ارزیابی میزان شباهت دادهها استفاده کنیم که این معیار درواقع همان فاصلهای است که رکوردهای داده از همدیگر دارند. این توابع فاصله توسط انواع صفات تعیین میشوند. انواع صفات را میتوان به صفات عددی - کمی - و صفات کیفی تقسیم کرد و در اغلب موارد مجموعه دادهها شامل صفات عددی و نیز کیفی میباشند. توابع فاصلهای برای این دو نوع صفت متفاوت هستند.