بخشی از مقاله
مرور و تحلیل روش هاي حفاظت از حریم خصوصی در فرآیند داده کاوي
چکیده:
درسال هاي اخیر داده کاوي به عنوان آنالیز عمومی دراستخراج دانش از مجموعه بزرگی از داده ها است.یکی از بزرگترین چالش ها در داده کاوي پیدا کردن الگوي مخفی سازي و عدم افشاي اطلاعات می باشد که حفظ حریم شخصی داده کاوي پاسخی به این چالش بزرگ است.دراین مقاله مرورمختصري برروشها،متدها وتکنیک هاي حفظ حریم شخصی داده کاوي،دسته بندي آنها و در نهایت جدول مقایسه اي بین تعدادي از این الگوریتم ها ارائه خواهد شد.
کلمات کلیدي:حفظ حریم شخصی داده ،الگوریتم PPDM،امنیت داده
-1مقدمه:
باپیشرفت تکنیک هاي داده کاوي و پیدا کردن الگوها و قوانین قابل استفاده از میان داده هاي فراوان ،مسئله حفظ حریم داده هاي شخصی و عدم افشاي آنها از میان داده هاي پایگاه داده اهمیت زیادي پیدا کرده است. این حفاظت از داده ها باید به نحوي اعمال شود که نه تنها صحت و درستی داده هاي پایگاه داده را حفظ کند بلکه با کمترین تغییر در پایگاه داده اصلی از افشاي داده هاي شخصی و حساس جلوگیري کرده و کمترین اثر را روي سایر داده ها داشته باشد.مثلا در یک پایگاه داده پزشکی ضمن بدست آوردن اطلاعات پزشکی درست سعی در حفظ هویت بیماران و عدم افشاي آن داریم.اگرمجموعه آیتمی به صورت A={A1,A2,..,AN} و پایگاه داده D که در آن مجموعه ایی از تراکنش ها وجود دارند که هرکدام از آنها زیرمجموعه اي از عناصر
شذحل
مجموعه رادارا می باشند.در صورتی یک تراکنش یک مجموعه آیتم مثل X را SUPPORT می کند که X زیرمجموعه آیتم هاي موجود در تراکنش باشد. قوانین وابستگی به صورتB → C بیان می شوند. که در آن اشتراك B,C تهی می باشد و هر دو زیر مجموعه A هستند.براي یک قانون فاکتور داراي فاکتور مهم اطمینان می باشد که به صورت زیر محاسبه می شود:
(1) CONFIDENCE(B,C)=SUPPORT(B,C)/SUPPORT(B)
منظور از SUPPORT(B,C) تعداد تراکنش هایی از پایگاه داده ها می باشد که همزمان هر دو آیتم B,C را دارا است تقسیم بر تعداد کل تراکنش هاي پایگاه داده ها ومنظور از SUPPORT(B) تعداد تراکنش هایی از پایگاه داده ها می باشد که آیتم B را دارا بوده تقسیم بر تعداد کل تراکنش پایگاه داده ها.یک قانون زمانی قوي می باشد و استخراج می شود کهفاکتور اطمینان قانون بزرگترمساوي آستانه اطمینان باشد و همچنین ساپورت قانون از آستانه ساپورت بزرگتر و مساوي باشد. هدف الگوریتم هاي مخفی سازي این است که با حداقل تغییر پایگاه داده قوانین حساس را مخفی کرده طوري که دیگر استخراج نشده و کمترین اثر را برروي قوانین غیرحساس فراوان داشته باشد.سه روش براي مخفی سازي قوانین وابستگی وجود دارد-1 اکتشافی -2 دقیق -3برپایه مرز .در روش اکتشافی مجموعه اي از تراکنش ها جهت مخفی سازي انتخاب شده این روش ممکن است دچارشکست درمخفی سازي شده و یا حتی باعث ایجاد قوانین مهمان و گم شده شود.اما روشی سریع و راحت می باشد. این روش بر دو اصل تحریف داده ها و بلوکه کردن استوار است.روش برپایه مرز،در این روش مخفی سازي قوانین وابستگی براساس تغییرکران در شبکه بندي آیتم هاي فراوان و غیرفراوان پایگاه داده اصلی می باشد این شیوه حریصانه با حداقل اثر جانبی می باشد.در روش دقیق الگوریتم هاي غیراکتشافی استفاده شده و از طریق فرموله کردن فرآیند مخفی سازي انجام شده است. این الگوریتم ها بهینه بوده و زمان اجراي بالایی دارند.متدهاي حفظ حریم شخصی داده کاوي همانطور که در (شکل(1 نشان داده شده به سه دسته تقسیم می شوند:-1متدهاي تصادفی -21 متدهاي گمنام سازي-32متدهاي رمزگذاري3
.متدهاي تصادفی سازي، متدهاي عمومی هستندکه توسط اختلال که در کانال ارتباطی ایجاد می کنند داده هاي اصلی را در جهت حفظ حریم شخصی داده ها تغییر داده است. این متدها در زمینه تحریف داده ها استفاده می شوند که این کار را با استفاده از توابع توزیع احتمال انجام می دهد.اگرمجموعه رکوردها به صورت X={X1,X2,..XN} باشند براي هر رکورد X یک مولفه نویز با تابع توزیع FY(y) به صورت Y1..YN را تولید کرده و به آن اضافه می کنیم با به صورت X1+Y1,..,XN+YN درآیند. این متدها شامل تکثیرتصادفی،تصادفی سازي براي ارتباط Rule mining ،تعویض داده تصادفی می باشد.هدف متدهاي گمنام سازي ساخت رکوردهاي منحصربفرد وغیرقابل تشخیص در میان گروهی از رکوردها با استفاده از متدهاي تعمیم و فرونشانی1 می باشد.اگرنماینده این متدها را گمنام سازي K_ درنظربگیریم یعنی هررکورد حداقل از K رکورد دیگر غیرقابل تشخیص می باشد.این متدها شامل گمنام سازي K_ ، حساس P_ ، گمنام سازي (A,K)_ ، تراکم T_ ، تمایز L_ ، گمنام سازي شخصی و غیره می باشد.و متدهاي رمزگذاري که براي حل مشکل استفاده اشتراکی از داده ها می باشد این درحالی است که امکان دارد این اشتراك داده ها بین افراد غیرقابل اطمینان ویا حتی رقبا اتفاق بیافتد.درواقع ممکن است شرکابخواهند با یکدیگر همکاري داشته باشند ولی اعتماد کافی به یکدیگر نداشته باشند براي این منظور درمدل توزیع شده براي حفظ حریم شخصی داده ها ازروش هاي رمزنگاري که به دوصورت پارتیشن بندي افقی و عمودي می باشداستفاده می شود. [3,2]
شکل-1دسته بندي متدها و تکنیک ها
-2 ادبیات مروري :
درزیر نمودار درختی (شکل(2جدیدي جهت دسته بندي الگوریتم هاي حفظ حریم شخصی1 ارائه شده است.در این نمودارالگوریتم ها به دو دسته توزیع شده 2 و مرکزي 3تقسیم می شود.درحالت توزیع شده داده در یک مکان ثابت ذخیره نشده بلکه در سایت هاي مختلف ذخیره شده است در این حالت برقراري ارتباط بین این سایت ها گران قیمت است. ولی در حالت مرکزي اطلاعات برروي یک سایت ذخیره شده است .در سطح بعدي مشخص شده که پایگاه داده توزیع شده فقط شامل اشتراك داده بوده یعنی ابتداایمن سازي را روي پایگاه داده اصلی انجام داده سپس با استفاده الگوریتم APRIORI قوانین را استخراج می کند. ولی حالت مرکزي هم حالت اشتراك داده وهم اشتراك الگو مطرح می شود.در اشتراك الگو ابتدا با استفاده از الگوریتم APRIORI قوانین را استخراج کرده سپس مخفی سازي را با استفاده از الگوریتم هاي اشتراك الگو انجام می دهد.در سطح بعدي اشتراك داده شامل مخفی سازي داده4 و اشتراك الگو شامل مخفی سازي داده ومخفی سازي قانون میباشد. مخفی سازي داده ،داده هاي حساس مثل
نام،آدرس و.......است که به نحوي اشاره به فرد مخفی شده دارد درحالی که در مخفی سازي قانون اطلاعات حساس که پس ازاستفاده از الگوریتم هاي داده کاوي بدست می آیندراحذف یا مخفی می کنیم .الگوریتم هاي مخفی سازي به سه گروه دسته بندي ,خوشه بندي, قوانین وابستگی تقسیم می شود.قوانین وابستگی روابط بین آیتم هاي فراوان وقوانین را استخراج می کند.دسته بندي(کلاس بندي) مجموعه اي از مدل ها و توابعی که طبقات دادهایی را تشخیص داده یا توصیف می کنند.خوشه بندي داده هارا تجزیه یا پارتیشن بندي می کند به طوري که داده هاي یک گروه شبیه بوده و از جهات دیگر با سایر گروه ها متفاوت هستند .در سطح بعدي درخت چهارتکنیک متفاوت ایمن سازي ، تحریف، بلوك کردن، تعمیم براي استفاده درمخفی سازي داده ها در پایگاه داده هاي مرکزي معرفی شده است.درتکنیک ایمن سازي حذف یا تغییر آیتم هاي دیتابیس جهت کاهش SUPPORT بعضی از آیتم هاي حساس انجام میگیرد.درتکنیک بلوك بندي جهت مخفی سازي مقدار واقعی داده حساس را با ؟ جایگزین میکند.تکنیک تحریف داده ها با تغییر داده ها از 0 به 1 و بالعکس براي مخفی سازي آیتم هاي حساس استفاده می کند.وتکنیک تعمیم براي مخفی سازي از تبدیل و جایگزینی مقادیر هر رکورد با مقادیرمتناظرآن استفاده می کند.تفاوت دو تکنیک ایمن سازي و تحریف در وجود NULL در تکنیک تحریف و عدم وجود NULL در تکنیک ایمن سازي می باشد.(شکل (3جهت نشان دادن این موضوع در زیر آمده است . درپایگاه داده توزیع شده از تکنیک رمزگذاري استفاده می شود که ضمن به اشتراك گذاري داده ها بین شرکا یا رقیبان طوري آنها را رمزگذاري میکند که از دست رس افراد غیرقابل اطمینان در میان این اشتراك گذاري محافظت شوند.ودر سطح آخر مشخص شده که تحریف به دو صورت انجام می پذیردیکی از طریق تغییرمقدار آیتم از 1 به 0 که به آن حذف آیتم گویندودیگري از طریق تغییر مقدار آیتم از 0 به 1 که به آن افزودن آیتم گویند.وتکنیک تعمیم که به دو صورت پارتیشن بندي افقی وعمودي صورت می گیرد.در پارتیشن بندي افقی سایت هاي مختلف و رکوردهاي مختلف با فیلدهاي یکسان براي اهداف داده کاوي کنار هم قرار می گیرند در حالی که پارتیشن بندي عمودي یا توزیع ناهمگون حاکی از آن است که ویژگی هاي متفاوت (فیلدهاي مختلف)از همان مجموعه داده توسط سایت هاي مختلف جمع آوري می شوند.[4]
شکل-2نمودار درختی روش هاي حفظ حریم شخصی
شکل-3وجه اشتراك سه تکنیک ایمن سازي،تحریف و بلوك بندي
-3مرور مختصري برالگوریتم ها:
الگوریتم DSR :این الگوریتم ابتدا قوانین فراوان را براساس پشتیبانی و اطمینان بدست آورده سپس اولین قانون حساس را انتخاب کرده و تراکنش هایی که آن قانون را پوشش کامل دهد تعیین کرده سپس سمت راست قانون را به ترتیب از آن تراکنش ها حذف کرده تاجایی که اطمینان آن از آستانه کمتر نشده و همچنین تراکنشی جهت حذف وجود دارد، این کار را ادامه می دهد و اگر تراکنشی وجود نداشت و هنوز اطمینان بیشتر از آستانه است پس قانون قابل مخفی سازي نبوده و پایگاه داده را به حالت اولیه بر می گردانیم و قانون حساس بعدي را در نظر می گیریم.[5]