بخشی از مقاله
چکیده
هدف از این مقاله ارائه روشی جدید، برای حفظ حریم خصوصی در پایگاه دادههای برونسپاری شده است. در این مقاله برای تضمین حریم خصوصی و امنیت بالا، اقلام را با استفاده از توابع تولید اعداد شبه تصادفی معکوسپذیر رمز می کنیم و بر اساس معیار حمایت، اقلام را با الگوریتم ژنتیک خوشهبندی می نماییم. در نهایت برای اینکه اقلام رمزشده در برابر حملات محافظت شوند، تراکنشهای جعلی را برای هر خوشه با استفاده از توابع تولید اعداد شبهتصادفی تولید می کنیم و پایگاه داده رمز شده را برون سپاری می نماییم. آزمایش ها بر روی یک پایگاه داده واقعی نشان میدهد که روش پیشنهادی در مقایسه با روشهای مشابه از جمله روش Rob Frugal، از سربار حافظه کمتری برخوردار است و حفظ حریم خصوصی در این روش بهبود می یابد.
کلید واژه- الگوریتم ژنتیک، برونسپاری، حفظ حریم خصوصی، خوشهبندی، شبهتصادفی.
.1 مقدمه
با ظهور محاسبات ابری و مدل خود برای فناوری اطلاعات بر اساس خدمات اینترنت و مراکز داده بزرگ، برون سپاری از اطلاعات و خدمات محاسباتی دستیابی به یک ارتباط جدید است، که انتظار میرود در آیندهای نزدیک به سرعت بالا برود. بنابراین، همان طور که محبوبیت محاسبات ابری رشد میکند، الگوی استخراج و مدیریت دادهها به عنوان سرویس احتمالا افزایش خواهد یافت. این الگوی داده کاوی به عنوان یک سرویس است که با هدف قادر ساختن سازمان با منابع محاسباتی و یا تخصص داده کاوی محدود، نیاز به یک ارائه دهنده خدمات شخص ثالث برای برون سپاری داده کاوی خود دارد.
یکی از مسائل امنیتی اصلی این است که سرور دسترسی به اطلاعات ارزشمند از مالک را دارد و ممکن است اطلاعات حساس از آن را یاد بگیرد. این مساله حفاظت از اطلاعات مهم خصوصی از سازمانها / شرکتها به عنوان حریم خصوصی شرکتهای بزرگ اشاره میکند.در این مقاله مساله برون سپاری کاوش قوانین انجمنی در چارچوب حفظ حریم خصوصی شرکتهای بزرگ را مطالعه میکنیم. ما یک مدل حمله مبتنی بر تکرار را اتخاذ کردهایم که در آن سرور مجموعهای دقیق از اقلام در دادههای مالک را میداند و علاوه بر این، حمایت دقیق از هر قلم در دادههای اصلی آن را نیز میداند . مالک داده رمز گذاری دادههای خود را با استفاده از ماژول رمزگذاری/ رمزگشایی - E/D - انجام میدهد.
ماژول E/D مسئول تغییر دادههای ورودی به یک پایگاه داده رمز شده است . سرور داده کاوی را انجام میدهد و الگوهای رمز شده را به مالک ارسال میکند. ماژول E/D هویت واقعی از الگوهای بازگشتی و همچنین حمایت واقعی خود را بازیابی میکند. بدیهی است که اگر دادهها با استفاده از رمز جایگزینی یک به یک - بدون استفاده از تراکنش جعلی - رمزشده، بسیاری از رمزها و از این رو تراکنشها و الگوها میتواند توسط سرور با احتمال بالا با حمله بر اساس تکرار شکسته شود. بنابراین، تمرکز اصلی این مقاله به درست کردن طرحهای رمزگذاری به طوری که تضمینهای حریم خصوصی رسمی را میتوان در برابر حملات انجام شده توسط سرور با استفاده از دانش پیشین اثبات کرد، در حالی که منابع مورد نیاز را تحت کنترل قرار دهد.
امنیت و حریم خصوصی به عنوان بالاترین نگرانی در رایانش ابری مطرح است زیرا ذخیره سازی و پردازش دادههای حساس به وسیلهی خود مشتری کنترل میشوند. لذا باید حریم خصوصی دادهها توسط ابر و تحت یک خدمت با کمترین هزینهی اضافی ارائه شود. مالک پایگاه داده ابری قادر است، پایگاه داده خود را به منظور اشتراک اطلاعات و دسترسی کاربران به منبع ذخیره سازی، در اختیار کاربران قرار دهد تا آنها بتوانند اطلاعات مفید مربوط به خود را از طریق تکنیکهای داده کاوی استخراج کنند. اما اگر مالک پایگاه داده قبل از به اشتراکگذاری پایگاه داده، اطلاعات را پنهان نکند، کاربران میتوانند با استفاده از تکنیکهای داده کاوی به اطلاعات محرمانه مالک و دیگر کاربران پایگاه داده، دسترسی یابند.
با توجه به اینکه چالشهای امنیتی مهم در مقوله به اشتراک گذاری داده ها، هم از جانب کاربران و هم از طرف ارائه دهندگان خدمات ابری وجود دارد از این رو، یک سیستم مطمئن جهت تضمین اشتراک دادهها از طریق ارائه دهندگان ابری، ضروری میباشد. لذا حفظ حریم خصوصی در داده کاوی یک موضوع مهم در زمینه داده کاوی و امنیت پایگاه داده محسوب میشود.در این مقاله پس از بررسی مفاهیم اولیه و مسائل پیش زمینهای در مقدمه، در بخش دوم کارهای مرتبط با روشهای رمزنگاری و استخراج قوانین انجمنی را بررسی می کنیم، سپس در بخش سوم مقاله، روش پیشنهادی را به اختصار بیان نموده و پس از معرفی معیارهای ارزیابی و ارزیابی روش پیشنهادی در بخش چهارم، در نهایت در بخش پنجم نتیجه گیری مقاله بیان می شود.
.2 مروری ادبیات
در مرجع [1] با هدف بررسی امنیت و هزینههای مرتبط با استخراج قوانین انجمنی برون سپاری به این موضوع میپردازد. اثبات میکند که چگونه برنامه کدگذاری را بدون استفاده از اطلاعات خاص زمینه و کاهش امنیت به نگاشت یک به یک متوقف کند. مفهوم سختگیرانهتری از امنیت را بجای استفاده و کاربرد آن ارائه میکند.در مرجع [2]، روش حمایت گمنامی سطح k، شیوه جدیدی برای حفظ حریم دادههای برون سپاری شده میباشد که پیشنهاد میکند تا هر قلم دارای اهمیت با دیگر اقلام k-1 با حمایت مشابه حفاظت شود و برای دستیابی به این روش، درخت شبه ردهبندی را معرفی کردهاند که این دارای شخص سومی است که مجموعه اقلام تکراری عمومی را تحت قوانین انجمنی تعمیم یافته متناظر، بجای قوانین انجمنی کاوش و استخراج میکند.
چالش این روش این است که چگونه درخت شبه ردهبندی برای تسهیل حمایت گمنامی سطح k ایجاد شود و حفاظت از مجموعه اقلام تکراری اصلی تضمین نشود.در مرجع [3] با هدف بررسی مساله کاوش داده از برون سپاری قوانین انجمنی در چارچوب حفظ حریم خصوصی شرکتهای بزرگ، یک مدل حمله بر اساس دانش پس زمینه را پیشنهاد میکند و یک طرح برای حفظ حریم خصوصی کاوش برون سپاری شده توصیه میشود. طرح [3] تضمین میکند که هر یک از قلم تغییر شکل یافته، با توجه به دانش پسزمینه مهاجم، از حداقل k-1 اقلام تغییر شکل داده شده غیر قابل تشخیص باشد. نتایج [3] نشان میدهد که روش [3]، در برابر یک حمله خصمانه براساس اقلام اصلی و حمایت دقیقشان، قوی است.
الگوریتم [3] به علت جستجویکامل در فضای مسئله بهینه نمی باشد و همچنین از وابستگیای داخلی هر خوشه برای تولید تراکنش جعلی استفاده شده که به مهاجم فرصت تشخیص تراکنش اصلی را میدهد و این خود یک راه نفوذ به سیستم است.در مرجع [4] به بررسی رمز کردن دادهها با الگوریتم رمزنگاری پرداخته اند. در [4] بلوک دیاگرام شکل 1 روند رمزگذاری را نشان میدهد. نمودار شامل برش، جهش و دنباله اعداد شبه تصادفی میباشد. در ادامه به تشریح فرایند بخش رمزنگاری و سپس رمزگشایی می پردازیم.
فرایند رمزنگاری
-1 تبدیل فایل به دنبالههای دودویی و تقسیم دنباله حاوی'N' بیت در هر بلوک. مقدار 'N' یک کلید مخفی است.
-2 تولید اولین دنباله شبه تصادفی از اعداد و باقیمانده دنباله بر عدد 3 برای انتخاب هر یک از سه عملیات برش، و براساس نتیجه بدست آمده، میتوانیم یکی از گزینههای زیر را انتخاب میکنیم: - 0 برش یک نقطه - 1 برش یکسان - 2 برش دو نقطه عملیات برش در هر بلوک از ارقام دودویی استفاده خواهد