بخشی از مقاله

چکیده

 حریم خصوصی تفاضلی یک مدل توسعه یافته برای انتشار اطلاعات حساس، درحالیکه حریم خصوصی حفاظت میشود.روشهای زیادی برای اجرای حریم خصوصی تفاضلی به نمایش گذاشته شده است، که یکی از این روشها تجزیه و تحلیل رگرسیون است. راهحلهای زیادی برای تجزیه و تحلیل رگرسیون وجود دارد و چون ما در این مقاله میخواهیم دادههای بانک را مورد ارزیابی قرار دهیم به یک روشی نیاز داریم تا بهترین جواب با بهترین دقت و بیشترین امنیت را در پی داشته باشد.

در این مقاله یک روش حفظ حریم خصوصی برای کلاس بزرگی از تجزیه و تحلیل مبتنی بر بهینه سازی مطرح شده است. تفاوت این روش با دیگر روشها در اضافه کردن نویز به تابع هدف به جای نتایج است. ما این روش را به دو مدل رگرسیون به نامهای رگرسیون خطی و رگرسیون لجیستیک که بیشترین استفاده را در تجزیه و تحلیل رگرسیون دارند اعمال کردهایم. ما این روش را بر روی داده های بانک پاسارگاد پیادهسازی کردهایم. نتایج نشان میدهد این روش بسیار موثر و مناسب است وبه صورت قابل توجهی نسبت به راهحلهای موجود بهتر است.

کلید واژه- حریم خصوصی تفاضلی، رگرسیون، داده های بانک، داده های بزرگ، داده کاوی.

-1 مقدمه

حرکت اخیر سازمانها، به ویژه سازمانهای پولی- مالی به سمت جامعه اطلاعاتی و نقش موثر و تحول آفرین فناوری اطلاعات در این زمینه باعث شده است بانکها به عنوان نهاد مالی و اعتباری مهم در هر نظام اقتصادی برای بقای خود در عصر اطلاعات، استانداردسازی امنیت اطلاعات را برای اجرای موثر و مناسب جدی بگیرند.بدیهی است رابطه میان سودآوری یک بانک و ریسک حاکم برآن، یک رابطه تعیین کننده است. لذا؛ سود یک بانک که ازتعامل مستمر با مشتریانش به دست میآید، موضوعی است که امروزه برای تمامی واحدهای اقتصادی تعیین کننده است، زیرا مشتریانی به سمت یک بانک روی میآورند که علاوه براطمینان بیشتر از اطلاعات و عملیات بانکی، سودآوری خود را نیز تضمین شده بدانند.

اطلاعات یکی از مهمترین سرمایههای بانکها و موسسات مالی است. حفاظت از اطلاعات برای ایجاد و حفظ اعتماد بین بانک و مشتریان آن ضروری است. اطلاعات بموقع و معتبر برای اجرای معاملات و پشتیبانی از موسسه مالی وتصمیمات مشتری لازم است. چنانچه اطلاعات برای طرفی غیرمجاز فاش شده و تغییر داده شوند یا در صورت نیاز در دسترس نباشند درآمدها و سرمایه یک بانک میتوانند بطور زیادی تحت تاثیر واقع شوند. انتشار اطلاعات حساس مثل داده-های بانکی درحالیکه امنیت آنها حفظ شود یک موضوعی است در دهههای گذشته بسیار مورد مطالعه قرار گرفته است.

یک روش برای حل این مشکل حریم خصوصی تفاضلی است که با اضافه کردن نویز به نتایج آماری محاسبه شده از دادههای حساس کار میکند، به این صورت که دادههای نویزی شده را به صورت نسبی در بین دادههای غیر حساس، در مجموع داده کلی توزیع میکنیم. این کار این اطمینان را حاصل میکند که دشمن نمیتواند به دادههای حساس ما دسترسی پیدا کند حتی اگر تمام تاپلهای باقی مانده را دسترس داشته باشد. بنابراین داده-های نویزی باید بسیار شبیه به نمونههای دستکاری نشده باشند تا بتوانند مورد استفاده قرار بگیرند. از این رو، هدف حریم خصوصی تفاضلی این است که دقت نتایج را به حداکثر برساند، درحالیکه حریم خصوصی دادهها حفظ شود. بهترین استراتژی برای اجرای حریم خصوصی تفاضلی بستگی به ماهیت تجزیه و تحلیلی دارد که قرار است بر روی دادههای نویزی شده صوت گیرد. در این مقاله ما بر روی تجزیه و تحلیل رگرسیون تمرکز کردهایم، که همبستگی بین صفات مختلف مبتنی بر داده ورودی را شناسایی میکند.

-2 کارهای مرتبط

در این قسمت یک بررسی اجمالی بر روی دادههای بزرگ، رایانش ابری، حریم خصوصی تفاضلی و کارهای مرتبط با آنها که در سالهای گذشته توسط دیگر محققان مورد جستجو قرار گرفتهاند خواهیم داشت.

-1-2

انسانها در سراسر جهان به صورت مستمر درحال تولید و انتشار اطلاعات ازخودشان بر روی اینترنت هستند. حدود 90 درصد از اطلاعات کل جهان در طول دوسال گذشته تولید و مورد استفاده قرار گرفته است. همه این اطلاعات از منابع مختلفی مانند تلفن-های هوشمند، شبکههای اجتماعی، تصاویر و ویدئوهای دیجیتال، سوابق پزشکی، پیامهای تووئیتر، سوابق تراکنشهای خرید و ...بهوجود آمده است. حجم زیادی از دادهها در هر ثانیه بهتنهایی فقط از دستگاههای موبایل بوجود میآیند. نرخ تولید داده به سرعت درحال افزایش است که این رسیدگی به این حجم از اطلاعات با استفاده از سیستمها و روشهای سنتی بسیار سخت است.

دادههای بزرگ کلمهای برای هر مجموعه از دیتاستهای بزرگ و پیچیده است که ابزارهای مدیریت داده و برنامههای پردازش دادههای سنتی بهسختی بتوانند فرایند پردازش و مدیریت آنها را در یک مدت زمان مشخص انجام دهند. مهم نیست که سیستم کامپیوتر چقدر قدرتمند و بزرگ باشد، قطعا زمانیکه دادههای بزرگ بیایند با محدودیتهایی روبرو خواهند شد. مفهوم دادههای بزرگ ممکن است برای افراد و سازمانهای مختلف از لحاظ قدرت و یا ظرفیت برای نگهداری و پردازش آن متفاوت باشد، بهعنوان مثال برای بعضی از سازمانها مواجه شدن با صدها گیگابایت از اطلاعات در ابتدای کار ممکن است نیاز به بازنگری در جزئیات مدیریت داده داشته باشد، ولی برای بعضی سازمانهای دیگر ممکن است دهها یا صدها ترابیات داده یک ملاحظه قابل توجه نیاز داشته باشد.[1]

دادههای بزرگ فقط به مفهوم حجم اطلاعات اشاره ندارد بلکه به پیچیدگی فرایند پردازش اطلاعات نیز میتواند دلالت داشته باشد. بدون تجزیه و تحلیل کردن داده دادههای بزرگ فقط گروهی از داده است. چون ابزارهای تجزیه و تحلیل سنتی قادر به تحلیل دادههای بزرگ نیستند بهترین روش استفاده از رایانش ابری و ابزارهای آن میباشد. در بخش بعدی به تعریف رایانش ابری، مزایا و معایب آن برای استفاده در بانک خواهیم پرداخت.با توسعه تکنولوژی، اینترنت وارد زندگی روزمره انسانها شده است. در همان زمان، رایانش ابری مورد توجه هم صنعت فناوری اطلاعات و هم کاربران عادی به علت مزایایی که ارائه میکند، قرار گفته است.

رایانش ابری در طی چند سال اخیر رشد کرده است و به نظر می-رسد همه چیز در حال انتقال به ابر است. سوباشینی و کویتها در [2] رایانش ابری را به صورت " رایانش ابری یک راهی برای افزایش ظرفیت یا اضافه کردن امکانات پویا بدون سرمایه گزاری زیرساخت جدید ، آموزش افراد جدید یا خریدن نرم افزار جدید است " تعریف کرده است. این ایده برای کاهش بار موجود در طرف مشتری بوسیله ارسال آن به زیرساخت به اشتراک گذاشته شده است. موسسه ملی استاندارد و فناوری - NIST - رایانش ابری را در زیر تعریف کرده است ":[3]

رایانش ابری یک مدل برای فعال بودن در همه جا، مناسب، دسترسی شبکه مورد تقاضا به یک منبع اشتراکی از منابع رایانش قابل تنظیم - مثل شبکه ها ، سرورهاو ... - است ،که بتواند به سرعت و با کمترین تلاش مدیریتی یا تعامل با فراهم کننده سرویس، فراهم و منتشرشود" . نام " ابر" از این امر گرفته شده است که کاربران هیچ ایدهای ندارند که دادههایشان دقیقا کجا قرار دارد و چه نوع فرایندی قرار است بر روی آن اتفاق بیفتد. در حقیقت ، داده پراکنده شده و در یک مکان چندگانه در میان شبکه در جهان پردازش شده است.

از یک طرف ، یک کاربر ابر نیاز نیست تا محافظت کند و یا آگاه باشد که چه نوع جزئیات فنی در محیط ابری اعمال شده است، در حالی که او از محاسبات قدرتمند ابر بهره می برد. از طرف دیگر او تمام کنترل بر روی دادههای حساسش را از دست میدهد و نمیداند دقیقا چه کسی، چه محاسباتی را بر روی داده هایش اجرا میکند.[4] برای نگهداری و رسیدن به کارایی بهتر در آینده، بانک ها باید دو دگرگونی اساسی را پذیرفته و بر آن مسلط شوند:

.1 در تغییر دادن پیشنهاد محصول، سرویسهای مشتری که بهتر است حقیقتی که مصرف کننده میخواهد آن را کنترل کند، منعکس کند.

.2 بازسازی هسته عملیات بانکی برای فعال سازی یک مدل اقتصاد رقابتی مناسب و تجارت قابل تحمل است.

دلایلی زیادی برای حرکت بانکها به سمت ابر وجود دارد اما دلیل بسیار مهم حجم زیاد برنامه های کاربردی است. با استفاده از ابر، سازمانهای بانکداری فقط برای سرویسهایی که استفاده میکنند پول پرداخت میکنند. این کار بسیار آسانتر و مناسبتر برای امتحان کردن برنامههای جدید بر روی ابر است تا آنها را بر روی سیستمهای سنتی امتحان کنیم.[5]یک سازمان بانکداری نیاز نیست تا کامپیوترها و منابع سخت افزاری را برای ذخیره سازی توسعه دهد، همچنین نیاز نیست تا برنامههای نرمافزاری را جداگانه نصب کند یا هر هزینه ای برای آن پرداخت کند، چون همه این حالتها از طریق فراهم کننده سرویس آماده شده است. بنابراین، رایانش ابری صرف نظر از کم کردن هزینهها، یک تاثیر شگرف بر روی بانکها دارد.

یک مشکل اصلی و مهم ارتباط با ابر، امنیت و حریم خصوصی داده است که یه عنوان یک نگرانی مهم درباره اجرای آن در بخش بانکداری، بر اساس تحقیقات زیاد باقی مانده است. ترس از داشتن داده بر روی ابر، بزرگترین مانع است که رهبران بانکداری باید بر آن غلبه کنند تا اعتماد و اطمینان را برپا کنند و به مزایای رایانش ابری دست پیدا کنند. مدیران فناوری اطلاعات نگرانند که دادههای ابری آنها دزدیده شوند یا توسط هکرها با یک نقشه خیانت آمیز مواجه شوند. ما برای غلبه بر این نگرانی از الگوریتمهای حریم خصوصی تفاضلی برای حفظ حریم خصوصی و امنیت دادهها استفاده میکنیم. در بخش بعدی در مورد این الگوریتمها بحث خواهیم کرد.

یکی از چالشهای اصلی که ما با آن مواجه هستیم حفاظت اطلاعات دربرابر هر نوع دسترسی غیرمجاز همچنین خطر فاش شدن اطلاعات در طول تحلیل داده است. بنابراین ما به یک تعریف محکم و مناسب از حریم خصوصی نیاز داریم که نهایتا مستقل از حضور یا عدم حضور اطلاعات افراد درون یک دیتاست باشد و همچنین صرف نظر از هر اطلاعات کمکی و خارجی که یک حمله کننده ممکن است از منابع دیگر بدست بیاورد. یعنی، هرچیز یک متجاوز میتواند از دیتاست بفهمد وقتی که یک داده شخصی شامل تقریبا همان داده، بدون داده خودش باشد . در [6]،[7 ]،[8]،[9] ، یک مفهوم از حریم خصوصی که یک ضمانت قوی بر روی تولید نتایج از محاسبات کلی مستقل از اینکه داده اصلی در دیتاست هست یا نه فراهم میکند در حالیکه به سودمندی خوب دست پیدا کند. 

برای حفاظت از حریم خصوصی از طریق این روش، خروجی یکی از محاسبات دستکاری شده-است و سپس نتایج دستکاری شده به جستجو بازگردانده می-شود، کسی ممکن است بخواهد تا اطلاعات شرکت کنندگان راحدس بزند. ایده حریم خصوصی تفاضلی اضافه کردن نویز مناسب به خروجی است بنابراین یک حمله کننده قادر نیست تا اطلاعات مفید درباره خروجی را بوسیله انتشار خروجیهای جستجوهای جمع آوری شده یاد بگیرد. در حقیقت ، ما می-گوییم که یک محاسبه تفاضلی خصوصی است اگر احتمال تولید یک خروجی وابسته به این نباشد که چه یک آیتم ورودی درون دیتاست باشد چه نباشد.

حریم خصوصی تفاضلی صاحب داده را مطمئن میکند که از داده های خصوصی افرادش در برابر فاش شدن بوسیله پنهان شدن حضور یا عدم حضور هر شرکت کننده در دیتاست جلوگیری کند.بنابراین ، با وصل شدن یا قطع شدن از دیتاست هیچ اتفاقی در فقدان حریم خصوصی نمیافتد.[6]حریم خصوصی تفاضلی از ابتدا توسط دیورک و همکارانش در سال 2006 مطرح شد .[6 ] برای رسیدن به این، آنها مکانیسم لاپلاس [10] را یک مقدار مناسب از نویز لاپلاس تصادفی را به خروجی اضافه میشد را تعریف کردند. دیورک در گفتههایش در [11] گفته است که "من در پایگاه داده حضور دارم اما هیچکس نمیداند"، این مفهوم از حریم خصوصی را پیشنهاد داده است تا به تحلیلگران اجازه دسترسی به یک دیتاست حساس را بدهد و جستجوها را بر روی آن بدون آشکار شدن اطلاعات خصوصی شرکت کنندگان اجرا کنند.

این همچنین از عهده تمام اطلاعات کمکی در پایگاه داده های گذشته، حال و آینده نیز برآمده است. مکانیسم لاپلاس فقط برای محاسباتی که خروجی عددی تولید میکنند قابل اعمال است، بنابراین چطور جواب مطمئنی به جستجوهای غیرعددی در این روش خواهد داد؟ برای بررسی این مشکل مک شری و تیلور یک مکانیسم نمایی توسعه داده اند [12]، که برای پشتیبانی محاسبات خصوصی تفاضلی بر روی دامنه ها و محدوده دلخواه طراحی شده است. مکانیسم نمایی یک دیتاست D، محدوده خروجی T، پارامتر حریم خصوصی ، و یک تابع سودمندی را میگیرد : تابع سودمندی هر خروجی t وابسته به محدوده T را به یک امتیاز مقدار واقعی اختصاص می-دهد ، جایی که امتیاز بیشتر باشد یعنی سودمندی نیز بهتر است.

آنها نشان دادهاند که، در بعضی حالات مثل نظریه بازی، حریم خصوصی تفاضلی میتواند به عنوان یک راه حل کلیدی برای بدست آوردن ضمانت درنظر گرفته شود و آن غیر محتمل است تا با استفاده از مکانیسم نمایی نتایج ناخواستهای داشته باشد. هان و همکارانش [13] از مکانیسم نمایی گفته شده برای نشان دادن یک الگوریتم برای ارتقا حریم خصوصی تفاضلی استفاده کرده است. آنها آنرا DifJMR نامیدند و هدف استفاده آن در k جستجوی اول پردازش است. این الگوریتم مکانیسم

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید