بخشی از مقاله

چکیده

حفظ اطلاعات خصوصی در هنگام فراهم آوردن تجزیه و تحلیل بر روی اطلاعات، یکی از مهم ترین مسائل در سیستم های پردازش تحلیلی آنلاین می باشد. یکی از چالش ها در این میان، جلوگیری از استنتاج موارد حساس از طریق داده های غیر حساس تجمیع شده می باشد. این مقاله الگوریتم جدیدی برای جلوگیری از وقوع مشکل استتناج بواسطه پنهان کردن داده های اضافی و نیز خود اطلاعات حساس، ارائه نموده و ثابت می کند که این اطلاعات اضافی هم ضروری و هم کارآمد می باشند. بر این اساس، این رویکرد می تواند بیشترین اطلاعات محتمل را برای کاربر فراهم نموده و امنیت را هم حفظ نماید. این راهبرد بر روی اجرای آنلاین در سیستم پردازش تحلیلی آنلاین، تاثیر نمی گذارد. تحلیل ها و مقایسه تجربی انجام شده نیز کارآمدی و ممکن بودن پوشش حداقلی ممنوعه را نشان می دهند.

مقدمه

امروزه بحث حفظ حریم خصوصی در پایگاه دادهها و سیستمهای آنلاین بحث مهم و اساسی است. از آن جهت که این سیستمها اطلاعات هزاران نفر را نگهداری میکنند. برای وارد شدن به این مفهوم باید شناخت بیشتری نسبت به این سیستمها داشته باشیم. سیستمهای اطلاعاتی تحلیلی1، در مقابل سیستمهای عملیاتی سیستمهایی هستند که امکان تحلیل دادههای انبوه، حاصل از سیستمهای عملیاتی را برای تمامی سطوح کاربران فراهم میکنند. سیستمهای عملیاتی در سازمانهای بزرگی مانند بانکها که بهصورت روزانه پردازشهای اطلاعاتی فراوانی را به انجام رسانده و به تولید اطلاعات گوناگون میپردازند. بانکهای اطلاعاتی این سازمانها، با دادههای فراوانی حاصل از تراکنشهای مالی، اداری حسابداری و... رو به رو میشوند.

تحلیل و پردازش درست و دقیق اطلاعات عملیاتی میتواند در تولید نتایج آماری در جهت تصمیم گیریهای کلان مدیریتی مؤثر و به مدیران کمک کند تا تصمیمات بهینهای برای موفقیت سازمان خود بگیرند. برای آنالیز و پردازش این اطلاعات و تسهیل و سرعت بخشیدن به عملیات گزارش گیری و پرس و جوهای متنوع بهجای تحلیل مستقیم دادهها از درون سیستمهای عملیاتی، از سیستمها و پایگاه دادههای تحلیلی استفاده میشود که خارج از حوزه سیستمهای عملیاتی قرار داشته و سرعت بسیار بالایی دارند .

- Cuzzocrea, 2012 - پایگاه دادههای تحلیلی2 از منابع دادهای متفاوت یک سازمان و یا حتی چندین سازمان و ارگان وابسته به هم تهیه میشود. این پایگاه داده بستر مناسبی را فراهم میآورد که دادههای بایگانی شده در سیستمهای عملیاتی و مستقل از هم و بهصورت مجتمع، خلاصه شده و یکپارچه و سازمان یافته در آمده و برای استخراج مناسب اطلاعات در دسترس مدیران قرار میگیرد - . - Giannotti et al, 2013 پردازش تحلیلی برخط - OLAP - 3 یکی از محبوبترین تکنیکهای پشتیبانی از تصمیم گیری در سیستمهای هوش تجاری است. با این حال، این یک چالش بزرگ انجام این تحلیلها بر روی در دادههای خصوصی بدون نقض حریم خصوصی صاحبان این دادههاست.

پردازش تحلیلی بر خط و داده کاوی با استخراج موفقیتآمیز اطلاعات، دانش مورد نیاز برای استفاده در زمینههای مختلف از جمله، بازاریابی، هواشناسی، تحلیلهای پزشکی و امنیت ملی را فراهم میسازد، ولی هنوز هیچ تضمینی ارائه نشده است که بتوان دادههای خاصی را مورد ارزیابی قرار داد؛ بدون آنکه به حریم خصوصی مالک آن اطلاعات تجاوز کرد - . - Agrawal and Sirkant, 2013 برای مثال، در یک سیستم پزشکی، نحوه انجام پردازش تحلیلی بر روی اطلاعات خصوصی بیماران بدون افشای آن اطلاعات، یکی از مسائلی است که با آن روبهرو هستیم.

ارگانهایی نظیر سازمان بیمه سلامتی و بررسی وضع بهداشت در ایالاتمتحده و سازمان مدیریت داده و سیستمهای تحلیلی در اتحادیه اروپا، با درک حساسیتهای به وجود آمده در این زمینه، مجموعهای از قوانین اجباری را در زمینه مدیریت داده و تحلیل سیستمها پدید آوردهاند. این نوع نگرانیها، بهموازات گسترش استفاده از سیستمهای تحلیل داده افزایش مییابند. این مقاله یک الگوریتم جدید برای جلوگیری از وقوع مشکل استتناج بواسطه پنهان کردن داده های اضافی و نیز خود اطلاعات حساس، ارائه نموده و ثابت م یکند که این اطلاعات اضافی هم ضروری و هم کارآمد می باشند. بر این اساس، این رویکرد می تواند بیشترین اطلاعات محتمل را برای کاربر فراهم نموده و امنیت را هم حفظ نماید.

پردازش تحلیلی آنلاین یک زیرساخت مهم برای تحلیل داده های پیشرفته و کشف دانش می باشد. در حالیکه اکثر تحقیقات پیشین در مورد پردازش تحلیلی آنلاین بر روی مدل های این نوع پردازش، ساختِ مکعب داده ها و انبار داده ها، روش های نگهداری و تراکم و نیز روش های کارآمد پاسخگویی به جستجو تمرکز نموده اند. اما در مقابل تمام این مسایل مساله مهم این است که مشکل حفظ حریم خصوصی در پاسخگویی به زبان پرس و جوی پردازش تحلیلی آنلاین، مورد بررسی قرار گیرد - . - Ioannidis et al, 2014 برای روشن شدن این موضوع و همچنین برای درک اهمیت این موضوع در بخش زیر مثالی بیان می گردد.

فرض کنید که بیمارستانها نمیخواهند جمعیت بیماریهای فردی را بهصورت عمومی اعلام کرده اما موافقت کرده تا تعداد کل همه موارد را در یک بیمارستان یا تعداد کل یک بیماری خاص در همه بیمارستانها را به اشتراک بگذارند. این همان چیزی است که در مکعب دادهها بر مبنای شکل 1، مقدار سلولهای <f,l>، <f,d>، <m,d> و <m,h> باید پنهان شده و در معرض کاربران قرار نگیرند - همانگونه که شکل 1 نشان داده شده، <f, l> مربوط به سلول >فارست - - Forst، سرطان ریه - < - Lung Cancer بوده و بدین ترتیب برای دیگر سلولها هم چنین چیزی وجود دارد - . یک سیاست گذاری ساده و مستقیم، کاهش همه دسترسیها به سلولهای حساس میباشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید