بخشی از مقاله
چکیده
تشخیص اصالت اسکناس یکی از جنبه های مهم در صنعت پولی کشور محسوب می شود. امروزه با توجه به وجود دستگاه های مختلف کپی و پویشگر، امکان تولید اسکناس های تقلبی بسیار بالا رفته است. تشخیص اصالت اسکناس با استفاده از روش های شناسایی الگو می تواند کمک شایانی به کشف تقلب در این حوزه نماید. این مقاله به ارائه یک روش جدید جهت تشخیص اصالت اسکناس با استفاده از تصاویر گرفته شده از اسکناس ها پرداخته است. به این منظور در ابتدا، از هر تصویر مقادیر ویژگی های مربوط به تبدیل موجک استخراج شده است. سپس از سه روش تشخیص ناهنجاری مبتنی بر خوشه بندی، فاکتور ناهنجاری محلی، فاکتور ناهنجاری چگالی محلی و فاکتور ناهنجاری گوسین چند متغیره استفاده شده است. بهترین کارایی با استفاده از روش فاکتور ناهنجاری گوسین چند متغیره با مقدار AUC برابر 1 بدست آمده است. نتایج این پژوهش می تواند در ساخت یک سیستم اصالت سنج اسکناس مورد استفاده قرار گیرد.
-1 مقدمه
در دنیای امروز حصول اطمینان از صحت سندهای امنیتی به ویژه اسکناس یک نگرانی عمده برای بانک های مرکزی و موسسات مالی و پولی به منظور حفظ ثبات اقتصادی در دنیا محسوب می شود. با پیشرفت روز افزون تکنولوژی انواع مختلفی از دستگاه های تشخیص اسکناس در بازار وجود دارد که ابزارهای بسیار مفیدی برای تایید صحت اسکناس بدون دخالت انسان محسوب می شوند. از طرفی باید این حقیقت را پذیرفت که پیشرفت های اخیر در صنعت ماشین های کپی و پویشگرها می تواند موجبات تولید اسکناس های تقلبی را فراهم کند. از این رو به ابزاری برای تشخیص اسکناس های تقلبی نیاز داریم. تشخیص اصالت اسکناس با استفاده از روش های شناسایی الگو به صورت خودکار می تواند کمک شایانی به افراد در تشخیص اسکناس های تقلبی از غیر تقلبی نماید.
تاکنون روش های مختلفی برای این کار پیشنهاد شده است که از این میان استفاده از شبکه های عصبی مورد توجه زیادی قرار گرفته است. استفاده ازشبکهی پرسپترون چند لایه - MLP - در تشخیص اسکناس یورو [1] از این جمله است. همچنین در مقاله ی دیگری[2] از مفهوم زنجیر مارکوف برای مدل کردن بافت اسکناس به صورت یک فرایند تصادفی استفاده شده است . تکدا و همکارانش[3] نیز توانستند با استفاده از بهینه سازی ماسک های متقارن بوسیله ی ترکیب الگوریتم ژنتیک و شبکه های عصبی ویژگی های اسکناس ها را استخراج کنند. در این مقاله با بهره جستن از دانش داده کاوی و استفاده از ابزارهای تشخیص ناهنجاری1 روشی ارائه دادیم تا بتوان با استفاده از تکنیک های پردازش تصویر و ویژگی های تبدیل موجک2 تصویر مورد نظر، اسکناس واقعی را از تقلبی تشخیص داد. هدف از این پژوهش، بررسی کارایی روش های تشخیص ناهنجاری مبتنی بر خوشه بندی در تشخیص اصالت اسکناس می باشد. به این منظور سه روش تشخیص ناهنجاری مبتنی بر خوشه بندی مورد مقایسه قرار گرفته است. این کار اولین تلاش در زمینه ی تشخیص ناهنجاری در اسکناس مبتنی بر تبدیل موجک است. این مقاله به صورت زیر سازماندهی شده است. در ابتدا ناهنجاری و الگوریتم های تشخیص آن توضیح داده شده است. سپس روش پیشنهادی معرفی شده و در نهایت نتایج آزمایشات مورد بحث قرار گرفته است.
-2 ناهنجاری و انواع آن
ناهنجاری، الگویی از داده هاست که با مفهوم رفتار نرمال مطابقت ندارد. شکل 1 ناهنجاری های موجود در یک مجموعه داده ی دو بعدی ساده را نشان می دهد. داده ها در دو بخش نرمال N1 و N2 توزیع شده اند به طوری که اکثریت داده ها در این دو بخش قرار دارند. نقاطی که از این دو ناحیه دور هستند مثل o1 و o2 و نقاط موجود در ناحیه O3 ناهنجاری محسوب می شوند. در زمینه تشخیص ناهنجاری به این حیطه معطوف می باشد. برای مثال نقاط o1 و o2 و تمام نقاط ناحیه ی O3 در شکل 1 خارج از محدوده ی نرمال داده ها قرار دارند و ناهنجاری نقطه ای هستند.
2-2 ناهنجاری متنی4
اگر نمونه ای از داده ها در زمینه ی یک مفهوم مشخص، ناهنجاری باشد درحالی که در سایر موقعیتها ناهنجاری به حساب نمی آید به آن ناهنجاری متنی گفته می شود. به این مفهوم "ناهنجاری شرطی" هم گفته می شود. ناهنجاری متنی بیشتر در داده های سری زمانی[5] و داده های فضایی[6] رخ می دهد. شکل 2 نمونه ای از آن را برای داده های سری زمانی درجه حرارت نشان میدهد. در این شکل دمای هوا بصورت ماهیانه در طول چند سال نشان داده شده است. دمای 35 درجه فارنهایت ممکن است در زمستان - در زمان - t1 معمول باشد ولی همین مقدار در تابستان - در زمان - t2 ناهنجاری محسوب می شود.
شکل :1 یک مثال ساده از ناهنجاری های یک مجموعه داده ی دو بعدی ساده [4]
یک بحث مهم در تکنیک های تشخیص ناهنجاری این است که انواع ناهنجاری های ممکن در داده ها را بشناسیم. انواع ناهنجاری می تواند در سه دسته ی زیر طبقه بندی شود:[4]
2-1 ناهنجاری نقطه ای3
به انحراف داده های انفرادی از مجموعه ی داده ها، ناهنجاری نقطه ای گفته می شود. این ساده ترین نوع ناهنجاری است که توجه اکثر تحقیقات
شکل :2 ناهنجاری متنی t2 در سری زمانی درجه حرارت[4]
توجه داشته باشید که دمای زمان t1 همان دمای زمان t2 است، اما از آنجا که در شرایط جدیدی رخ داده است، در زمان t2 ناهنجاری محسوب می شود.
2-3 ناهنجاری انبوه5
اگر مجموعه ای از نمونه های داده ای مربوط به هم، با توجه به کل داده های موجود، ناهنجاری باشند به آنها ناهنجاری انبوه می گوییم. نمونه های تکی موجود در ناهنجاری انبوه لزوماً خود به تنهایی ناهنجاری نیستند و رخ دادن مجموعه ای از داده ها با هم منجر به ناهنجاری انبوه می شود. شکل 3 نمونه ای از خروجی نوار قلب انسان را نشان می دهد که نقاطی که با فلش به آن اشاره شده نشان دهنده ی ناهنجاری انبوه است. زیرا مقادیر کم موجود در این نقاط به علت طولانی شدن غیر طبیعی زمان رخداد آن - مربوط به انقباض زودرس دهلیزی - ناهنجاری محسوب می شود. توجه کنید که این مقادیر کم خود به تنهایی ناهنجاری نیستند.
-3 تشخیص ناهنجاری
به روند پیدا کردن الگوهایی در مجموعه ی داده ها که خصوصیات آنها از ویژگی های اکثریت موجودیت ها متفاوت است، تشخیص ناهنجاری گفته می شود. به این الگوهای مشخص، ناهنجاری، دادهی پرت1، نفوذ2، استثنا3 یا تقلب4 هم گفته می شود. از تشخیص ناهنجاری به عنوان زیر مجموعه ای از دانش داده کاوی و یادگیری ماشین یاد می کنند. اولین تلاش ها برای تشخیص ناهنجاری به دهه ی 1970 میلادی برمی گردد. محققان سعی داشتند تا با حذف داده های نادرست و نویزها از داده های خود، از صحت داده ها و تناسب آن با مدل های خود اطمینان حاصل کنند. در آن دوره، آزمون گرابز[7] شناخته ترین الگوریتم موجود بود که داده ی ورودی را به شکل تک متغیره - یک بعدی - دریافت کرده و با فرض توزیع استاندارد داده ها، مقادیر کمینه و بیشینه ی داده ها را بررسی کرده و در صورت پرت بودن آنها نسبت به بقیه ی مقادیر، آن را به کاربر گزارش کرد. در صورت یافتن هر داده ی پرت آن را از مجموعه ی داده ها حذف کرده و این روند بصورت تکراری ادامه پیدا کرد. نقطه ی ضعف آشکار این الگوریتم این بود که برای داده های با توزیع غیراستاندارد و چند متغیره کار نمی کرد. اما بعد ها همین روش به عنوان نقطه ی شروعی در پاکسازی داده ها5 مطرح شد.
شکل :3 ناهنجاری انبوه ناشی از انقباض زودرس دهلیزی در خروجی نوار قلب انسان[4]
امروزه تشخیص ناهنجاری در حوزه های مختلفی کاربرد دارد. از جمله: تشخیص تقلب در کارت های اعتباری، بیمه، مراقبت های بهداشتی، تشخیص نفوذ در امنیت سایبری، تشخیص تقلب در سیستم های ایمنی بحرانی6 و نظارت بر فعالیت های دشمن در کاربردهای نظامی. اهمیت تشخیص ناهنجاری زمانی مشخص می شود که ممکن است ناهنجاری در داده ها منجر به برداشت غلط در شرایط مهم و غالبا بحرانی شود. به طور مثال الگوی رفتاری ناهنجار در یک شبکه ی کامپیوتری می تواند به این معنی باشد که یک کامپیوتر هک شده و داده های حساسی به مقصد غیر مجاز میفرستد.[8] تصویر MRI ناهنجار ممکن است وجود تومورهای بدخیم را به غلط گزارش کند.[9] ناهنجاری در تراکنش های مالی ممکن است سرقت کارت اعتباری را گزارش کند.[10] خواندن نابهنجار یک حسگر فضاپیما می تواند حاکی از وجود تقلب در مولفه هایی از فضاپیما باشد.[11]
برای تشخیص ناهنجاری الگوریتم های مختلفی تاکنون ارائه شده است. این الگوریتم ها با تخصیص امتیاز7 به سطور داده ها میزان ناهنجاری داده ی موردنظر را می یابد. یک طبقه بندی کلی برای الگوریتم های تشخیص ناهنجاری بصورت زیر است - 1 : [4] الگوریتم های مبتنی بر طبقه بندی8 که شامل الگوریتم های مبتنی بر شبکه عصبی، شبکه بیزین و ماشین بردار پشتیبان است. - 2 الگوریتم های مبتنی بر نزدیکترین همسایه که از الگوریتم نزدیکترین همسایه برای امتیاز دهی به ناهنجاری ها و در نهایت تشخیص آن ها استفاده می کند. - 3 الگوریتم های مبتنی بر خوشه بندی که در بخش بعد به تفصیل به آن می پردازیم. - 4 الگوریتم های آماری که با استفاده از احتمال رخداد هر نمونه به تشخیص ناهنجاری های موجود می پردازد.
-4 روش پیشنهادی
هدف از این مقاله، بررسی روش های تشخیص ناهنجاری مبتنی بر خوشه بندی9 با توجه به ویژگی های تبدیل موجک تصویر برای تشخیص اصالت اسکناس می باشد. در زیر ابتدا به توضیح روش مورد استفاده برای استخراج ویژگی ها - تبدیل موجک - می پردازیم و سپس روش های تشخیص ناهنجاری مبتنی بر خوشه بندی مورد استفاده را بررسی می کنیم.
4-1 تبدیل موجک
تبدیل موجک در سال های آغازین دهه ی 1980 توسط مرلت معرفی شد که آن زمان برای ارزیابی داده های لرزه نگاری مورد استفاده قرار گرفته بود.[12] موجک ها امکان جدیدی نسبت به روش های فوریه ی کلاسیک ایجاد کردند که کاربردهای زیادی نه تنها در ریاضیات که در علوم دیگری مثل فیزیک، لرزه نگاری، تصاویر پزشکی، پردازش تصاویر دیجیتال، پردازش سیگنال ها و گرافیک های کامپیوتری دارند.
تبدیل موجک گسسته - DWT - 10 یک ابزار برای تجزیه یک تصویر می باشد. این ابزار برای سیگنال های نا ایستا11 مناسب است. این تبدیل بر پایه شکل موج های کوچکی به نام موجک، یک توصیف چند تفکیک پذیری12 از یک تصویر را ارائه می نماید و توانایی توصیف فرکانسی و مکانی یک تصویر را دارد. DWT سیگنال را به قسمت های فرکانس بالا و پایین تقسیم می کند. قسمت فرکانس بالای تصویر شامل اطلاعاتی در مورد لبه ها است در حالی که قسمت های فرکانس پایین دوباره می توانند به قسمت های دیگری شکسته شوند.