بخشی از مقاله
ترکیب منابع داده ، روش های کشف و تحقیق استخراج داده های جرم
خلاصه
بررسی و تحلیل ویژگی های جرم اولین گام در این حوزه است و دانشی که از روش های استخراج داده ها بدســــت می آید ابزار موثر در کمک و حمایت نیروی پلیس است . این مقاله به روش کتابخانه ای و با کمک گرفتن از پنج مقاله علمی پژوهشی به چاپ رسیده جمع آوری شده است ؛ این مقاله در نظر دارد به بررسی داده های جرم بپردازد.تحلیل جرم عبارت است از به کارگیری شیو های نظام مند جهت شناسایی، کشف و پیش بینی جرایم ورودی یک سیستم تحلیل جرم ،داده ها و اطلاعات منتسب به متغیرهای جرم است و خروجی آن پاسخ به پرسش های تحلیلی استخراج دانش و در نهایت مصورسازی نتایج است. روش داده کاوی با بکار گیری بانکهای اطلاعاتی موجود و استفاده از ابزارهای الگوریتم داده کاوی، پیچیده داده ای مرتبط با جرم و بزهکاری و روابط میان این داده ها را مدل کرده و الگو ها را شناسایی و بدین وسیله نیروی پلیس می تواند وقوع جرم را پیش بینی و در نهایت پیش گیری نماید.
کلمات کلیدی: داده کاوی جرم، کشف جرم ،ابزارهای داده کاوی جرم،فریند داده کاوی
1. مقدمه
داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق
میشود. این ابزارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکههای عصبی (Neural Networks) یا درختهای تصمیم گیری (Decision Trees)به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود برنامههای کاربردی که با بررسی فایلهای متن یا چند رسانهای به کاوش دادهها می پردازند پارامترهای گوناگونی را در نظر میگیرد که عبارت اند از:
* قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشودمثلاً خرید قلم به خرید کاغذ .
* ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولدیک نوزاد و خرید پوشک .
1
*پیش بینی (Prediction):در پیش بینی هدف پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی.
*رده بندی یا طبقه بندی (Classification): فرآیندی برای پیدا کردن مدلی است که رده های موجود در دادهها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بیـــــنی رده رکوردهایی که برچسب رده آنها(متغیر هدف) ناشناخته می باشد، استفاده نمود. در حقــیقت در رده بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و رده بندی عموما یکسان هستند.[1]
*خوشه بندی (Clustering):گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند.[1]
*مصورسازی (visualization): مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.
برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verifiction)را به کار میبرند که در آن فرضیهای بسط داده شده آنگاه داده ها برای تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده یحتماًک بسته میخ هم خواهد خرید. کارا یی این روش به میزان خلاقیت کاربر برای ارایه فرضیههای متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.[2]
در نتیجه قابلیتهای پیچیدهاش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف دانش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرایندهای تجاری بر رشد علاقهمندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
*رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
*توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
*گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
2
*و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو میباشد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبه ها در هر 24 – 18 ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با این همه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگان ها و تخطیهای بالقوه به حریم شخصی میباشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.[2]
داده کاوی عبارت است از اقتباس یا استخراج دانش از مجموعه ای از داده ها، به دیگر بیان، داده کاوی فرایندی است که با استفاده از روشهای هوشمند، دانش را از مجموعه ای از داده ها استــخراج می کند. گستره وسیع کاربردهای داده کاوی این موضوع را به عنوان یکی از مهمترین حوزه های پژوهشی مطرح نموده است یکی از عرصه های مهم کاربرد داده کاوی، حوزه جرم شناسی است، جرم شناسی به فرایند تحلیل و آنالیز یک جرم و شناخت ویژگیهای آن اطلاق می شود. در واقع جرم شناسی شناخت جزئیات یک جرم و روابط نامحسوس آن با مجرم را شامل می شود. حجم بسیار زیاد داده های مربوط به جرم ها و مجرمین از یک سو و وجود روابط معنایی پیچیده و نامحسوس میان این اطلاعات از دیگرسو ، جرم شناسی را به یکی از مهمترین حوزه های کاربردی داده کاوی مبدل نموده است. با استخراج ویژگی های جرم، گام ابتدایی برای هر گونه تحلیل و بررسی کارشناسانه روی ویژگیهای یک جرم امکان پذیر خواهد بود. در واقع دانش حاصل از اعمال روشهای داده کاوی در حوزه جرم شناسی بستر مناسبی را برای پشتیبانی اطلاعاتی کارشناسان و انجام فعالیتهای آتی پلیس فراهم می آورد. بر این اساس در این پژوهش روشی مبتنی بر روشهای داده کاوی جهت استخراج دانش از گزارشات متنی پلیس ارائه می شود. روش پیشنهادی با انجام نوعی متن کاوی قادر به شناسایی و استخراج کلمات کلیدی و روابط معنایی میان انها از گزارشات متنی کارشناسان پلیس می باشد. دراین پژوهش سعی شده جهت تحلیل ارتباطات از شبکه های عصبی SOM و همچنین تکنیکهای کلاسیک خوشه بندی جرایم استفاده گردد. این روش بر روی مجموعه ای از اطلاعات بکارگیری و آزمون شده است. براساس نتایج بدست آمده از آزمون مذکور، روش پیشنهادی از دقت قابل قبولی برخورداراست.[1]
-1-1 داده کاوی
داده کاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
در سال 1960 آماردانان اصطلاح "Data Fishing" یا""Data Dredging به معنای "صید داده" را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده ها در پایگاه های داده یا
3
Databaseاصطلاح "Data Mining" یا داده کاوی در حدود سال 1990 رواج بیشتری یافت. اصطلاحات دیگری نظیر "Data Archaeology"یا "Information Harvesting" یا "Information Discovery" یا "Knowledge Extraction"نیز بکار رفته اند.[2] اصطلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها
وروابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است.
-2-1 فرایند داده کاوی
-1-2-1 تعریف مسئله
پیش زمینه داده کاوی،درک درست متغیر ها و تعریف مسئله است و بدون این درک درست هیچ الگوریتمی صرف نظر از خبره بودن آن نمی تواند نتیجه مطمئنی حاصل نماید . همچنین بدون درک صحیح نمی توان مسائل را بدرستی تعریف کرد و داده ها را جهت تحلیل و بررسی آماده نمود .
-2-2-1 ساختن پایگاه داده مربوط به داده کاوی
این مرحله هسته آاماده سازی داده را در داده کاوی تشکیل می دهد .
-3-2-1 جستجوی داده
هدف این مرحله شناسایی مهم ترین فیلد های مؤثر در پیش بینی نتیجه است و همچنین تعیین اینکه کدام یک از داده های به دست آمده مفید
هستند.
-4-2-1 آماده ساختن داده برای مدل سازی
این مرحله آخرین گام آماده سازی داده قبل از ساخت مدل است. چهار قسمت مهم در این مرحله وجود دارد: *انتخاب متغیرها
*انتخاب سطرها
*ساختن متغیرهای جدید
*تغییر شکل متغیرها
مهمترین مسئله در مورد ساخت مدل آن است که این کار، فرایندی تکراری است و برای حل مسائل، به مدل های جایگزین جهت یافتن سودمندترین آنها نیاز داریم آنچه که در جستجوی یک مدل مناسب به دست می آید می تواند منجر به بازگشت به عقب و انجام برخی تغییرات در داده مورد استفاده و حتی بهبود بیان مسئله شود.در آماده سازی و آزمایش مدل داده کاوی باید داده حداقل به دو گروه شکسته شود، یکی برای آماده کردن مدل و دیگری جهت آزمایش مدل مربــــــوطه( ( Corporation1999
-5-2-1 ساختن مدل