بخشی از مقاله

چکیده : داده کاوی که تا حدودی هم کشف دانش نامیده می شود ، فرایند تحلیل داده ها از دیدگاه های متفاوت و خلاصه کردن آن ها به اطلاعات مناسب می باشد . اطلاعاتی که می تواند در افزایش سوددهی و تقلیل هزینه ها مفید باشد . با افزایش سیستمهای کامپیوتری و گسترش تکنولوژی اطلاعات ، بحث اصلی در علم کامپیوتر از چگونگی جمع آوری اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سیستمهای داده کاوی این امکان را به کاربر می دهند که بتواند انبوه داده های جمع آوری شده را تفسیر کند و دانش نهفته در آن را استخراج نمایند .در این مقاله دلایل استفاده از داده کاوی ، مشکلات سیستمهای داده کاوی و کاربرد های داده کاوی توضیح داده شده است.

مقدمه

در سال های اخیر در صنایع اطلاعاتی و جوامع مختلف داده کاوی به خاطر دسترسی به مقدار زیادی از داده ها و نیاز فوری به اطلاعات و شناخت مناسب ، بسیار مورد توجه قرار گرفته است که این شناخت و اطلاعات به دست آمده برای تحلیل های بازار و کاهش کلاهبرداری ها و ضبط و جذب مشتریان مفید بوده است - هان و کمبر ، . - 5 :2000 داده کاوی یا کشف دانش در پایگاه داده ها ابزاری فنی و قدرتمند است برای استخراج دانش بالقوه نهفته و اطلاعات پیشین سودمند از مجموعه ای از داده ها به کار می رود .

این فرایند به صورت خودکار به کشف روابط و الگو های موجود در داده های خام و اجرای نتایج آن می پردازد - فرناندز،. - 11:1952 هدف داده کاوی شناخت ارتباطات و الگوهای معتبر، تازه، بالقوه سودمند و قابل فهم از داده های موجود می باشد. در اذهان عمومی کاوش داده ها به پیدا کردن راه حل اطلاعات سازمان ها و مؤسسات کسب و کار اشاره می کند. تعریف یکسانی از داده کاوی وجد ندارد.

داده کاوی استخراج اطلاعات مفهومی پنهان، ناشناخته و به صورت بالقوه مفید برای مجموعه بزرگ از پایگاه داده ها می باشد - لیو و چن : 3537:2009 زوانگ و همکاران ،665:299 و جرفری ، . - 3:2004 بر اساس تعریف مرکز تحقیقات آمریکا و اداره پاسخگویی سازمان ها داده کاوی به صورت ذیل تعریف می شود : داده کاوی مستلزم استفاده از ابزار های پیشرفته تحلیل برای کشف روابط و الگوهای ارزشمند و ناشناخته در مجموعه ای بزرگ از داده ها است بر این اساس داده کاوی تنها شامل جمع آوری و مدیریت داده ها نیست ، بلکه آن شامل تحلیل و پیش بینی داده ها نیز می باشد - گزارش داده کاوی ، 2:2006 و پیتر و همکاران ، . - 1999 از دیدگاه های مختلف می توان دو جزء اساسی را در داده کاوی مشخص نمود .

اولی کشف الگو های پنهان در داده ها می باشد و دوم استفاده از این الگو ها نتایج در آینده است . داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد. در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است . در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است .

-2پیشینه مفهومی

انتخاب اصطلاح ترکیبی تکنیک داده کاوی ناشی از تشابهات موجود بین جستجوی اطلاعات ارزشمند در یک پایگاه داده بزرگ و کندن صخره ها برای یافتن رگه ای از سنگ معدن با ارزش است. هر دوی این کارها بر جستجوی مقدار زیادی از مواد و یا کندوکاو خلاقانه آنها برای تعیین دقیق محل قرار گرفتن چیز های ارزشمند دلالت دارد - مقدسی، . - 51:1384 پژوهش جدی در زمینه داده کاوی از اوایل دهه 1990 شروع شد و سمینار ها، دوره های آموزشی و کنفرانس هایی نیز برگزار شده است.

استفاده از داده کاوی در سالهای 2000 به بعد در مقایسه با آمار و در سال های 2002 به بعد به عنوان عاملی در رفتار مصرف کنندگان عرضه شد. در گذشته کشف دانش اغلب با استفاده از جمع آوری و ارزیابی داده ها آن هم در مقابل بسیاری پیشفرض های تعریف شده انجام می گرفت اما امروزه دانش با استفاده از روش های جدیدتری در مقابل رویکرد های قدیمی مانند داده کاوی به عمل می آید - راجر و همکاران ، . - 312:2005

-3 دلایل به کارگیری داده کاوی:

Wickramasinghe و همکاران ، مهم ترین علل استفاده از داده کاوی را به شرح زیر بیان کرده اند : دلیل اصلی استفاده از داده کاوی ، افزایش حجم داده های موجود و آتی سازمان ها است که نیاز به پردازشی فراتر از رویکرد های سنتی دارد. برای انسان کنار آمدن با این حجم انبوه و در حال رشد داده ها با اتکای محض به شیوه های سنتی غیر ممکن است.

-1 ذهن انسان به هنگام تحلیل انبوه داده ها ممکن است دچار خطا شود و علاوه بر این، همیشه سعی بر این دارد که نتایج را مبتنی بر تجربیات و آزمون های قبلی بنا نهد ؛ اما داده کاوی بدون تکیه بر فرضیه های از پیش پنداشته به تحلیل داده ها می پردازد.

-2 یکی از مهمترین مزایای داده کاوی به ویژه در حجم وسیع داده ها، این است که داده کاوی نسبت به استخدام تیمی از افراد خبره بسیار کم هزینه تر است. اگر چه داده کاوی مانند سایر تکنیک ها بدون مداخله ی انسان میسر نیست، اما به راحتی اجازه می دهد تحلیلگری که در آمار یا برنامه نویسی زیاد حرفه ای نیست بتواند به مدیریت فرایند استخراج دانش از داده ها بپردازد.

با توجه به این که در دهه اخیر مؤسسات و سازمان های مختلفی توانسته اند مقادیر وسیعی از داده ها را جمع آوری نمایند، داده کاوی می تواند به آنها کمک کند که خودشان قادر باشند تا الگوهای پنهان موجود را در داده هایشان استخراج کرده تا بوسیله آن بتوانند استراتژی های تجاریشان را گسترش دهند. از طرفی امروزه بیشتر شرکت ها در جهان با نوعی رقابت و چشم و هم چشمی در دنیای تجارت هستند .

در این راستا رمز موفقیت آنها در این است که برای نگه داشتن مشتریان خود و هم چنین جذب مشتریان جدید از ابزار قوی داده کاوی استفاده کنند . داده کاوی ابزار هایی و فناوریهایی را در بر می گیرد که به آنها اجازه می دهد تا عواملی را که بر این موضوعات تاثیر می گذارند، تحلیل نمایند. در نهایت این که تکنولوژی های داده کاوی که قبلا تنها در فضای دانشگاهی رایج بود، امروزه این تکنیک دامنه استفاده بسیار وسیعی پیدا کرده و می تواند در بسیاری از شرکت ها، صنایع، سازمان ها و مؤسسات خصوصی و دولتی به کار رود - تانگ و مک کلینان، . - 4:2005

-4 مشکلات سیستمهای داده کاوی

اگرچه واکاوی داده ها می تواند به روابط و الگوهای آشکار کمک کند اما نمی توانند به استفاده کنندگان ارزش و اهمیت این الگو ها را نشان دهند. به این دلیل که الگوهای کشف شده در این راستا وابسته به چگونگی آنها در با شرایط جهان واقعی است. محدودیت دیگر در داده کاوی این است که رابطه هایی را که بین رفتار یا متغیر ها شناسایی کرده است،رابطه علی نیست.

به طور کلی دو مشکل اصلی که اکثر سیستم های داده کاوی با آن مواجه هستند، عبارتند از : یکی حجم بالای داده های آموزشی و بانکهای اطلاعاتی بسیار بزرگ و دوم وجود عدم قطعیت در اطلاعات. داده های عملیاتی موجود در سیستم های اطلاعاتی معمولا دارای عدم قطعیت هستند. عدم قطعیت می تواند به اشکال مختلفی در پایگاه های داده ظهور کند. به طور کلی عدم قطعیت در سیستمهای پایگاه داده به دو دسته تقسیم می شوند :

4؛1 اطلاعات ناکامل - مقادیر نا مشخص - : منظور خصیصه هایی است که مقداری برای آنها ثبت نشده است.

4؛2 اطلاعات ناسازگار: اطلاعاتی که در اثر اندازه گیری نادرست یا به وجود آمدن نویز در داده ها ایجاد شده باشد و مقادیر ثبت شده با مقادیر واقعی برابر نباشند. برای رفع مشکلاتی که این سیستم ها در برخورد با داده های حجیم دارند، معمولا از روش های زیر استفاده می کردند: 

4؛4 کاهش حجم داده ها: نمونه گیری، گسسته سازی، کاهش ابعاد و ...

4؛5 به کارگیری یک ارائه رابطه ای: استفاده از قابلیتهای ذخیره و بازیابی اطلاعات در پایگاههای داده

-5 کاربرد های داده کاوی

در واقع اکثر مسائل اقتصادی و تجاری می توانند در قالب شش ناحیه زیر وظیفه بندی شوند:

الف - طبقه بندی : برای فهم و برقرای ارتباط با محیط اطراف همواره اشیا را دسته بندی و درجه بندی می کنیم.

ب - تخمین : عمل طبقه بندی مربوط به نتایج گسسته است در حالی که عمل تخمین مربوط به نتایج پیوسته می باشد. با دادن مقادیری به عنوان ورودی، از تخمین استفاده می کنیم تا یک متغیر ناشناس مانند درآمد و ... را تخمین بزنیم.

ج - پیش بینی : پیش بینی مانند طبقه بندی و تخمین می باشد با این تفاوت که رکورد هایی که طبقه بندی می شوند با توجه به پیش بینی هایی است که از رفتار آینده و یا تخمین مقادیری که در آینده به خود میگیرد می باشد.

د - وابستگی گروهی یا تحلیل سبد خرید : عمل وابستگی گروهی یا تحلیل سبد خرید در واقع تشخیص می دهد که چه چیز هایی به صورت مرتبط با هم در کنار یکدیگر قرار گیرند.

ه - خوشه بندی : خوشه بندی در واقع تقسیم بندی یک جمعیت ناهمگون به تعدادی زیر مجموعه همگون است .

ر - توصیفی : گاهی اوقات هدف از داده کاوی توصیف وضعیتی است که در پایگاه اطلاعاتی وجود دارد به گونه ای که سبب افزایش دریافتی ها شود.

-6 نمونه هایی از کاربرد های داده کاوی :

1-6 در زمینه های تجاری - بازاریابی هدف، تحلیل و مدیریت بازار، تحلیل سبد بازار،پیش بینی قیمت نفت، فهم رفتار مشتری و تحلیل و مدیریت ریسک - با هدف کاهش هزینه پست با موقعیت یابی گروهی از مصرف کنندگان. داده کاوی به طور موثری می تواند در مورد الگوها و رفتار مشتریان و کاهش کلاهبرداریها ، پیش بینی منابع مورد استفاده و افزایش کسب سود مشتری و کنترل نابودی مشتریان به کار گرفته شود. - فرناندز،. - 11:1952

به عنوان مثال کشف الگو در خرده فروشی ها برای شناخت تولیدات به ظاهر ناشناخته که اغلب با هم خریداری شده اند، فهرست بندی کالاهای خریداری شده و هم چنین کالاهای به فروش رسیده در این راستا مستلزم استفاده از روش های داده کاوی است - همان،. - 12 قابل ذکر است که خرده فروشی ها نیز از داده کاوی برای تولیدات به ظاهر ناشناخته که اغلب با هم خریداری شده اند و ارزیابی اثر بخشی سهمیه ها و ارتقاء - افزایش فروش تولیدات - استفاده می شود - جورج، . - 24:1952

6؛2 در زمینه شناسایی، مدیریت و کشف تخلف: - شناسایی فریب هایی چون فریب تلفنی، فریب بیمه اتومبیل، کشف حقه های کارت اعتباری، کشف تراکنش های مشکوک ملی و پول شویی - .

6؛3در زمینه متن واکاوی - خلاصه سازی، یافتن متون مشابه و کلمات کلیدی، پالایش نامه های الکترونیکی و گروههای خبری و ... - .

6؛4در زمینه های پزشکی : - کشف ارتباط و علائم بیماری، تحلیل آرایه های DNA و ساخت تصاویر پزشکی - داده کاوی می تواند پیش بینی کند که کدامیک از مشتریان روش های جدید را خواهند خرید. لذا الگوهای رفتاری که مشتریان خطر پذیر را مشخص می کند - فرناندز، . - 13:1952شرکت های داروسازی می توانند سوابق فروش اخیر خود را برای شناسایی دکتر های داروساز و تعیین این که فعالیتهای بازرایابی اثر بزرگی روی نتایج کارشان داشته باشد، افزایش دهند. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید