بخشی از مقاله
چکیده
عموما پایگاه های داده حاوی انبوهی از اطلاعات می باشند که استخراج و کشف دانش از میان آنها بسیار مهم و ارزشمند می باشد. کشف دانش از پایگاه های داده توسط تکنیک های گوناگون داده کاوی بعضا منجر به یافتن الگو ها و روندهایی می شود که میتواند سازمانها را در تصمیم گیریهای آینده و پیش بینی هایی جهت دستیابی سریعتر به سود کمک نماید. با توجه به وجود اطلاعات ارزشمند در پایگاه های داده در اواخر دهه 80 میلادی تلاش برای استخراج و استفاده از اطلاعات پایگاه های داده آغاز شد و در اوایل دهه 90 بود که داده کاوی به عنوان یک علم مطرح گردید. داده کاوی پل ارتباطی بین میان علوم آمار، کامپیوتر، هوش مصنوعی، الگو شناسی و یادگیری ماشین می باشد. داده ها اغلب حجیم بوده و به تنهایی قابل استفاده نمی باشند اما دانش نهفته در آنها قابل استفاده است.
در بحث داده کاوی یافتن الگوهای مفید که شامل مدل های توصیف کننده ارتباط میان یک زیرمجموعه از داده ها است، مورد تاکید است. از سوی دیگر پیشروی سازمانها به سمت دانش محور شدن و مدیریت دانش اهمیت کشف دانش و استفاده از آن برای پیشی گرفتن از رقبا را اشکار می کند. از آنجا که امروزه دانش و بالاخص دانش بکر و جدید مزیت رقابتی به شمار میرود، استفاده از ابزاری همانند داده کاوی می تواند موجب پیشبردهای سریع در این زمینه گردد. در این پژوهش، ضمن تشریح تکنیک های متفاوت داده کاوی، به بررسی کاربرد های عملی آن در مبحث کشف و مدیریت دانش پرداخته می شود.
واژگان کلیدی: داده کاوی، مدیریت دانش، کشف دانش از پایگاه داده، دانش
مقدمه
دانش کالایی گران است که اگر به درستی مدیریت شود مهمترین دارایی یک سازمان محسوب می شود. دانش مفهومی پیچیده و سیال است که طبیعتا میتواند به صورت صریح یا ضمنی باشد. دانش صریح به آسانی می تواند بیان شده و به دیگران منتقل شود. در مقابل دانش ضمنی که دانش شخصی است در ذهن افراد جای دارد و به سختی قابل بیان و کدگذاری و ارتباط برقرار کردن است .[Folorunso and O. Ogunde, 2004] مدیریت دانش یک رشته نوظهور بوده و در مدت زمانی کوتاه معروفیت شگرفی را به عنوان یکی از امیدبخش ترین راه ها برای سازمان ها جهت موفقیت در عصر اطلاعات بدست آورده است. بر مبنای گفته پیتر دراکر1 ما در حال ورود به جامعه دانشی هستیم که در آن منابع اصلی اقتصاد دیگر سرمایه، منابع طبیعی و یا کار نیست بلکه دانش است و دانشکاران نقش اصلی را ایفا می کنند.
مدیریت دانش یک رهیافت یکپارچه برای مدیریت کل سرمایه فکری سازمان است. این سرمایه نه تنها دانش عیان مورد استفاده سازمان، بلکه دانش محبوس در ذهن افراد را نیز شامل می گردد. به تعبیری دیگر مدیریت دانش ایجاد و ذخیره چشم انداز دانش به همراه بها دادن به دارایی های فکری است.فرآیندهای مدیریت دانش شامل چهار مورد خلق دانش، ذخیره و بازیابی دانش، انتقال دانش و کاربرد دانش میشود ]ربیعی و معالی، . [1391 در میان ابزارهای گوناگون مورد استفاده در مدیریت دانش، میتوان از داده کاوی به عنوان ابزاری موثر نام برد. داده کاوی علمی میان رشته ای و شامل علوم آمار، کامپیوتر، هوش مصنوعی، الگو شناسی و یادگیری ماشین می باشد که از دهه 80 میلادی آغاز گردید و از اوایل دهه 90 همزمان با همه گیر شدن استفاده از پایگاههای داده به عنوان یک علم مطرح گردید.
قابلیت های بالای داده کاوی در استخراج هدفمند اطلاعات می تواند آنرا به گامی مهم در فرآیند کشف دانش در پایگاه های داده 2 - KDD - مبدل سازد که به موجب آن الگو های مفیدی از داده ها استخراج می شود. به طور کلی میتوان گفت داده کاوی فرآیندی تحلیلی است که برای کاوش داده ها - معمولا حجم عظیمی از داده ها - ، به خصوص در زمینه های کسب و کار و بازاریابی صورت میگیرد و یافته ها در این فرآیند با به کارگیری الگوهایی احراز اعتبار می گردند. هدف اصلی داده کاوی پیش بینی است. در این تحقیق ضمن پرداختن به مفاهیم اساسی در داده کاوی به ارائه نمونه هایی کاربردی از آن در بحث کشف دانش و مدیریت آن پرداخته می شود.
کشف دانش در پایگاه های داده
یکی از کاربردهای بارز و جالب توجه داده کاوی، کسب مزیت رقابتی در محیط های نامطمئن است ]ربیعی و هوشیان ثابت، .[1391 روش عمومی در فرآیند کشف دانش را می توان تکرار یک توالی از مراحل پنجگانه به شرح ذیل دانست:
-1 انتخاب: به معنای انتخاب داده مرتبط با وظیفه تحلیل از پایگاه داده
-2 پیش پردازش: شامل از بین بردن نویز و داده های ناسازگار و ترکیب چند منبع داده
-3 تبدیل: به مفهوم تبدیل داده به فرمهای مناسب جهت ارائه داده کاوی
-4 انتخاب الگوریتم و استخراج الگوهای داده: انتخاب یک الگوریتم داده کاوی مناسب با الگوی موجود در داده ها.
-5 تفسیر/ ارزیابی: تفسیر الگوها به شکل دانش همراه با حذف الگوهای زائد و غیر مرتبط و ترجمه الگوهای مفید به داده های قابل فهم برای انسان [Silwattananusarn and Tuamsuk, 2012]
در فرآیند داده کاوی گام مشکل انتخاب داده است. چون می بایست تصمیم گیری شود که کدام فیلدها لازم می باشند. گام سنگین دیگر تبدیل داده ها است که معمولا زمان بیشتری در مقایسه با آنالیز داده می برد Mamcenco and ] .[Beleviciute,2007 دو هدف سطح بالا و اولیه داده کاوی در عمل پیش بینی و توصیف می باشد. پیش بینی شامل استفاده از بعضی متغیرها یا فیلدها در پایگاه داده برای پیش بینی ارزش آینده یا مجهول متغیرها است و توصیف بر روی یافتن الگوهای قابل تفسیر برای انسان ها تمرکز دارد. هرچند مرز بین پیش بینی و توصیف خیلی دقیق نیست - بعضی از مدلهای پیش بینی می توانند توصیفی باشند تا اندازه ای که قابل فهم باشند و برعکس - اما تفاوت بین آنها برای فهم هدف کلی اکتشاف مفید است. اهداف پیش بینی و توصیف می توانند توسط تعداد زیادی مدل به دست آیند که در ادامه به اختصار تشریح می گردند.
دسته بندی: این مدل یک داده را به چندین کلاس از پیش تعیین شده نگاشت میکند. نمونه هایی از متد دسته بندی که به عنوان قسمتی از کاربردهای کشف دانش به کار می رود شامل دسته بندی روندها در بازارهای اقتصادی و شناسایی خودکار روندهای سهام در پایگاه داده های بزرگ می باشد.
رگرسیون: این مدل یک آیتم داده را به یک متغیر پیش بینی با ارزش واقعی نگاشت می کند. رگرسیون کاربردهای زیادی دارد به طورمثال تخمین احتمال زنده ماندن یک بیمار با گرفتن نتایج یک مجموعه آزمایشات تشخیصی و پیش بینی تقاضای مصرف کننده برای یک کالای جدید به عنوان عملکرد هزینه تبلیغ از نمونه کاربردهای این مدل قلمداد می شود.
خوشه بندی: خوشه بندی در زمانی که به دنبال مشخص کردن یک مجموعه محدود از دسته ها یا خوشه ها برای توصیف هستیم، یک کار توصیفی خواهد بود. دسته ها می توانند متقابلا انحصاری و کامل بوده و یا همچون دسته های سلسله مراتبی یا دارای اشتراک، به شکلی غنی تر باشند. استخراج زیرگروه های جمعیتی همگن برای مصرف کننده ها در پایگاه داده های بازاریابی و مشخص کردن زیر شاخه های یک طیف از اندازه گیری های فلکی مادون قرمز، همگی از مثال های خوشه بندی هستند.
خلاصه سازی: شامل متدهایی برای یافتن توصیفی فشرده از یک زیر مجموعه از داده هاست. یک مثال ساده جدول بندی انحرافات ابزار و استانداردها در همه زمینه هاست. تکنیک های خلاصه سازی غالبا برای تحلیل داده های تعاملی اکتشافی و گزارش خودکار جمعیت به کار میرود.
مدل سازی وابستگی: این مدل شامل پیدا کردن مدلی است که وابستگی های خاصی بین متغیرها را توصیف می کند. مدل های وابستگی در دو سطح موجودند: