بخشی از مقاله
داده کاوی و نقش آن در کتابخانه ها
خلاصه
کتابخانهها و موسسات آموزشی با مشکل مدیریت کارآمد بار سنگین دادهها که دائما نیز در حال افزایش است روبرو میباشند. نرمافزارهای رایانهای به کار گرفته شده برای این منظور، غالبا فقط برای پرس و جوهای معمولی و پشتیبانی از مسائل مدیریتی و برنامهریزی کوتاهمدت اداری جوابگو هستند. در حالیکه در عمق درون این حجم دادهها، الگوها و روابط بسیار جالبی میان پارامترهای مختلف به صورت پنهان باقی میماند. دادهکاوی یکی از پیشرفتهای اخیر در حوزه رایانه برای اکتشاف عمیق دادههاست. دادهکاوی از اطلاعات پنهانی که برای برنامهریزیهای راهبردی و طولانیمدت میتواند حیاتی باشد، پردهبرداری میکند. تبیین مشخصههای اساسی فراگرد دادهکاوی و کشف کاربردهای ممکن آن در کتابداری هدف اصلی این مقاله است.
کلمات کلیدی: داده کاوی، کتابخانه، مدیریت داده
.1 مقدمه
اطلاعات پدیدهای کاملا فراگیر در ابعاد و سطوح مختلف است که نیستی و پایانی را نمیتوان برای آن تصور نمود. هر چه جلوتر میرویم اهمیت اطلاعات و نقش آن مستقیم و غیرمستقیم در زندگی بشر بیشتر نمود مییابد، و به همین دلیل است که معتقدیم در عصر اطلاعات به سر میبریم. در دنیای کنونی شاهدیم که اطلاعات عامل اصلی و زیربنایی توسعه اقتصادی و اجتماعی کشورها محسوب میشود و نقش مهمی در زمینه فعالیتهای انسانی ایفا میکند. در همین حال فناوریهای نوین اطلاعاتی و ارتباطی هم به طور قابل ملاحظهای تأثیر اطلاعات را بر زندگی انسان افزایش داده است. فناوریهای اطلاعاتی مجموعهای از ابزارها، تجهیزات و دانشها و مهارتهایی هستند که به کمک آنها گردآوری، ذخیرهسازی، بازیابی و انتقال اطلاعات به صورت مؤثری آسان شده است.
در دنیای بشدت رقابتی امروز، اطلاعات یکی از عوامل تولیدی مهم محسوب میشود. در نتیجه تلاش برای استخراج اطلاعات از دادهها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است. با افزایش روزافزون منابع اطلاعاتی و دادههای علمی و ورود آنها به پایگاههای اطلاعاتی، حجم دادهها افزایش چشمگیری یافته، به گونهای که بازیابی اطلاعات مرتبط در درون این پایگاهها با دشواریهای خاص خود رو به رو شده و دستیابی به اطلاعات ظرافت بالایی را میطلبد. حجم بالای دادههای دائما در حال رشد در همه حوزهها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشهها، عکسها، تصاویر ماهوارهای و عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل دادهها به اطلاعات است. پیشرفتهای سختافزاری و نرمافزاری به دست آمده در علم اطلاعرسانی و فناوری اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مداوم و تنوع بانکهای اطلاعاتی پدید آوردهاند. ریزپردازندههای سریع، ابزارهای ذخیره دادههای انبوه پیوسته و غیرپیوسته، پویشگرها، چاپگرها و دیگر ابزارهای جانبی نمایانگر این پیشرفتها در حوزه سختافزاری هستند و پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی دهههای گذشته نمایانگر تلاشهای بخش نرمافزاری است. تلاشهای انجام شده در بخش نرمافزاری را میتوان از ایجاد یک بانک اطلاعاتی ساده تا طراحی و توسعه شبکهها و بانکهای اطلاعاتی رابطهای و سلسله مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور در هر دوره، نظامهای مدیریت بانک اطلاعاتی سازگار با نرم افزار سیستم عامل و سختافزار رایج گسترش یافتهاند. با گسترش روز افزون استفاده از بانکهای اطلاعاتی رابطهای و انبارهای داده جهت نگهداری اطلاعات شرکتها و
سازمانها، همچنین اهمیت انکارناپذیر استفاده از رخدادها و اطلاعات گذشته جهت تصمیمگیریهای آینده، نیاز به استفاده از روشهایی علمی جهت تحلیل اطلاعات موجود و دریافت نتایج مورد نظر بیش از گذشته مورد توجه قرار گرفته است. دادهکاوی یکی از روشهای سودمند در یافتن اطلاعات مفید در بین حجم عظیمی از اطلاعات است. دادهکاوی با کشف الگوها و روابط بین دادهها، ارزشهای پنهانی آنها را آشکار مینماید. با کشف این ارزشها میتوان ارزشهای دیگر متغیرها را پیشبینی کرد و در امر تصمیمگیری از آن بهره جست. نظریات دادهکاوی و بازیابی دادههای مرتبط، در کنار فنون و الگوهای انجام این فرآیند، حوزهای از مباحث نظری و کاربردی را مطرح ساخته که امروزه در طراحی، تدوین و مدیریت پایگاه داده بسیار مؤثر است. همچنین با توسعه پایگاههای دانش و بهرهگیری از آن در سازمانها و مؤسسات مختلف، بحث اکتشاف دانش و آشنایی با ساختارهای اثربخش آن، اهمیت بسیاری یافته است. بر این اساس امروزه موضوع دادهکاوی در کنار اکتشاف دانش، از جمله مباحثی است که با استقبال کم نظیر متخصصان علوم رایانه مواجه شده است. دانش دادهکاوی یکی از ده دانش در حال توسعهای است که دهه آینده را با انقلاب فناوری مواجه خواهد ساخت و بدینرو در سالهای اخیر در دنیا گسترش فوقالعاده سریعی داشته است. امروزه دردنیای توسعهیافته مکان و موضوعی بدون بهره از دانش دادهکاوی یافت نمیشود، به گونهایکه این دانش در تمامی شئون این کشورها و در تمامی حوزهها نقش دارد.
ظهور کتابخانههای دیجیتالی در عصر حاضر مدیران این کتابخانهها را با مشکلات و مسائل عدیدهای مواجه کرده است. مشکلاتی از قبیل شناخت انواع مراجعهکنندگان و نیازهای آنها؛ بهبود خدمترسانی؛ نحوه دسترسی کاربران به این کتابخانهها؛ نحوه دسترسی کاربران به صفحات وب؛ و مانند آن. یکی از روشهای حل مسائل مرتبط با فناوری، »دادهکاوی« است. به مدد دادهکاوی، مدیران میتوانند با استفاده از الگوهای کشف شده توسط آن، در امر تصمیمگیری
موفقتر عمل کنند.
2. مفهوم دادهکاوی
همانگونه که پیشتر بیان گردید، امروزه با حجم عظیمی از دادهها روبرو هستیم و برای استفاده از آنها به ابزارهای کشف دانش نیاز داریم. دادهکاوی به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار میگیرد. بنابراین دادهکاوی در علوم، تجارت، وب، مسایل دولتی و بسیاری دیگر از حوزهها کاربرد دارد. دادهکاوی مجموعهای از فنون است که به شخص امکان میدهد تا ورای دادهپردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها مخفی و یا پنهان است، بپردازد. در واقع میتوان گفت دادهکاوی همچون استخراج از معادن زغالسنگ و طلا، اطلاعات را که در انبارهای داده مدفون شده است، استخراج می کند. دادهکاوی را میتوان مترادف با استخراج دانش، برداشت اطلاعات و وارسی دادهها دانست که در حقیقت کشف دانش در پایگاه دادهها2را توصیف میکند. بنابراین ایدهای که مبنای دادهکاوی است یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و در نهایت قابل درک در دادههاست. دادهکاوی کاربرد سطح بالای فنون و ابزار بکار برده شده برای معرفی و تحلیل دادههای تصمیمگیرندگان است. اصطلاح دادهکاوی را آمارشناسان، تحلیلگران دادهها و انجمن سیستمهای اطلاعات مدیریت به کار بردهاند در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی از »کشف دانش در پایگاه دادهها« بیشتر استفاده میکنند (سعیدی، .(1384 در ادامه چند تعریف از دادهکاوی ارائه میشود؛ »دادهکاوی در حقیقت کشف ساختارهای جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از دادهها میباشد و فعالیتی است که اساساً با آمار و تحلیل دقیق دادهها منطبق است« (هند3، .(1998 اصطلاح دادهکاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه دادههای بزرگ به منظور یافتن الگوهای مفید اطلاق می شود (سیفرت4، .(2004 ریگیلسکی5، وانگ6 و ین7 معتقدند منظور از دادهکاوی استخراج اطلاعات نهفته قابل پیشبینی از داخل پایگاههای اطلاعاتی بزرگ است (ریگیلسکی، وانگ و ین، » .(2002دادهکاوی قالبی از هوش مصنوعی است که از فرآیندهای خودکار برای پیدا نمودن اطلاعات مورد درخواست مراجعان استفاده میکند« (بانرجی8، .(2001 در حقیقت دادهکاوی با استفاده از
کامپیوتر به جمعآوری اطلاعات سودمند از بین حجم عظیمی از دادههای ذخیره شده در یک پایگاه دادهها (که چه بسا تا حد زیادی بیکیفیت هستند) میپردازد تا ساختارهای با ارزش، الگوها، ارتباطات، اصول و ارزشهای پنهانی دادهها را کشف نماید. دادهکاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده میباشد. دادهکاوی فرآیندی پیچیده جهت شناسایی الگوها و مدلهای صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده میباشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. دادهکاوی به صورت یک محصول قابل خریداری نمیباشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیادهسازی شود. دادهها اغلب حجیم میباشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در دادهها قابل استفاده میباشد. بنابراین بهرهگیری از قدرت فرآیند دادهکاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در دادهها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروریتر میشود.
یکی از نمونههای بارز دادهکاوی را می توان در فروشگاههای زنجیرهای مشاهده نمود، که در آن سعی میشود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاههای زنجیرهای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش میروند. مثلا طی یک عملـیات دادهکاوی گستـرده در یـک فروشـگاه زنجیرهای که بر روی حجـم عظیمـی از دادههای فروش صورت گرفت، مشخص گردید افرادی که برای خرید شامپو به فروشگاه میروند معمولا مایع ظرفشویی نیز خریداری میکنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری میکنند، غالبا گلدان کریستالی نیز میخرند. نمونه دیگر در یک فروشگاه بزرگ تولید و عرضه پوشاک انجام شد و مشاهده گردید افرادی که کت و شلوار خریداری میکنند، در همان روز یا روزهای آینده پیراهن نیز خریداری میکنند. توجه به مثالهای گفته شده نشان میدهد این نوع استفاده از فن دادهکاوی میتواند به فروشگاهها در نحوه ارائه اجناس به مشتریان یاری رساند. به کمک دادهکاوی سازمانها میتوانند مشتریان ارزشمند خود را شناسایی کنند، رفتارهای آینده آنها را پیشبینی نمایند و تصمیمات دقیق و مبتنی بر دانش بگیرند (ریگیلسکی، وانگ و ین، .(2002 بنابراین میتوان گفت با استفاده از فن دادهکاوی حجم عظیم دادههای موجود پالایش و مورد بررسی دقیق و مقایسه با یکدیگر قرار میگیرند و با استفاده از آنها ارزش افزودهای شامل ارائه الگوها و روندهای جدید تولید میگردد.
3. تاریخچه دادهکاوی
اخیرا دادهکاوی موضوع بسیاری از مقالهها، کنفرانسها و همایشها شده است، اما این واژه تا اوایل دهه نود مفهومی نداشت و به کار برده نمیشد. در دهه شصت و پیش از آن زمینههایی برای ایجاد سیستمهای جمعآوری و مدیریت دادهها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستمهای مدیریت پایگاه دادهها گردید. ایجاد و توسعه مدلهای دادهای برای پایگاه سلسله مراتبی، شبکهای و بخصوص رابطهای در دهه هفتاد، منجر به معرفی مفاهیمی همچون شاخصگذاری و سازماندهی دادهها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشها و فرمهای اطلاعاتی مورد نظر خود را، از این طریق ایجاد نمایند. توسعه سیستمهای پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاههای شیگرا ، کاربردگرا9 و فعال10 باعث توسعه همه جانبه و کاربردی شدن این سیستمها در سراسر جهان گردید. بدینترتیب مدیریتهای بانکهای اطلاعاتی همچون DB2، Oracle، Sybase و مانند آن ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستمها مورد پردازش قرار گرفتند. شاید بتوان مهمترین جنبه در معرفی دادهکاوی را مبحث کشف دانش از پایگاه دادهها دانست به طوری که در بسیاری موارد »مدیریت بانکهای اطلاعاتی« و »کشف دانش در پایگاه دادهها« بصورت مترادف مورد استفاده قرار میگیرند. دادهکاوی و کشف دانش در پایگاه دادهها از جمله موضوعهایی هستند که همزمان با ایجاد و استفاده از پایگاه دادهها در اوایل دهه 80 برای جستجوی دانش در دادهها شکل گرفت. پژوهش جدی روی موضوع دادهکاوی از اوایل دهه 90 شروع شد. پژوهشها و مطالعههای زیادی در این زمینه صورت گرفته، همچنین سمینارها، دورههای آموزشی و کنفرانسهایی نیز برگزار شده است. نتایج پایههای نظری دادهکاوی در تعدادی از مقالههای پژوهشی آورده شده است. مثلاً سال 1991 پیاتتسکی و شاپیرو»11استقلال آماری قاعدهها در دادهکاوی« را بررسی نمودهاند. سال 1995 هافمن و نش استفاده از دادهکاوی و داده انبار12 توسط بانکهای آمریکا را بررسی نموده و بیان کردند که چگونه این سیستمها برای بانکهای آمریکا قدرت رقابت بیشتری ایجاد میکنند. چت فیلد13
مشکلات ایجاد شده توسط دادهکاوی را بررسی نمود و همچنین مقالهای تحت عنوان »مدلهای خطی غیر دقیق دادهکاوی و استنباط آماری« ارایه نمود. هندری نیز دیدگاه اقتصاد سنجی روی داده کاوی را تهیه کرد. در این سال انجمن دادهکاوی همزمان با اولین کنفرانس بینالمللی »کشف دانش و دادهکاوی« شروع به کار کرد. این کنفرانس توسعهیافته چهار دوره آموزشی بینالمللی در پایگاههای داده درسال 1989 تا 1994 بود. انجمن مذکور، یک سازمان علمی به نام ACM-SIGKDD را ایجاد نمود. سال 1996 ایمیلنسکی14 و منیلا15 دیدگاهی از دادهکاوی به عنوان »پرس و جو کننده از پایگاههای استنتاجی«16 را پیشنهاد کردند. فایاد17، پیاتتسکی – شاپیرو و اسمیت18 پیشرفتهای کشف دانش و دادهکاوی را عنوان کردند. در سال 1997 منیلا خلاصهای از مطالعه روی اساس دادهکاوی ارایه نمود. باربارا و همکاران نیز دیدگاه کاهش دادهها روی دادهکاوی را در گزارش کاهش دادههای نیوجرسی ارایه نمودند. همچنین میتوان برای کاربرد دادهکاوی در مدیریت مالی، تحلیل دادههای مالی و مدلسازی مالی بنینگاه و چاچ کز و هیگینز19 را ملاحظه کرد. فریدمن نیز مقالهای در ارتباط با مفهوم آمار و دادهکاوی ارایه نمود. سال 1998 هند مقالهای تحت عنوان »دادهکاوی: آمار یا بیشتر؟« ارائه نمود. کلینبرگ20 پائودیمیتریو و راغان 21 دیدگاه اقتصادسنجی روی دادهکاوی و عملکرد دادهکاوی به عنوان یک مسئله بهینه را ارایه نمودند. در این سال نیز کنفرانسهای ناحیهای و بینالمللی در مورد دادهکاوی برگزار شد که از جمله میتوان به کنفرانس آسیا و اقیانوسیه درباره کشف دانش و دادهکاوی اشاره کرد. سال 2000 هند و همکاران و اسمیت بحثهای مقایسهای بین آمار و دادهکاوی را ارایه کردند. سری و استاوا، کولی، رش پاند و تن استفاده از وب در کاوش دادهها و کاربردهای آن را ارایه کردند. سال 2002 کلادیو کانورسانو و همکاران »مدل آمیخته چندگانه جمع پذیر تعمیم یافته« برای دادهکاوی را بررسی نمودند. پائلو و گیانلوکاپاسرون، »دادهکاوی ساختارهای پیوند برای مدل رفتار مصرف کننده« را ارایه نمودند.
از لحاظ تاریخی، توسعه دادهکاوی را در طول زمان میتوان به مراحل زیر تقسیم کرد: مرحله اولیه: گردآوری و ایجاد پایگاه اطلاعاتی (تا دهه (1960 مرحله دوم: نظامهای مدیریتی مبنی بر پایگاه اطلاعاتی (دهه1970 و اوایل دهه (1980
مرحله سوم: نظامهای پایگاه اطلاعاتی پیشرفته (اواسط دهه 1980 تا زمان حاضر) مرحله چهارم: انبارش اطلاعات و دادهکاوی (اواخر دهه 1980 تا به امروز) مرحله پنجم: نظام پایگاه اطلاعاتی مبنی برشبکه (دهه 1990 تاکنون)
مرحله ششم: نسل نوین نظامهای اطلاعاتی یکپارچه شده (از 2000 به بعد) بدین ترتیب فعالیتی که از دهه 1960 شروع شده بود، در دهه 1990 گام های بلندی برداشت و انتظار میرود در این قرن به رشد و بالندگی خود ادامه دهد.
4. فراگرد دادهکاوی
همانطور که پیشتر نیز گفته شد، دادهکاوی را »کشف دانش در دادهها« نیز مینامند. برای این کار یعنی کشف دانش از درون انباشتهای از دادهها لازم است تا فعالیتهای متفاوتی به صورت مرحلهای و گام به گام صورت گیرد که از آن به فراگرد دادهکاوی تعبیر میشود. در متون مختلف مرتبط با دادهکاوی این مراحل به زبانهای مختلف و طی مراحل متفاوت بیان شده است که توجه به آنها نمایانگر آن است که هر چند به لحاظ تعداد مراحل متفاوتند اما فعالیتهای انجام شده مشابه یکدیگر هستند. بنابراین با مطالعه متون مختلق در این رابطه و استفاده از برخی از آنها میتوان چنین گفت؛