بخشی از مقاله
چکیده
بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدل ها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود. داده کاوی مجموعه روش هایی است که به کمک آن ها به صورت خودکار اطلاعات پیشگویانه از پایگاه داده های بزرگ استخراج می شود. سپس از این اطلاعات برای به وجود آوردن اطلاعات بهتر و در نتیجه اخذ تصمیمات مفیدتر استفاده می شود. در این مقاله سعی شده است از روش خوشه بندی توصیفی برای خوشه بندی و دسته بندی متون فارسی استفاده شود. برای نمونه مجموعه ای از متون فارسی که از روی سایت های خبری موجود در وب جمع آوری شده است، برای انجام این تحقیق بکار می رود. این متون در ابتدا بوسیله از بین بردن علائم نقطه گذاری و کلمات بی فایده، پیش پردازش می شوند. در خوشه بندی برای نمایش هر متن از یک بردار ویژگی استفاده می شود که شامل کلمات شاخص و میزان تکرار آن کمات در متن می باشد. اصول خوشه بندی بر پایه فرضیات آماری استوار است که متونی که در خوشه یکسانی قرار می گیرند، ویژگی های مشابهی دارند. برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد و در غیر این صورت رشد خوشه متوقف می گردد.
کلید واژه- خوشه بندی متن ، داده کاوی توصیفی ، زبان فارسی ، .K-means
-1 مقدمه
داده کاوی1 و کشف دانش در پایگاه داده ها از جمله موضوع هایی هستند که هم زمان با ایجاد و استفاده ازپایگاه داده ها برای جستجوی دانش در داده شکل گرفت ودر سالهای اخیر به سرعت گسترش یافته است. رقابت در عرصه های علمی، اجتماعی، اقتصادی، سیاسی و حتی نظامی نیز اهمیت عامل سرعت و یا زمان دسترسی به اطلاعات و دانش را دو چندان کرده است. بنابراین نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات کاربران با تاکید بر حداقل مداخله انسانی باشند از یک طرف و روی آوردن به روش های آماری متناسب با حجم داده های زیاد از سوی دیگر احساس می شود. برای رسیدن به اهداف روش های مختلفی مانند تجزیه و تحلیل آماری و ابزار های جستجوی پایگاه داده وجود دارد، اما هرکدام در شرایط و موقعیت های خاصی جواب نمی دهد.[1]
به طور مثال تجزیه و تحلیل آماری عموما توضیحات را باتست های آماری مورد بررسی قرار می دهد و عمل استنباط انجام می پذیرد و به داده های موجود به عنوان نمونه ای از جامعه نگاه می شود ولی در برخی شرایط هدف ما توصیف این داده است و فرضیه ای نداریم، پس روشی جدید لازم است. داده کاوی فرآیندی برای استخراج دانش نهفته در میان انبوه داده ها است.[2-3]مجموعه ای شامل 700 متن - هر دسته 100 متن - که ازسایت های مختلف خبری فارسی موجود در اینترنت جمعآوری شده است، برای انجام این تحقیق مورد استفاده قرارمی گیرد. در فاز تعیین خصیصه هریک از متون بوسیله یک بردار ویژگی نمایش داده می شود که شامل کلمه و فرکانس رویداد آن کلمه هستند که در نمونه های آموزشی مثبت آن دسته ظاهر می شوند. خوشه بندی بر پایه فرضیات آماری استوار است بطوریکه متونی که در یک دسته قرار می گیرند، ویژگی های مشابهی دارند.
برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد در غیر این صورت رشد خوشه متوقف می گردد. که ایده اصلی الگوریتم K-means می باشد. متون آموزشی با از بین بردن علائم نقطه گذاری و کلمات بی فایده، پیش پردازش می شوند.در ادامه در بخش دوم تعاریف و مفاهیم داده کاوی را بیان نموده، در بخش سوم به تکنیک داده کاوی اشاره خواهد شد، در فصل چهارم به فاز پیش پردازش و برخی از ویژگی های زبان طبیعی زبان فارسی خواهیم پرداخت. در بخش پنجم الگوریتم های تولید ویژگی را مرور کرده و در بخش ششم تست الگوریتم شرح داده خواهد شد و در نهایت جمع بندی کلی از مقاله و کارهای آینده ارائه می شود.
-2 ویژگی های داده کاوی
ویژگی های منحصر به فرد داده کاوی را می توان به صورت زیر برشمرد:[4]
· نه تنها بر فاز تحلیل، بلکه بر طراحی و جمع آوری داده نیز تاثیر می گذارند.
· امکان پرسیدن سوالات مشخص و دقیق با پیچیدگی بالا از داده های جمع آوری شده را فراهم می کنند.
· قادرند که به سوالات به طور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیک ها نیز در همین است که به جای ارائه صرف استراتژی کلان، پاسخ های دقیق در اختیار محقق قرار می دهد.
· امکان سنجش اثر متغیر های مختلف بر روی متغیر های وابسته را فراهم می کنند.
· به مدیران کمک می کنند که تاثیر سناریوهای آتی را مورد ارزیابی قرار دهند و با مدل سازی گزینه های متعدد و کمک به تصمیم گیری در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.
در شکل - 1 - فرآیند کسب دانش از پایگاه داده ها به صورت شماتیک بیان گردیده است .[5]همان طور که ملاحظه می شود یکی از گام های این فرآیند، داده کاوی می باشد. بدیهی است که موقعیت در مرحله داده کاوی کاملا متاثر از سه گام قبل می باشد. به گونه ای که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوی نه تنها ممکن است مفید نباشد بلکه گمراه کننده نیز می تواند باشد.
-3 خوشه بندی توصیفی
خوشه بندی2 اطلاعات متداول ترین روش برای تحلیل آماری اطلاعات است که داده ها را به یک مجموعه متناهی از دسته ها با خوشه ها تقسیم می کند تا داده ها را توصیف کند. تجزیه و تحلیل خو.شه ای روشی برای گروه بندی داده ها یا مشاهدات با توجه به شباهت یا درج نزدیکی آن ها است که از طریق آن داده ها یا مشاهدات به دسته های همگن و متمایز از هم تقسیم می شوند