مقاله خوشه بندی متون فارسی به کمک الگوریتم K

مقاله خوشه بندی متون فارسی به کمک الگوریتم K - means

فایل pdf

8 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدل ها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود. داده کاوی مجموعه روش هایی است که به کمک آن ها به صورت خودکار اطلاعات پیشگویانه از پایگاه داده های بزرگ استخراج می شود. سپس از این اطلاعات برای به وجود آوردن اطلاعات بهتر و در نتیجه اخذ تصمیمات مفیدتر استفاده می شود. در این مقاله سعی شده است از روش خوشه بندی توصیفی برای خوشه بندی و دسته بندی متون فارسی استفاده شود. برای نمونه مجموعه ای از متون فارسی که از روی سایت های خبری موجود در وب جمع آوری شده است، برای انجام این تحقیق بکار می رود. این متون در ابتدا بوسیله از بین بردن علائم نقطه گذاری و کلمات بی فایده، پیش پردازش می شوند. در خوشه بندی برای نمایش هر متن از یک بردار ویژگی استفاده می شود که شامل کلمات شاخص و میزان تکرار آن کمات در متن می باشد. اصول خوشه بندی بر پایه فرضیات آماری استوار است که متونی که در خوشه یکسانی قرار می گیرند، ویژگی های مشابهی دارند. برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد و در غیر این صورت رشد خوشه متوقف می گردد.

کلید واژه- خوشه بندی متن ، داده کاوی توصیفی ، زبان فارسی ، .K-means

-1 مقدمه

داده کاوی1 و کشف دانش در پایگاه داده ها از جمله موضوع هایی هستند که هم زمان با ایجاد و استفاده ازپایگاه داده ها برای جستجوی دانش در داده شکل گرفت ودر سالهای اخیر به سرعت گسترش یافته است. رقابت در عرصه های علمی، اجتماعی، اقتصادی، سیاسی و حتی نظامی نیز اهمیت عامل سرعت و یا زمان دسترسی به اطلاعات و دانش را دو چندان کرده است. بنابراین نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات کاربران با تاکید بر حداقل مداخله انسانی باشند از یک طرف و روی آوردن به روش های آماری متناسب با حجم داده های زیاد از سوی دیگر احساس می شود. برای رسیدن به اهداف روش های مختلفی مانند تجزیه و تحلیل آماری و ابزار های جستجوی پایگاه داده وجود دارد، اما هرکدام در شرایط و موقعیت های خاصی جواب نمی دهد.[1]

به طور مثال تجزیه و تحلیل آماری عموما توضیحات را باتست های آماری مورد بررسی قرار می دهد و عمل استنباط انجام می پذیرد و به داده های موجود به عنوان نمونه ای از جامعه نگاه می شود ولی در برخی شرایط هدف ما توصیف این داده است و فرضیه ای نداریم، پس روشی جدید لازم است. داده کاوی فرآیندی برای استخراج دانش نهفته در میان انبوه داده ها است.[2-3]مجموعه ای شامل 700 متن - هر دسته 100 متن - که ازسایت های مختلف خبری فارسی موجود در اینترنت جمعآوری شده است، برای انجام این تحقیق مورد استفاده قرارمی گیرد. در فاز تعیین خصیصه هریک از متون بوسیله یک بردار ویژگی نمایش داده می شود که شامل کلمه و فرکانس رویداد آن کلمه هستند که در نمونه های آموزشی مثبت آن دسته ظاهر می شوند. خوشه بندی بر پایه فرضیات آماری استوار است بطوریکه متونی که در یک دسته قرار می گیرند، ویژگی های مشابهی دارند.

برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد در غیر این صورت رشد خوشه متوقف می گردد. که ایده اصلی الگوریتم K-means می باشد. متون آموزشی با از بین بردن علائم نقطه گذاری و کلمات بی فایده، پیش پردازش می شوند.در ادامه در بخش دوم تعاریف و مفاهیم داده کاوی را بیان نموده، در بخش سوم به تکنیک داده کاوی اشاره خواهد شد، در فصل چهارم به فاز پیش پردازش و برخی از ویژگی های زبان طبیعی زبان فارسی خواهیم پرداخت. در بخش پنجم الگوریتم های تولید ویژگی را مرور کرده و در بخش ششم تست الگوریتم شرح داده خواهد شد و در نهایت جمع بندی کلی از مقاله و کارهای آینده ارائه می شود.

-2 ویژگی های داده کاوی

ویژگی های منحصر به فرد داده کاوی را می توان به صورت زیر برشمرد:[4]

· نه تنها بر فاز تحلیل، بلکه بر طراحی و جمع آوری داده نیز تاثیر می گذارند.

· امکان پرسیدن سوالات مشخص و دقیق با پیچیدگی بالا از داده های جمع آوری شده را فراهم می کنند.

· قادرند که به سوالات به طور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیک ها نیز در همین است که به جای ارائه صرف استراتژی کلان، پاسخ های دقیق در اختیار محقق قرار می دهد.

· امکان سنجش اثر متغیر های مختلف بر روی متغیر های وابسته را فراهم می کنند.

· به مدیران کمک می کنند که تاثیر سناریوهای آتی را مورد ارزیابی قرار دهند و با مدل سازی گزینه های متعدد و کمک به تصمیم گیری در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.

در شکل - 1 - فرآیند کسب دانش از پایگاه داده ها به صورت شماتیک بیان گردیده است .[5]همان طور که ملاحظه می شود یکی از گام های این فرآیند، داده کاوی می باشد. بدیهی است که موقعیت در مرحله داده کاوی کاملا متاثر از سه گام قبل می باشد. به گونه ای که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوی نه تنها ممکن است مفید نباشد بلکه گمراه کننده نیز می تواند باشد.

-3 خوشه بندی توصیفی

خوشه بندی2 اطلاعات متداول ترین روش برای تحلیل آماری اطلاعات است که داده ها را به یک مجموعه متناهی از دسته ها با خوشه ها تقسیم می کند تا داده ها را توصیف کند. تجزیه و تحلیل خو.شه ای روشی برای گروه بندی داده ها یا مشاهدات با توجه به شباهت یا درج نزدیکی آن ها است که از طریق آن داده ها یا مشاهدات به دسته های همگن و متمایز از هم تقسیم می شوند

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/89145

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله خوشه بندی متون فارسی به کمک الگوریتم K - means

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله مروری بر روشهای ترکیبی الگوریتم خوشهبندی k - means و الگوریتمهای فرا مکاشفهای جهت رویارویی با معایب الگوریتم k - means

مقاله حرکت از الگوریتم ه ای k - Means و k - Medoids به سمت الگوریتم CLARANS برای خوشه بندی پایگاه داده ه ای بزرگ

مقاله بهبود الگوریتم خوشه بندی K - means با استفاده از الگوریتم پیشنهادی فاخته توسعه یافته

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تعیین مناطق همگن سیلابی به روش تحلیل خوشه ای افرازی k - means بر اساس گشتاورهای خطی مرتبه دوم مطالعه موردی : حوضه سدهای رودبار و بختیاری

مقاله تشخیص پیک های R با استفاده از تبدیل موجک و خوشه بندی فازی C - Means

مقاله تشخیص سرطان سینه به کمک خوشه بندی k - means و الگوریتم بهینه سازی جستجوی فاخته بر روی تصاویر MRI

مقاله تعیین مجموعه موازی و خوشه بندی فازی c - means موازی برای داده کاوی در شبکه های مخابراتی

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی شبکه های حسگر بی سیم با استفاده از منطق فازی و الگوریتم k - means جهت بهینه سازی مصرف انرژی

مقاله جداسازی آنومالی از زمینه شرق¬ سوناجیل بوسیله روش فرکتال و مقایسه آن با نتایج خوشه¬بندی k - means و Fuzzy c - means

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله خوشه بندی داده با استفاده از ترکیب ABC , PSO و K - harmonic means

مقاله دادهکاوی و رده بندی متون فارسی مبتنی بر الگوریتم بهینه سازی ازدحام ذرات ( PSO ) و بهینه سازی پارامترهای ماشین بردار پشتیبان ( SVM )

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله خوشه بندی متون فارسی به کمک الگوریتم K - means

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله مروری بر روشهای ترکیبی الگوریتم خوشهبندی k - means و الگوریتمهای فرا مکاشفهای جهت رویارویی با معایب الگوریتم k - means

مقاله حرکت از الگوریتم ه ای k - Means و k - Medoids به سمت الگوریتم CLARANS برای خوشه بندی پایگاه داده ه ای بزرگ

مقاله بهبود الگوریتم خوشه بندی K - means با استفاده از الگوریتم پیشنهادی فاخته توسعه یافته

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تعیین مناطق همگن سیلابی به روش تحلیل خوشه ای افرازی k - means بر اساس گشتاورهای خطی مرتبه دوم مطالعه موردی : حوضه سدهای رودبار و بختیاری

مقاله تشخیص پیک های R با استفاده از تبدیل موجک و خوشه بندی فازی C - Means

مقاله تشخیص سرطان سینه به کمک خوشه بندی k - means و الگوریتم بهینه سازی جستجوی فاخته بر روی تصاویر MRI

مقاله تعیین مجموعه موازی و خوشه بندی فازی c - means موازی برای داده کاوی در شبکه های مخابراتی

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی شبکه های حسگر بی سیم با استفاده از منطق فازی و الگوریتم k - means جهت بهینه سازی مصرف انرژی

مقاله جداسازی آنومالی از زمینه شرق¬ سوناجیل بوسیله روش فرکتال و مقایسه آن با نتایج خوشه¬بندی k - means و Fuzzy c - means

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله خوشه بندی داده با استفاده از ترکیب ABC , PSO و K - harmonic means

مقاله دادهکاوی و رده بندی متون فارسی مبتنی بر الگوریتم بهینه سازی ازدحام ذرات ( PSO ) و بهینه سازی پارامترهای ماشین بردار پشتیبان ( SVM )

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران