مقاله طبقه بندی متن با استفاده از روش های خوشه بندی

فایل pdf

8 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

خلاصه

با توجه به حجم روز افزون اطلاعات متنی، نیاز به تسریع و افزایش دقت بازیابی اطلاعات متنی امری ضروری به نظر می رسد. خوشه بندی اسناد یکی از تکنیک هایی است که می توان از آن به منظور بهبود فرایند بازیابی اطلاعات استفاده کرد. به همین منظور در این مقاله ضمن معرفی و بررسی چند نمونه از روش های خوشه بندی و طبقه بندی از جمله K-Means و KNN و ... برای طبقه بندی اسناد با استفاده از خوشه بندی روش جدیدی پیشنهاد می شود که در آن با بهره گیری از الگوریتم تکاملی داده ها را خوشه بندی می کنیم که در مقایسه با روش K-Means با دقت بیشتری صورت می گیرد و در نهایت داده ها با روش KNN طبقه بندی می شوند. استفاده از الگوریتم پیشنهادی برای به کارگیری خوشه بندی متون قبل از طبقه بندی منجر به افزایش سرعت محاسبات می گردد.

.1 مقدمه

با پیشرفت تکنولوژی و تئوری اطلاعات، نیاز بشر به دسته بندی و مدیریت اطلاعات روز به روز افزایش میابد. در هنگام مواجهه با حجم داده های بزرگ، برای جلوگیری از پراکندگی، در هم ریختگی و همچنین مدیریت بهینه و پردازش مناسب آن ها، طبقه بندی و شناسایی الگوها می تواند نقش موثر و مهمی در تجزیه تحلیل داده ها داشته باشد.

خوشه بندی و طبقه بندی به عنوان دو رکن اصلی در استخراج اطلاعات می باشند. ما می توانیم از خوشه بندی برای کمک به طبقه بندی اطلاعات یا به عنوان یک روش جایگزین برای کاهش ابعاد استفاده نماییم. تاکنون روش های متعددی برای طبقه بندی و خوشه بندی در زمینه های مختلف پیشنهاد شده است، که در اینجا به اختصار تعدادی از آن ها را بررسی می کنیم.

خوشه بندی اسناد به معنی گروه بندی اسناد است به نحوی که اسناد درون یک گروه دارای بیشترین شباهت و اسناد گروه های مختلف نسبت به هم دارای کمترین شباهت باشند. خوشه بندی اسناد دارای کاربرد های زیادی در پردازش متن مانند بازیابی سریع اطلاعات، سازماندهی بدون ناظر اسناد و غیره می باشد. همچنین برای افزایش کارایی در موتورهای جستجو، نتایج حاصل از جستجو را با استفاده از خوشه بندی اسناد ارائه می کنند.

داده ها می توانند در اشکال مختلف باشند همانند : متن، تصویر، فرم فضایی و غیره .در این میان رایج ترین شکل داده ها که ما در حال بررسی فوق العاده آنها هستیم داده های متنی، شناسایی اثر انگشت، تشخیص چهره و غیره یکی از ساده ترین و متداول ترین روش ها درمیان روش های خوشه بندی با الگوریتم تکراری، روشی به نام K-means است که در آن داده ها به k گروه متمایز تقسیم می شوند.

در این روش، فاصله ی هر نمونه ی آزمایشی جدید ابتدا با تمام مراکز خوشه ها اندازه گیری می شود و سپس نمونه ی جدید نزدیک ترین خوشه نسبت به خود را انتخاب کرده و با آن خوشه بندی می گردد. KNN روش دیگری است که اولین بار توسط E.Fix و J.Hodges ارائه گردید و الگوریتم آن شامل محاسبه ی فاصله اقلیدسی درمیان نقاط نمونه های آزمایشی و تشکیل ماتریس فواصل بین تمام جفت نقاط موجود - x,y - است. هریک از نقاط داده در این مجموعه به کلاسی تعلق دارند که با برچسب های'…'F11c={c} تعیین می گردند.

سپس به تعداد K نمونه آموزشی دارای کمترین فاصله از نمونه آزمایشی انتخاب شده و با توجه به برچسب کلاس آنها، در مورد برچسب کلاس داده آزمایشی موردنظر تصمیم گیری می شود Isomap .روش دیگری است برای یادگیری Manifold است، که در آن سعی می شود ویژگی ها را از فضایی با ابعاد زیاد به فضایی با ابعاد کم تبدیل کند به گونه ای که ساختار اصلی ویژگی ها حفظ شود. به عنوان مثال کاهش ابعاد تبدیل مجموعه داده X با ابعاد D به یک مجموعه داده جدید Y با ابعاد d - d<<D - در حالی که ساختار اصلی آن حفظ شود.

در خوشه بندی انتخاب معیار شباهت مناسب یک گام مهم در استخراج اطلاعات است. در معیار شباهت، شباهت یک تابع حقیقی با ارزش است که شباهت بین دو داده را اندازه گیری می کند. طبقه بندی اطلاعات بر اساس خوشه های استخراج شده صورت می گیرد. بر فرض مثال مقدار زیادی داده بدون برچسب در اختیار داریم که بر چسب زدن آنها توسط انسان بسیار زمان بر بوده و فرایند پر هزینه ای است استفاده از روش ذکر شده - طبقه بندی بر اساس خوشه بندی - مزایای خاص خود را دارد. به طور عمده دارای 4 ماژول می باشد که عبارت اند از : -1 پردازش -2 خوشه بندی -3 محاسبه تشابه -4 طبقه بندی.

.2 پردازش

پیش پردازش : هر مجموعه داده - بر فرض مثال : متن - را در مدل فضای برداری به صورت بسته ای از کلمات نمایش می دهیم. در سیستم پردازش اطلاعات - متن - از فعالیت هایی نظیر استخراج استفاده می شود که شامل: ریشه یابی، حذف کلمه متوقف، تشکیل بردار با توجه به شکل شماره . - 1 - استخراج از طریق Tokenization از فایل انجام می شود .Tokenization روند شکستن یک جریان از متن به کلمات، عبارات، علامت و یا دیگر عناصر معنی دار به نام نشانه است مقالات کامل توسط داوران کنفرانس مورد ارزیابی قرار میگیرند. به این منظور لازم است.[1]

2-1حذف کلمه متوقف

کلمات متوقف بعضی از حروف، کلمات و اعداد هستند که معمولا در هر متنی به تعداد نسبتا زیادی بافت می شوند و مانع از اجزای الگوریتم با دقت و درصد موفقیت بالا می شود . کلماتی مانند: از، و، به، رو، غیره.

2-2 پیدا کردن ریشه یا ساقه یک کلمه

هدف از این پردازش حذف پسوند های مختلف به منظور کاهش است که این کار را می توان با استفاده از الگوریتم های مختلف همانند پورتر ریشه یابی، الگوریتم لوینز و غیره انجام داد. که ما در این جا از الگوریتم پورتر ریشه یابی استفاده کرده ایم.

2-3تشکیل بردار

به منظور انجام هر گونه فعالیت استخراج متن ابتدا باید محتویات پنهان متن به فرمت ها عددی برای پردازش بیشتر تبدیل گردند.

.3 خوشه بندی

الگوریتم خوشه بندی نیمه تحت نظارت به این معنی است که ما از هر دو داده برچسبدار و بدون برچسب برای انجام خوشه بندی استفاده می کنیم. متون برچسبدار از محیط مرئی خوشه انتخاب می شوند و متون بدون برچسب بر اساس گرفتن مراکز اجزای متن انتخاب می شوند. روند دقیق خوشه بندی شامل سه مرحله است:

-1 مقدار دهی اولیه

-2 خوشه بندی

-3 تشکیل خروجی روند خوشه نیمه تحت نظارت از هر دو متن برچسبدار و بدون برچسب به عنوان ورودی استفاده می کند. در گام مقدار دهی اولیه هر متنی که با یک برچسب در ارتباط می باشد همان برچسب به آن داده می شود. اگر یک متن دارای برچسب نباشد آن را به عنوان '' `` unlabeled مشخص می کند. بنابراین ما در گام مقدار دهی اولیه در حال تشکیل کاندید هایی برای مرحله خوشه بندی متن می باشیم .

در گام خوشه بندی کاندیدهایی که برچسب مشابه دارند با هم به عنوان یک خوشه گروه بندی می شوند و آنها در حال حاضر توسط مرکزخوشه و برچسب های مرتبط با آنها شناخته می شوند. اسناد بدون برچسب به یک لیست اضافه می شوند. سپس ما را یک سند بدون برچسب را از لیست می گیریم و فاصله آن را از سایر اسناد بدون برچسب موجود در لیست و همچنین مرکز خوشه برچسبدار محاسبه می کنیم.

در صورتی که سند بدون برچسب حداقل فاصله را از خوشه برچسبدار گرفت سپس به آن خوشه اضافه شده و برچسب آن خوشه به آن اختصاص داده می شود. مرکز خوشه به روز می شود و سند بدون برچسب از لیست حذف می گردد. اگر سند بدون برچسب دارای حداقل فاصله با سایر سند بدون برچسب باشد بعد از آن که دو سند بدون برچسب با هم ادغام شدند به لیست اسناد بدون برچسب به عنوان یک سند اضافه می شوند.

این فرایند تا زمانی ادامه پیدا می کند که همه سند بدون برچسب مشخص شده باشند. این روند ادامه می یابد تا تمام اسناد و مدارک بدون برچسب یک برچسب به آنها داده شود. در نهایت پس از تشکیل خوشه، اگر هر خوشه کمتر از 3 سند به عنوان عضو داشته باشد پس از آن که خوشه به عنوان خوشه بی ربط مشخص شده از مدل حذف می گردد. این بدان معناست که خوشه زیاد به فرآیند طبقه بندی ما کمک نمی کند .

پس از فرآیند خوشه نیمه تحت نظارت مجموعه ای از خوشه های متن با برچسب به عنوان خروجی تولید می شود. و این خوشه متن برچسبدار به عنوان یک مدل طبقه بندی برای گام طبقه بندی متن عمل می کند. روش های اساسی که در اینجا مورد استفاده قرار گرفته است برچسب یک متن بدون برچسب با برچسب خوشه متن که نزدیک ترین به متن بدون برچسب می باشد را مشخص می کند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/110651

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله طبقه بندی متن با استفاده از روش های خوشه بندی

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله طبقه بندی اساس شدت ( طبقه بندی جرایم بر حسب شدت و ضعف آنها )

دانلود مقاله طبقه بندی سیگنالهای شنیداری با استفاده از نزدیکترین خط ویژگی و مقایسه آن با سایر روشهای طبقه بندی آماری

مقاله استفاده از خوشه بندی بهینه در طبقه بندی k نزدیکترین همسایه

مقاله فشرده سازی متن فارسی با استفاده از الگوریتم های حسابی و هافمن و مقایسه آن با فشرده سازی متن انگلیسی

مقاله طبقه بندی ایستگاه های مسافری راه آهن جمهوری اسلامی ایران با استفاده ازتکنیک خوشه بندی

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تحلیل ظرفیت تصویر چند طیفی+ETM در شناسایی و طبقه بندی کانی های آهن با استفاده از الگوریتم طبقه بندی SAM

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی ارقام تحت کشت شلتوک برنج در استان گلستان با تأکید بر روش تحلیل خوشه‌ای سلسله مراتبی

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله توسعه ی سیستم طبقه بندی کننده چندگانه با استفاده از تلفیق تصادفی باندهای مجاور به منظور طبقه بندی تصاویر ابر طیفی

مقاله خوشه بندی و طبقه بندی داده های میکروآرایه با استفاده از الگوریتم ICA - KHM و کدگذاری تنک

مقاله روش نوین برای بهبود طبقه بندی تصاویر سنجنده های TM و ASTER و تعیین صحت و دقت طبقه بندی آنها با روش های مختلف

مقاله طبقه بندی پلاریمتری - مکانی تصاویر SAR بر اساس تلفیق طبقه بندی کننده های چندگانه

مقاله طبقه بندی نظارت نشده تصاویر ماهواره ای با استفاده از ترکیب خوشه بندی فازی و طبقه بندی ماشین بردار پشتیبان

مقاله طبقه بندی روش های طراحی معماری برگرفته از طبیعت با مقایسه طبقه بندی های موجود

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله طبقه بندی متن با استفاده از روش های خوشه بندی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله طبقه بندی اساس شدت ( طبقه بندی جرایم بر حسب شدت و ضعف آنها )

دانلود مقاله طبقه بندی سیگنالهای شنیداری با استفاده از نزدیکترین خط ویژگی و مقایسه آن با سایر روشهای طبقه بندی آماری

مقاله استفاده از خوشه بندی بهینه در طبقه بندی k نزدیکترین همسایه

مقاله فشرده سازی متن فارسی با استفاده از الگوریتم های حسابی و هافمن و مقایسه آن با فشرده سازی متن انگلیسی

مقاله طبقه بندی ایستگاه های مسافری راه آهن جمهوری اسلامی ایران با استفاده ازتکنیک خوشه بندی

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تحلیل ظرفیت تصویر چند طیفی+ETM در شناسایی و طبقه بندی کانی های آهن با استفاده از الگوریتم طبقه بندی SAM

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی ارقام تحت کشت شلتوک برنج در استان گلستان با تأکید بر روش تحلیل خوشه‌ای سلسله مراتبی

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله توسعه ی سیستم طبقه بندی کننده چندگانه با استفاده از تلفیق تصادفی باندهای مجاور به منظور طبقه بندی تصاویر ابر طیفی

مقاله خوشه بندی و طبقه بندی داده های میکروآرایه با استفاده از الگوریتم ICA - KHM و کدگذاری تنک

مقاله روش نوین برای بهبود طبقه بندی تصاویر سنجنده های TM و ASTER و تعیین صحت و دقت طبقه بندی آنها با روش های مختلف

مقاله طبقه بندی پلاریمتری - مکانی تصاویر SAR بر اساس تلفیق طبقه بندی کننده های چندگانه

مقاله طبقه بندی نظارت نشده تصاویر ماهواره ای با استفاده از ترکیب خوشه بندی فازی و طبقه بندی ماشین بردار پشتیبان

مقاله طبقه بندی روش های طراحی معماری برگرفته از طبیعت با مقایسه طبقه بندی های موجود

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران