مقاله تحلیل و بررسی تکنیک های خوشه بندی داده های بزرگ

فایل pdf

6 صفحه

قیمت مقاله 000 139 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده - با آغاز عصر جدید سرعت تغییر حجم و تنوع داده ها تفاوت چشمگیری نسبت به دهه های قبل داشته است. مشکلی که در راستای این پیشرفت وجود دارد ، آنالیز و تجزیه و تحلیل داده های بزرگ است. با استفاده از تکنیک های داده کاوی می توان اطلاعات مفید و روابط پنهان میان داده ها را استخراج کرد. روش های سنتی داده کاوی به علت سرعت پایین ، نمی توانند بطور مستقیم برروی داده های بزرگ اجرا شوند و ما باید به دنبال راه حلی باشیم که بتوانیم با آنها داده های بزرگ را مورد تجزیه و تحلیل قرار دهیم. یکی از تکنیک های داده کاوی خوشه بندی است که داده های مشابه را در یک خوشه جای می دهد. در این مقاله ما برخی تکنیک های خوشه بندی داده های بزرگ را مورد بررسی قرار خواهیم داد.

-1 مقدمه

ادامه به بررسی تکنیک های خوشه بندی برای داده های بزرگ می پردازیم.

· خوشه بندی با استفاده از تکنیک های پارتیشن بندی

· تکنیک های خوشه بندی سلسله مراتبی

· تکنیک های خوشه بندی متراکم

· تکنیک های خوشه بندی عمومی

-1-2 خوشه بندی با استفاده از تکنیک پارتیشن بندی

یکی از تکنیک های دسته بندی داده های بزرگ پارتیشن بندی آن ها است که دارای حالات مختلفی می باشد. تی کینگ هی[4] 5 یادگیری ماشین حداکثر 6 - فاکتور گیری ماتریس غیر منفی - را برای شبکه عصبی پیشرو7 پیشنهاد کرده اند. آنها از تکنیک های ELM برای مشکلات خوشه بندی استفاده کرده اند که نتایج بهتری نسبت به الگوریتم های قدیمی و غیر مبتنی بر Mercer-kernel تولید می کنند. آنها از سه پایگاه داده ی مختلف استفاده می کنند. دو پایگاه داده ماشین دانشگاه و سوم متن اسناد می باشد.

elm nmf و ELM k-mean، هر دو برای مجموعه داده های بزرگ پایدار هستند و پیاده سازی آنها ساده و کارآمد است. در [5]، دو الگوریتم برای خوشه بندی مورد بحث قرار گرفته است. نویسنده k-MEANS افزایشی را بررسی کرده است که داده های عددی را خوشه بندی می کند. الگوریتم K- MEANS اصلاح شده، داده های قطعی را دسته بندی می کند در حالیکه برای داده های قطعی و عددی ترکیبی، k نمونه اولیه تعریف شده است. هر سه الگوریتم کارآمد هستند و هزینه ی تابع دسته بندی را کاهش می دهند.

این الگوریتم ها در کمترین تکرار همگرا می شوند و پیچیدگی آن ها کاهش می یابد.[6] گروه گارش کریشنا سامی8 هوش گروهی اصلاح شده با پیاده سازی عملگر جهش در هوش گروهی - CI - را ارائه کرده اند تا بر موضوع کیفیت و سرعت همگرایی غلبه کنند. آنها الگوریتم K-MCL ترکیبی را برای خوشه بندی داده پیشنهاد کرده اند که ترکیبی از K-means و MCI است و مزایای هر دو را دارد. الگوریتم ارائه شده قابل اطمینان و کارآمد است و کیفیت خوبی برای راه حل ها فراهم کرده است و سرعت همگرایی بهتری نسبت به سایر تکنیک های خوشه بندی دارد. تست کارایی روی شش مجموعه ی داده استاندارد از انبار داده یادگیری ماشین UCI انجام شده است.[7]

-2-1 -2 تکنیک های دیگر پارتیشن بندی

ایشاک سیدا و همکاران9 یک روش فرا ابتکاری جدید برای خوشه بندی داده پیشنهاد کرده اند که مبتنی بر بهینه سازی جستجوی تپه نوردی10 است تا از ناسازگاری K-mean اجتناب کند. ویژگی های اصلی جستجوی تپه نوردی این است که پیاده سازی آن آسان است و کارایی بهره وری محاسباتی خوبی دارد. الگوریتم پیشنهادی توان متد جدید را بهبود می بخشد تا بهترین مقادیر را تعیین کند. آزمایش روی چهار مجموعه از انبار داده یادگیری ماشین UCI انجام شده است. یو جی آگ11 و همکاران یک الگوریتم بهینه سازی سراسری برای مشکلات محاسباتی مقیاس بزرگ ارائه کرده است.[5] این الگوریتم یک نوع خوشه بندی مبتنی بر بهینه سازی ازدحام ذرات به صورت موازی می باشد. یک الگوریتم جدید مبتنی بر متد گروهی است و برای مشکل متغیر پیوسته بسیار مفید است.

این الگوریتم هم چنین قابلیت موازی شدن را دارد. الگوریتم بهینه سازی ازدحام ذرات موازی زمان محاسباتی کمتری دارد و کیفیت خوشه بندی بهتری را ارائه می کند.[8] اثر بخشی قویتر این الگوریتم روی مجموعه داده های بزرگ، ارزیابی شده است. گروه تحقیقاتی موساوو12 الگوریتم خوشه بندی PFClust برای یافتن تعداد بهینه ی خوشه ها به صورت خودکار بدون هیچ دانش قبلی از تعداد خوشه، ارائه کرده اند. PFClust به ماتریس شباهت وابسته است و نسبت به مشکلات تولید شده چند بعدی ایمن می باشد.[9] زمان اجرای PFClust بهتر است و خوشه بندی حاصل کیفیت خوبی دارد. کارایی PFClust روی مجموعه داده با ابعاد بالا ارزیابی شده است.

-2-2 تکنیک های خوشه بندی سلسله مراتبی

هانگ یو و همکاران 13 یک متد خودکار کارآمد برای برخورد با مشکلات تعیین تعداد خوشه، ارائه کرده اند. این متد تعمیم مدل مجموعه بزرگ تئوری- تصمیم می باشد و براساس محاسبه خطر توسط توابع خسارت و قابلیت امکانپذیری طراحی شده است.[7] نویسنده یک الگوریتم خوشه بندی سلسله مراتبی ارائه کرده است که ACA-DTRS نامیده می شود. - الگوریتم خوشه بندی خودکار مبتنی بر - DTRS که بعد از یافتن تعداد کامل خوشه ها، به صورت خودکار متوقف می شود. آنها هم چنین FACA-DTRS را پیشنهاد کرده اند که نسخه ی سریعتر ACA-DTRS از نظر پیچیدگی می باشد. هر دو الگوریتم از نظر ارزش زمانی کارآمد هستند.[10] کارایی روی مجموعه داده ی واقعی و ترکیبی ارزیابی شده است.

بوزا ناگی و همکاران یک روش برای کاهش فضای ذخیره سازی برای داده های tick که به سرعت در حال افزایش هستند، پیشنهاد کرده اند. داده های tick توسط ویژگی های خوشه بندی به ماتریس داده کوچکتر تجزیه شده است که از الگوریتم خوشه بندی جدید، خوشه بندی متراکم سلسله مراتبی بهینه14 برای ذخیره سازی استفاده می کند. با استفاده از این تکنیک، پرس و جوها می توانند به صورت کارآمد اجرا شوند. آنها همچنین SOHAC سریع را برای بالا بردن زمان اجرا ارائه کرده اند. این الگوریتم براساس تکنیک محدوده پایین تر می باشد، بنابراین می تواند روی داده های tick با ابعاد بالا اعمال شود.[11]

کارایی این الگوریتم روی سه مجموعه داده ی واقعی که توسط بانک سرمایه گذاری تهیه شده، ارزیابی شده است. گروه وانگ شا15 یک الگوریتم خوشه بندی جدید ارائه کرده که خوشه بندی مشبک سلسله مراتبی با استفاده از فیلد داده 16نامیده می شود. در این روش، مشبک های سلسله مراتبی تقسیم می شوند و مجموعه داده های بزرگ را در زیرمجموعه های سلسله مراتبی شان محدود می کنند تقسیم، محدوده ی جستجو را به مراکز خوشه بندی ها محدود می کند و فضای داده برای تولید فیلد داده به حداقل می رسد.[10] خوشه بندی مشبک سلسله مراتبی با استفاده از فیلد داده پایدار است و با بهترین سرعت اجرا می شود که کارایی خوشه بندی روی مجموعه داده های کامپیوتری وسیع بهبود می دهد.

گروه نیم 17 یک متد خوشه بندی مبتنی بر مدل ارائه کرده است که SWIFT - تکنیک خوشه بندی وزن دار مقیاس پذیر - برای مجموعه داده با سایز بزرگ و ابعاد بالا نامیده می شوند. این متد در سه فاز شامل نمونه برداری وزن دار تکرار شونده، تقسیم چند کیفیتی، ادغام حفظ کننده تک کیفیتی برای مقیاس کردن خوشه بندی مبتنی بر مدل مربوط به مجموعه داده بزرگ با ابعاد بالا، می باشد. این الگوریتم اساساً برای جریان سایتومتری می باشد و جمعیت سلولی نادر را می یابد و مجموعه داده های بزرگ را به صورت کارآمدتر در مقایسه با روش های قدیمی مقیاس می کند. این متد برای وظیفه ی پاسخگویی ایمن و مقیاس مجموعه داده های FC خیلی بزرگ، مفید می باشد و همچنین قابلیت تعیین جمعیت نادر خیلی زیاد دارد.[9]

-3-2 تکنیک های خوشه بندی مبتنی بر تراکم

امینه امینی و هادی صبوحی[9]18 الگوریتم خوشه بندی ارائه کرده است که جریان DMM برای جریان داده ی بلادرنگ نامیده می شود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/81842

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تحلیل و بررسی تکنیک های خوشه بندی داده های بزرگ

بخشی از مقاله

چرا مگ ایرانز؟

مقاله حرکت از الگوریتم ه ای k - Means و k - Medoids به سمت الگوریتم CLARANS برای خوشه بندی پایگاه داده ه ای بزرگ

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تحلیل و بررسی دهستان های شهرستان طارم از لحاظ شاخص های توسعه یافتگی با استفاده از تکنیک ویکور و تحلیل خوشه ای

مقاله تحلیل و بررسی الگوریتم های خوشه بندی داده های جریانی

مقاله تکنیک های خوشه بندی در داده کاوی

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی پارامترهای کیفی و غلظت فلزات سنگین آب رودخانه زرجوب با استفاده از تکنیک تحلیل فازی

مقاله خوشه بندی ارقام تحت کشت شلتوک برنج در استان گلستان با تأکید بر روش تحلیل خوشه‌ای سلسله مراتبی

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه‌بندی شبکه‌های حسگر بی‌سیم به کمک تکنیک‌های منطق فازی جهت کاهش مصرف انرژی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله خوشه‌بندی سوره‌های قرآن با تکنیک‌های داده‌کاوی

مقاله خوشه بندی و طبقه بندی داده های میکروآرایه با استفاده از الگوریتم ICA - KHM و کدگذاری تنک

مقاله خوشه بندی بافت خاک در غرب مشهد و بررسی روابط فیزیکی هر خوشه

مقاله روشی جدید جهت تعیین تعداد خوشه های بهینه در الگوریتم های خوشه بندی افرازی

مقاله رویکرد فازی و خوشه‌بندی داده‌های بزرگ با استفاده از مدل MapReduce - Mahout

مقاله زمان بندی برنامه های جریان کاری آنالیز داده در محیط محاسبات ابری ترکیبی متحد شده با توجه به مکان داده های بزرگ و حفظ محرمانگی اطلاعات

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تحلیل و بررسی تکنیک های خوشه بندی داده های بزرگ

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

مقاله حرکت از الگوریتم ه ای k - Means و k - Medoids به سمت الگوریتم CLARANS برای خوشه بندی پایگاه داده ه ای بزرگ

مقاله تحلیل خوشه ای : با تاکید بر خوشه بندی k - means با خوشه بندی استان های کشور براساس سطح توسعه یافتگی

مقاله تحلیل و بررسی دهستان های شهرستان طارم از لحاظ شاخص های توسعه یافتگی با استفاده از تکنیک ویکور و تحلیل خوشه ای

مقاله تحلیل و بررسی الگوریتم های خوشه بندی داده های جریانی

مقاله تکنیک های خوشه بندی در داده کاوی

مقاله خوشه بندی به روش thereshold و شبکه های عصبی برای خوشه بندی و طبقه بندی آفات گیاهان

مقاله خوشه بندی پارامترهای کیفی و غلظت فلزات سنگین آب رودخانه زرجوب با استفاده از تکنیک تحلیل فازی

مقاله خوشه بندی ارقام تحت کشت شلتوک برنج در استان گلستان با تأکید بر روش تحلیل خوشه‌ای سلسله مراتبی

مقاله خوشه بندی داده های جهت دار با استفاده از الگوریتم بهینه سازی ازدحام ذرات و خوشه بندی فازی

مقاله خوشه‌بندی شبکه‌های حسگر بی‌سیم به کمک تکنیک‌های منطق فازی جهت کاهش مصرف انرژی

مقاله خوشه بندی تصاویر MR مغزی با ترکیب خوشه بندی K - Means و شبکه عصبی همگشتی

مقاله خوشه بندی داده های ژئوشیمیایی کانسار مس پورفیری سوناجیل با استفاده از الگوریتم خوشه بندی Gustafson kessel

مقاله خوشه‌بندی سوره‌های قرآن با تکنیک‌های داده‌کاوی

مقاله خوشه بندی و طبقه بندی داده های میکروآرایه با استفاده از الگوریتم ICA - KHM و کدگذاری تنک

مقاله خوشه بندی بافت خاک در غرب مشهد و بررسی روابط فیزیکی هر خوشه

مقاله روشی جدید جهت تعیین تعداد خوشه های بهینه در الگوریتم های خوشه بندی افرازی

مقاله رویکرد فازی و خوشه‌بندی داده‌های بزرگ با استفاده از مدل MapReduce - Mahout

مقاله زمان بندی برنامه های جریان کاری آنالیز داده در محیط محاسبات ابری ترکیبی متحد شده با توجه به مکان داده های بزرگ و حفظ محرمانگی اطلاعات

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران