بخشی از پاورپوینت

اسلاید 1 :

بسم الله الرحمن الرحیم

اسلاید 2 :

عنوان سمینار :

تحلیل خوشه ای سلسله مراتبی
Hierarchical Cluster Analysis

اسلاید 3 :

رئوس مطالب
مقدمه
مفهوم خوشه بندی
اهداف خوشه بندی
وظایف خوشه بندی
کاربردهای خوشه بندی
نقاط قوت و ضعف خوشه بندی
گامهای اساسی خوشه بندی
انواع روشهای خوشه بندی
خوشه بندی سلسله مراتبی
دومقاله در مورد تحلیل خوشه ای سلسله مراتبی
مثال عملی

اسلاید 4 :

ما در جها ني پر از داده زندگي مي كنيم و هر روز با حجم وسيعي از اطلاعات كه
بايد آنها را ذخيره يا نمايش دهيم، روبه رو هستيم.

پردازش داده، يكي از شاخصها ي بسيار مهم در دنياي اطلاعات است.

خوشه بندي يكي از بهترين روشهايي است كه براي كار با داده ها ارائه شده است.

خوشه بندي قابليت ورود به فضاي داده و تشخيص ساختارش راامكانپذير مي نمايد.
لذا بعنوان يكي از ايده آلترين مكانيزم ها،براي كار با دنياي عظيم داده ها محسوب
مي شود.

اسلاید 5 :

اولين بارايده خوشه بندي در دهه 1935ارائه شد و امروزه با پيشرفتها و جهشهاي
عظيمي كه در آن پديد آمده ، مورد توجه بسياري از محققــان قرار گرفته است.

تحلیل خوشه اي یكي از روش هاي آماري است كه در زمینه كاهش داده ها و
پیدا كردن گروههاي واقعي مورد استفاده قرار مي گیرد.

تحلیل خوشه ای یک روش قدیمی است که در آن هیچ فرضی در مورد تعداد
گروه ها یا ساختمان آن ها در نظر گرفته نمی شود

اسلاید 6 :

خوشه بندی قراردادن داده ها در گروه هايی است كه اعضای هر گروه از زاويه
خاصي شبيه يك ديگرند شباهت بين داده های درون هر خوشه حداكثر و شباهت
بين داده های درون خوشه های متفاوت حداقل می باشد.

ساختاراین خوشه ها یا گروهها می تواند منطبق برذات داده ها یا ساختار پنهانی
باشد که در داخل داد ه ها نهفته شده است

خوشه بندی يافتن ساختاری درمجموعه ای ازداده هااست كه طبقه بندی نشده اند

مفهوم خوشه بندی

اسلاید 7 :

دلیل اصلی استفاده از روشهای خوشه بندی نیاز به کشف ساختارهای جدیدی

است که به صورت طبیعی در داده ها وجود دارد بدون اینکه هیچگونه اطلاع قبلی

از ساختار کلاسها یا رده ها وجود داشته باشد.

به عنوان مثال، کاربرد خوشه بندی در پزشکی :

شناخت زیر گروه ها یا کلاسهایی از یک نوع بیماری

اسلاید 8 :

مثلا برای یک بیماری خاص:

ممکن است زیر گروه هایی وجود داشته باشند که علائم بالینی یکسانی را نشان می دهند
اما نحوه پاسخ آنها به یک درمان خاص با یکدیگر متفاوت باشد دراین گونه موارد کاربرد
خوشه بندی در تحلیل داده های بیان ژنی که به بررسی فعالیت ژن های مختلف درسلول
می پرازد درهای جدیدی را در کشف زیرگروه های بیماریها و اختصاصی نمودن درمان
به روی محققین گشوده است .

اسلاید 9 :

بیماری خاصی مانند سرطان خون حاد
که يكی از اين سرطانهـايی اسـت كـه در صورت عدم شناسايی بهنگام، بيمار را بـه
سـرعت از پـای در مي آورد. به منظور درمان سرطان خون حاد مـيبايـست ابتـدا اين
بيماري را در دسته ها وگروههای همگن طبقه بندی كرد، با پيشرفت تحقيقات ژنتيكی
و كشف اين موضوع كه جهش ها و نقايص ژنتيكی از عمده ترين دلايل ايجاد بيماری
هستند، ايـده يافتن گروههای همگن سرطانها براساس رفتار ژنتيكيشـان درذهن محققان
ايجاد شد تا با خوشه بندی سرطان خـون بـر اساس عوامل ژنتيكی در زير گروه های
همگن فرايند تـشخيص و درمان آنها را تسريع بخشند.

اسلاید 10 :

تجزیه وتحلیل خوشه ای روشی برای گروه بندی داد ه ها یا مشاهدات با توجه به شباهت یا درجه نزدیکی آنهاست .

تحلیل خوشه ای مشاهدات را به گونه ای در خوشه ها یا گروه ها ترکیب می کند که:
هر گروه یا خوشه با توجه به یک خصوصیت ویژه همگن است.
هر گروه با توجه به همان خصوصیت با گروه های دیگر متفاوت است.

تعریف مشابهت یا همگنی بستگی به تحلیل مورد نظر و اهداف مطالعه دارد.

اسلاید 11 :

آلدندرفر و بلشفید در سال 1984 اهداف به کار گیری خوشه بندی را بطور خلاصه
در چهار زیر گروه تعریف نموده اند:

توسعه و کشف رده هایی جدید در داده ها
بررسی طرح ها با الگوهای مفهومی (ذهنی ) با استفاده از روش های خوشه بندی

تولید فرضیات در حین بررسی داده هابا استفاده ازروشهای خوشه بندی
بررسی صحت فرضیات و گروه های ایجاد شده با استفاده از اطلاعات جانبی و
منطبق کردن نتایج با حقایق موجود

اهداف خوشه بندی

اسلاید 12 :

خوشه بندی مشاهدات :

خوشه بندی n مشاهده به k گروه (k نامعلوم )
مثال : وقتی در مورد داده های ریز آرایه صحبت می کنیم مشاهدات میتوانند بطور
مثال نمونه هایی از اعضا بدن،نوع بیماری و یا شرایط آزمایشگاهی باشد که
در این شرایط هدف خوشه بندی مشاهدات است.
خوشه بندی متغیرها :
خوشه بندی p متغیرمورد بررسی به k گروه (kنامعلوم)
مثال : در داده های ریز آرایه متغیر ژن ها و خوشه بندی ژن ها مدنظر است.
ریز آرایه؟
يكي از شاخه هاي مهم بيوانفورماتيك فناوري ريزآرايه DNAاست كه امكان بررسي بيان هـزاران
ژن را به طور همزمان در حداقل زمان ممكن ميسازد كه در سالهاي اخير موجب توليد حجم
انبوهي از داده هاي بيان ژني شـده است

وظایف خوشه بندی

اسلاید 13 :

مهندسی (یادگیری ماشین،محاسبات هوشمند،کشف الگوها) :
صدا وتحلیل سیگنالهای رادیویی

علوم کامپیوتر :
جست وجوی وب ،متن کاوی،قطعه بندی تصاویر

علوم پزشکی (ژنتیک ،زیست شناسی ،میکروبیولوژی) :
تعریف طبقات انواع مختلف ازگونه های زیستی

ستاره شناسی و زمین شناسی :
گروه بندی سیارات وستاره ها، یافتن مناطق خاص جغرافیایی
و غیره

کاربردهای خوشه بندی

اسلاید 14 :

نقاط قوت :
روش خوشه بندی یک روش غیرمستقیم است:
بدین معنی که این روش رامیتوان حتی هنگامیکه هیچ نوع اطلاعات قبلی از
ساختار داخلی پایگاه داده ها نداریم استفاده نمود. از این روش می توان برای
کشف الگوهای پنهان و بهبود عملکرد روشهای مستقیم نیز استفاده نمود.

خوشه بندی را می توان برای داده های گوناگون استفاده نمود:
با انتخاب درست اندازه فاصله های گوناگون خوشه بندی رامیتوان برای بیشتر
انواع داده ها استفاده نمود

استفاده از این روش آسان است

نقاط قوت و ضعف خوشه بندی

اسلاید 15 :

نقاط ضعف :

انتخاب اندازه های دقیق فواصل و وزنها کار آسانی نمی باشد

این روش به پارامترهای اولیه نظیر تعداد خوشه ها،حداقل نزدیکی ،خوشه های اولیه ، حساس است

تفسیر نتایج این روش میتواند مشکل باشدو معمولا نیاز به تحلیل افراد با تجربه
دارد

نقاط قوت و ضعف خوشه بندی

اسلاید 16 :

دريك تحليل خوشه ای دوگام اساسي وجود دارد:

گام اول : محاسبه میزان شباهت یا در جه نزدیکی داده ها
و

گام دوم : چگونگي ادغام (پيوند) داد ه ها برحسب میزان شباهتشان

گامهای اساسی انجام خوشه بندی

اسلاید 17 :

معيار شباهت در اینجا فاصله بوده یعنی هر قدر فاصله بین دو مشاهده کمتر باشد
آن دو شبیه تر هستند و بر اين اساس در يك خوشه قرار داده مي شود.

فاصله ،حركت در فضاي داده ها راميسرمي سازد و سبب ايجادخوشه ها ميگردد.

لذا محاسبه فاصله بين دو داده در خوشه بندي بسيار مهم مي باشد؛ زيرا كيفيت
نتايج نهايي را دستخوش تغیير قرار خواهد داد

گام اول : معیار مشابهت

اسلاید 18 :

توابع رياضي مختلفي براي محاسبه فاصله وجود دارند:

1. فاصله مينكوفسكي
2. فاصله اقليدسي
3. فاصله بلوک شهري یا منهاتان
4. فاصله ضریب همبستگی پیرسون
5. فاصله همينگ
6. فاصله همبستگي
7. فاصله ماهالانوبيس
8. فاصله كوسينوسي
9. فاصله جاكارد
10. فاصله چبيشف

گام اول : معیار مشابهت

اسلاید 19 :

فاصله مینکوفسکی :
d ( , ) =

فاصله اقلیدسی :
زمانی که در فرمول فاصله مینکوفسکی m = 2 باشد فاصله اقلیدسی، یکی از
پر کاربرد ترین معیار های فا صله را خواهیم داشت .

و مشاهدات p- بعدی هستند

گام اول : معیار مشابهت

اسلاید 20 :

فاصله بلوک – شهری یا منهاتان :

زمانی که در فرمول فاصله مینکوفسکی m = 1 باشد فاصله بلوک – شهری
یا منهاتان خواهیم داشت .

این فاصله در بیشتر موارد نتایجی مشابه با فاصله ساده اقلیدسی
را دارد اما در اینجا اثرتفاوتهای بزرگ و یا همان مشاهدات دور
افتاده از میان می رود

گام اول : معیار مشابهت

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید