بخشی از پاورپوینت
اسلاید 1 :
طبقهبندهای مبتنی بر تئوری بیز
Classifiers based on Bayes Decision Theory
اسلاید 2 :
رئوس مطالب
1- تئوری تصمیم بیز
2- توابع تمایز و سطوح تصمیم
3- طبقهبندی بیزین برای توزیعهای نرمال
4- تخمین توابع چگالی احتمال نامعلوم
5- قاعده نزدیکترین همسایه
6- شبکههای بیزین
اسلاید 3 :
1- تئوری تصمیم بیز
هدف طراحی طبقهبندی جهت قراردادن یک الگوی ناشناس در محتملترین کلاس
فرض M کلاس از ω1، ω2، .، ωM موجود بوده و یک بردار ویژگی ناشناس x داریم.
M احتمال شرطی بصورت P(ωi|x), i =1, 2, …, M را تشکیل میدهیم، این توابع احتمال شرطی را احتمالات پسین نیز مینامند
هر احتمالپسین بیانگر میزان تعلق بردار x به کلاس ωi میباشد
محتملترین کلاس میتواند برابر اندیس احتمال شرطی بیشینه باشد و x به آن تعلق دارد
کار طراحی با تخمین توابع چگالی احتمال (pdf) از روی بردارهای ویژگی مجموعه داده آموزش شروع میشود
برای سادگی، مسئله دو کلاسه را در نظر بگیرید (ω1، ω2) و احتمال پیشین اتفاق هر کلاس نیز معلوم فرض میشود
حتی اگر اینگونه نبود، به آسانی قابل تخمینزدن میباشند (غیر دقیق)
اسلاید 4 :
توابع چگالی احتمال شرطی کلاس، P(x|ωi), i =1, 2، بیانگر توزیع هر بردار ویژگی در کلاس مربوطه، قابل تخمین توسط داده آموزش؛ این تابع بعنوان تابع همانندی (likelihood function) نیز شناخته میشود
طبق قاعده بیز
قاعده طبقهبندی بیز
با جایگزینی قاعده بیز در رابطه طبقهبندی، داریم
همانطور که میبینیم، به P(x) در رابطه نهایی احتیاجی نیست و اگر احتمال پیشین وقوع کلاسها را برابر در نظر بگیریم داریم:
اسلاید 5 :
طبق قاعده تصمیم بیز، بازای تمام مقادیر x در R1 بردار ویژگی متعلق به کلاس یک و در غیر اینصورت به کلاس دو تعلق دارد
بوضوح از روی شکل، خطاهای تصمیمگیری غیرقابل اجتناب میباشند
اسلاید 6 :
باتوجه بشکل، خطای تصمیم برابر است با
هدف در طراحی طبقهبند بیز، حداقل کردن خطای تصمیمگیری میباشد
حداقل کردن احتمال خطای طبقهبندی
از لحاظ کمینه احتمال خطا، طبقهبند بیز بهینه میباشد
P(.,.) احتمال توام دو رویداد، طبق قانون بیز
خطا کمینه است اگر R1 و R2 بصورت زیر تعریف شوند
اسلاید 7 :
از سویی دیگر، R1 و R2 کل فضای ویژگی را پوشش میدهند و داریم
بدیهی است، تنها در صورتی خطا کمینه خواهد بود که در ناحیه R1
در حالت M کلاسه، بردار ویژگی x متعلق به کلاس ωi میباشد هرگاه
حداقل کردن متوسط خطرپذیری (Average risk)
احتمال خطای طبقهبندی همواره بهترین معیار نیست
اسلاید 8 :
بدلیل نسبتدادن اهمیت یکسان به تمام خطاها، مثال خطر تشخیص اشتباه یک بیمار با تومور بدخیم بعنوان خوشخیم (منجر به مرگ بیمار و بالعکس خیر)
راه حل، اختصاص یک جریمه (پنالتی) بعنوان وزن برای هر خطا؛ فرض ω1 کلاس بیماران سرطانی و ω2 افراد سالم، همچنین نواحی مربوطه بترتیب R1 و R2
هدف کمینه کردن تابع خطرپذیری زیر
انتخاب منطقی بصورت λ12> λ21 خواهدبود
در مسئله M کلاسه با نواحی تصمیم Rj, j = 1, 2, …, M فرض میکنیم بردار x از کلاس ωk در Ri, i≠k قرار گیرد.
مقدار جریمه λki بنام تلفات به این تصمیم اشتباه اختصاص مییابد، ماتریس تلفات L با درایههای (k,i) مبین مقدار جریمه تشکیلمیشود، و مقدار خطرپذیری یا تلف کلاس k
اسلاید 9 :
در رابطه قبلی، احتمال قرارگیری بردار ویژگی x از کلاس k در کلاس i محاسبه میشود
هدف انتخاب یک یک ناحیه تصمیم Rj جهت کمینه کردن متوسط rk میباشد
رابطه بالا کمینه است اگر هریک از انتگرالها کمینه باشد
اگر λki= 1- δki باشد، آنگاه حداقلمتوسطخطرپذیری معادل با حداقل احتمال طبقهبندی خواهدبود. در حالت دو کلاسه داریم
آنگاه x به ω1 اختصاص دارد، اگر l1 < l2 باشد
اسلاید 10 :
طبیعی است که λij>λii باشد، قاعده تصمیم بنام نسبت همانندی برای دو کلاس
بطور معمول، عناصر قطری ماتریس تلفات را صفر در نظر میگیرند، حال اگر بخواهیم طبقهبندی اشتباه الگوهای کلاس 2 در کلاس 1 عواقب وخیم بهمراه داشته باشد، آنگاه بایستی λ21>λ12
در رابطه بالا، احتمال وقوع کلاسها برابر فرض شدهاند.
مثال: برای یک مسئله دوکلاسه، با فرض احتمال گوسی برای بردار ویژگی x با σ2 = ½ و میانگین صفر و یک بترتیب برای هر کلاس، مقدار آستانه را برای کمینه احتمال خطا و خطرپذیری با ماتریس تلف زیر حساب نمایید.
اسلاید 11 :
الف) کمینه احتمال خطای طبقهبندی
ب) کمینه متوسط خطرپذیری
نتیجه: آستانه در حالت دوم کوچکتر شده و ناحیه تصمیم گسترش یافت. بوضوح، برای محتملترین کلاس خطای کمتری خواهیمداشت
2- توابع تمایز و سطوح تصمیم
کمینه کردن توابع هدف در تصمیمگیری معادل با قسمتبندی صفحه ویژگی به M ناحیه بمنظور کار طبقهبندی M کلاسه میباشد
اسلاید 12 :
اگر نواحی Ri و Rj مجاور هم در فضای ویژگی باشند، آنگاه یک سطح تصمیم ایندو را از هم جدا مینماید. این سطح جهت حداقل خطای احتمال بصورت زیر توصیف میشود
بجای کار با توابع چگالی احتمال، از توابع جایگزین استفاده میکنیم
در رابطه بالا، f (.) یک تابع صعودی یکنواخت، و gi(.) نیز تابع تمایز (Discriminant function) نام دارد
مسئله طبقهبندی بصورت تصمیمگیری زیر خلاصه میشود
سطوح تصمیم جداکننده نواحی مجاور نیز بصورت
اسلاید 13 :
رهیافت طبقهبندی از طریق قاعدهاحتمالبیز با هدف کمینهکردن احتمالخطایطبقهبندی یا خطرپذیری
مشکل طبقهبندی با قاعده بیز تخمین تابع چگالی احتمال برای تمام مسائل
برای حل مشکل، محاسبه سطح تصمیم با روشهای جایگزین (فصول 3 و 4)
روشهای جایگزین منجر به سطوح زیربهینه در قیاس با طبقهبند بیزین
3- طبقهبندی بیزین برای توزیعهای نرمال
3-1- تابع چگالی احتمال گوسی یا نرمال
معمولترین تابع توزیع احتمال در عمل، توزیع گوسی یا نرمال میباشد
قضیهحدمرکزی، اگر یک متغیر تصادفی پیشامدی از مجموعی متغیرهای تصادفیمستقل باشد آنگاه تابع چگالی احتمال آن بسوی توزیع گوسی میل خواهدنمود
تابع چگالی احتمال گوسی تک متغیره با میانگین μ و واریانس σ2
اسلاید 14 :
میانگین و واریانس از روابط زیر محاسبه میشوند
اسلاید 15 :
توزیع گوسی برای حالت چند متغیره در فضای l بعدی بصورت
در رابطه بالا، μ بردار میانگین و ∑ ماتریس کوواریانس l × l
برای حالت دو متغیره یا فضای ویژگی دو بعدی
در رابطه بالا، σ12 کوواریانس بین دو متغیر بوده و بیانگر همبستگی آماری متقابل دو متغیر میباشد، یعنی اگر دو متغیر مستقل باشند آنگاه σ12 صفر خواهدبود
در حالت دو متغیره برای تعبیر هندسی توابع توزیع داریم
اسلاید 16 :
معادله یک بیضی برحسب ثابت C
اسلاید 17 :
3-2- طبقهبند بیزین برای کلاسهای با توزیع نرمال
برای یک طبقهبند بیزین بهینه، با توصیف توزیع داده هر کلاس بصورت توزیعهای نرمال چند متغیره و استفاده از تابع تمایز لگاریتمی داریم
که ci یک ثابت بصورت میباشد، با بسط تابع بالا داریم
رابطه بالا، یک رابطه تربیعی غیرخطی میباشد. در حالت دو کلاسه با ماتریس کوواریانس قطری سطوح تصمیم و طبقهبند بیزین یک سطح و طبقهبند درجه دو میباشد
اسلاید 18 :
مثال: مسئله دو کلاسه با مقادیر زیر
اسلاید 20 :
ابرصفحههای تصمیم
اگر ماتریس کوواریانس کلاسها را یکسان فرض کنیم؛ ∑i=∑؛ تابع تصمیم بصورت
تابع تصمیم بالا، یک تابع خطی میباشد، و بنابراین سطوح تصمیم ابرصفحه است
■ ماتریس کوواریانس قطری با عناصر مساوی
فرض ویژگیهای منفرد بردار ویژگی متقابلا ناهمبسته با واریانس برابر باشند
در این حالت، ∑= σ2I که I ماتریس یکانی l بعدی است