بخشی از پاورپوینت
اسلاید 1 :
دسته بندی کننده بیزی برای محاسبه P(Y|X) لازم دارد تا مقادیر P(Y) و P(X|Y) را یاد بگیرد.
چرا مستقیما P(Y|X) یاد گرفته نشود؟
لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند.
دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه لجستیک رگراسیون یک دسته بندی کننده discriminative است.
اسلاید 2 :
بر خلاف نامش این روش برای دسته بندی مورد استفاده قرار میگیرد نه رگراسیون.
برای حالت K = 2 این مدل بسیار ساده بوده و از یک تابع خطی بهره می جوید.
بردار ورودی بصورت < X1 … Xn > و بردارخروجی Y بولین در نظر گرفته میشود.
تمام Xi ها از Y مستقل فرض شده و مقدار P(Xi | Y = yk) گوسی در نظر گرفته میشود. N(μik,σi)
همچنین توزیع P(Y) بصورت برنولی در نظر گرفته میشود.
اسلاید 3 :
برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر محدودی مورد نیاز است.
در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون از ترکیب خطی تابع ogit استفاده میشود.
در رگراسیون خطی پارامترها به روش east squares بدست می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی بوده و از روش maximum ike ihood estimation برای پیدا کردن پارامترها استفاده میشود.
اسلاید 4 :
احتمال تعلق به هر دسته را میتوان بصورت تابع لجستيک در نظر گرفت:
ضرایب w با استفاده از gradient ascent تعیین میشود.
اسلاید 5 :
برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع احتمال استفاده شده است:
اسلاید 6 :
مدل R یک مرز خطی
بین دو دسته تعیین میکند.
برای مرز دو دسته داریم:
از اینرو خواهیم داشت:
اسلاید 7 :
فرض میشود که تعداد داده آموزشی داشته باشیم.
برای بدست آوردن وزنها میتوان ازmaximum ike ihood estimate استفاده کرد:
باید وزنهای W=<w0, ... wn> طوری انتخاب شوند که مقدار درستنمائی داده ماکزیمم شود.
بجای رابطه فوق از درست نمائی شرطی استفاده میشود:
اسلاید 8 :
به خاطر ماهیت concave بودن تابع (W) رابطه فوق حتما ماکزیمم g oba را پیدا خواهد کرد.
استفاده از M می تواند برای داده های جدا پذیر خطی به over fitting شدید منجر شود.
دلیل این امر این است که راه حل M وقتی اتفاق می افتد که σ = 0.5 و یا wTφ =0 شده و منجر به بزرگ شدن وزنها میشود.
این امر حتی وقتی که تعداد داده ها نسبت به تعداد پارامترها زیاد باشد روی خواهد داد.
اسلاید 9 :
برای پرهیز از over fitting میتوان از عبارت رگولاریزیشن استفاده نمود. این جمله طوری اضافه میشود که وزنهای بزرگ را جریمه نماید:
با افزودن این جمله تابع هدفی که باید ماکزیمم شود بصورت MAP در می آید زیرا تخمین MAP بردار وزن دارای فرم کلی زیر است.
که در آن P(W) دارای توزیع گوسی با میانگین صفر و واریانس است.
اسلاید 10 :
با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها را با مشتق گیری و روش صعود گرادیان انجام داد: