بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
مقدمه
یک الگوریتم یادگیری با استفاده از دادههای آموزشی فرضیهای را بوجود میآورد. قبل از استفاده از این فرضیه ممکن است که لازم شود تا دقت این فرضیه مورد ارزیابی قرار گیرد.
اینکار از دو جهت اهمیت دارد:
.1دقت فرضیه را برای مثالهای نادیده حدس بزنیم.
.2گاهی اوقات ارزیابی فرضیه جزئی از الگوریتم یادگیری است: مثل هرس کردن درخت تصمیم.
اسلاید 2 :
روشهایآماری
در این فصل سعی میشود تا روشهای آماری مناسب برای حدس زدن دقت فرضیهها معرفی گردند .مبنای کار در جهت پاسخگوئی به سه سوال زیر است:
.1اگر دقت یک فرضیه برای دادههای محدودی معلوم باشد دقت آن برای سایر مثالها چه قدر خواهد بود؟
.2اگر یک فرضیه برای دادههای محدودی بهتر از فرضیه دیگری عمل کند احتمال اینکه این وضعیت در حالت کلی نیز صادق باشد چقدر است؟
.3وقتی که داده آموزشی اندکی موجود باشد بهترین راه برای اینکه هم فرضیه را یاد بگیریم و هم دقت آنرا اندازهگیری کنیم چیست؟
اسلاید 3 :
کمیدادههایآموزشی
وقتی که داده آموزشی محدود باشد این امکان وجود دارد که این مثالها نشاندهنده توزیع کلی دادهها نباشند.
اسلاید 4 :
مشکلکمیداده
وقتی که یادگیری با استفاده از دادههای محدودی انجام میشود دو مشکل ممکن است رخ دهد:
.1بایاس در تخمین.
دقت یک فرضیه بر روی مثالهای آموزشی تخمین مناسبی برای دقت آن برای مثالهای نادیده نیست. زیرا فرضیه یاد گرفته شده بر اساس این دادهها برای مثالهای آتی به صورت خوشبينانه (optimistic) عمل خواهد نمود. برای رهائی از این امر میتوان از مجموعه دادههای تست استفاده کرد.
.2انحراف (Variance) در تخمین.
حتی با وجود استفاده از مجموعه تست این امکان وجود دارد که دقت فرضیه اندازهگیری شده با دقت فرضیه واقعی اختلاف داشته باشد. این دقت بستگی به خصوصیات مجموعه تست و تطابق با توزیع کلی دادهها دارد.
اسلاید 5 :
Bias and Variance in the Estimate
اسلاید 6 :
تخمیندقتفرضیه
در یک مثال یادگیری میتوان برای فضای مثالهای ورودی یک تابع توزیع احتمال نامعلوم D در نظر گرفت که احتمال رخداد هر نمونه X را با p(X) مشخص مینماید.
در این صورت با دو سوال زیر مواجه هستیم:
.1اگر فرضیه h و تعداد n نمونه داشته باشیم که به صورت تصادفی از مثالهائی با توزیع D انتخاب شده باشند، بهترین تخمین برای دقت h برای مثالهای آتی با همان توزیع چیست؟
.2خطای احتمالی در این تخمین دقت چقدر است؟
اسلاید 7 :
خطاینمونهوخطایواقعی
lخطای نمونه
خطای فرضیه روی مجموعه مثالهای موجود) آموزشی و یا تست) به عبارت دیگر کسری است از نمونههای S که تحت فرضیه h نسبت به تابع هدف f اشتباه دستهبندی شدهاند:
errorS(h)= 1/n SxÎSd(f(x),h(x))
که در ان n تعداد مثالهای S و اگر f(x) ¹ h(x)آنگاه مقدار d(f(x),h(x)) برابر با 1 است در غیر این صورت برابر با 0 است.
اسلاید 8 :
lخطای واقعی
عبارت است از خطای فرضیه روی مجموعه تمام مثالها با توزیع نامعلوم D و برابر است با احتمال اینکه یک نمونه تصادفی به اشتباه دستهبندی شود.
خطای واقعی فرضیه h نسبت به تابع هدف f و داده با توزیع D به صورت زیر بیان میشود:
errorD(h)= PrxÎD[f(x)¹ h(x)]
اسلاید 9 :
مثال
lیک مجموعه داده ششتائی با توزیع احتمال زیر وجود دارد:
l
P(X1) = 0.2 P(X4) = 0.1
P(X2) = 0.1 P(X5) = 0.2
P(X3) = 0.3 P(X6) = 0.1
فرضیه h برای مجموعه نمونه {X1, X2, X3, X4}میتواند X1, X2, X3 را بدرستی دستهبندی کند ولی قادر به دستهبندی صحیح X4 نیست. دراین صورت خطای نمونه برابر است با:
¼ (0 + 0 + 0 + 1) = ¼ = 0.25
اگر این فرضیه برای X6 صحیح و برای X5نادرست باشد در این صورت خطای واقعی برابر است با:
0.2(0) + 0.1(0) + 0.3(0) + 0.1(1) + 0.2(1) + 0.1(0) = 0.3
اسلاید 10 :
فاصلهاطمینانبرایفرضیههایبامقادیرگسسته
اگر سه شرط زیر برقرار باشند:
lنمونه S دارای n مثال باشد که مستقل از یکدیگر و مستقل از h برپایه توزیع احتمال D انتخاب شده باشند.
ln ³ 30 باشد.
lفرضیه h منجر به r خطا روی این مثالها گردد. (یعنی errorS(h)=r/n)
آنگاه میتوان بر پایه قضایای آماری ادعا نمود که: