بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

مقدمه

یک الگوریتم یادگیری با استفاده از داده‌های آموزشی فرضیه‌ای را بوجود می‌آورد. قبل از استفاده از این فرضیه ممکن است که لازم شود تا دقت این فرضیه مورد ارزیابی قرار گیرد.

 

 

 

اینکار از دو جهت اهمیت دارد:

.1دقت فرضیه را برای مثالهای نادیده حدس بزنیم.

.2گاهی اوقات ارزیابی فرضیه جزئی از الگوریتم یادگیری است: مثل هرس کردن درخت تصمیم.

اسلاید 2 :

روشهایآماری

در این فصل سعی می‌شود تا روشهای آماری مناسب برای حدس زدن دقت فرضیه‌ها معرفی گردند .مبنای کار در جهت پاسخگوئی به سه سوال زیر است:

.1اگر دقت یک فرضیه برای داده‌های محدودی معلوم باشد دقت آن برای سایر مثالها چه قدر خواهد بود؟

.2اگر یک فرضیه برای داده‌های محدودی بهتر از فرضیه دیگری عمل کند احتمال اینکه این وضعیت در حالت کلی نیز صادق باشد چقدر است؟

.3وقتی که داده آموزشی اندکی موجود باشد بهترین راه برای اینکه هم فرضیه را یاد بگیریم و هم دقت آنرا اندازه‌گیری کنیم چیست؟

اسلاید 3 :

کمیدادههایآموزشی

وقتی که داده آموزشی محدود باشد این امکان وجود دارد که این مثالها نشاندهنده توزیع کلی داده‌ها نباشند.

اسلاید 4 :

مشکلکمیداده

وقتی که یادگیری با استفاده از داده‌های محدودی انجام می‌شود دو مشکل ممکن است رخ دهد:

.1بایاس در تخمین.

  دقت یک فرضیه بر روی مثالهای آموزشی تخمین مناسبی برای دقت آن برای مثالهای نادیده نیست. زیرا فرضیه یاد گرفته شده بر اساس این داده‌ها برای مثالهای آتی به صورت خوش‌بينانه (optimistic) عمل خواهد نمود. برای رهائی از این امر می‌توان از مجموعه داده‌های تست استفاده کرد.

.2انحراف (Variance) در تخمین.

  حتی با وجود استفاده از مجموعه تست این امکان وجود دارد که دقت فرضیه اندازه‌گیری شده با دقت فرضیه واقعی اختلاف داشته باشد. این دقت بستگی به خصوصیات مجموعه تست و تطابق با توزیع کلی داده‌ها دارد.

اسلاید 5 :

Bias and Variance in the Estimate

اسلاید 6 :

تخمیندقتفرضیه

در یک مثال یادگیری می‌توان برای فضای مثالهای ورودی یک تابع توزیع احتمال نامعلوم D در نظر گرفت که احتمال رخداد هر نمونه X را با p(X) مشخص می‌نماید.

 

 

 

 

در این صورت با دو سوال زیر مواجه هستیم:

.1اگر فرضیه h و تعداد n نمونه داشته باشیم که به صورت تصادفی از مثالهائی با توزیع D انتخاب شده باشند، بهترین تخمین برای دقت h برای مثالهای  آتی با همان توزیع چیست؟

.2خطای احتمالی در این تخمین دقت چقدر است؟

اسلاید 7 :

خطاینمونهوخطایواقعی

lخطای نمونه

  خطای فرضیه روی مجموعه مثالهای موجود) آموزشی و یا تست) به عبارت دیگر کسری است از نمونه‌های S که تحت فرضیه h نسبت به تابع هدف f اشتباه دسته‌بندی شده‌اند:

errorS(h)= 1/n SxÎSd(f(x),h(x))

  که در ان n تعداد مثالهای S و اگر f(x) ¹ h(x)آنگاه مقدار d(f(x),h(x))  برابر با 1 است در غیر این صورت برابر با 0 است.

اسلاید 8 :

lخطای واقعی

  عبارت است از خطای فرضیه روی مجموعه تمام مثالها با توزیع نامعلوم D و برابر است با احتمال اینکه یک نمونه تصادفی به اشتباه دسته‌بندی شود.

  خطای واقعی فرضیه h نسبت به تابع هدف f و داده با توزیع D به صورت زیر بیان می‌شود:

errorD(h)= PrxÎD[f(x)¹ h(x)]

اسلاید 9 :

مثال

lیک مجموعه داده شش‌تائی با توزیع احتمال زیر وجود دارد:

l

P(X1) = 0.2    P(X4) = 0.1

P(X2) = 0.1    P(X5) = 0.2

P(X3) = 0.3    P(X6) = 0.1

  فرضیه h برای مجموعه نمونه {X1, X2, X3, X4}می‌تواند X1, X2, X3 را بدرستی دسته‌بندی کند ولی قادر به دسته‌بندی صحیح X4 نیست. دراین صورت خطای نمونه برابر است با:

¼ (0 + 0 + 0 + 1) = ¼ = 0.25

  اگر این فرضیه برای X6 صحیح و برای X5نادرست باشد در این صورت خطای واقعی برابر است با:

0.2(0) + 0.1(0) + 0.3(0) + 0.1(1) + 0.2(1) + 0.1(0) = 0.3

اسلاید 10 :

فاصلهاطمینانبرایفرضیههایبامقادیرگسسته

اگر سه شرط زیر برقرار باشند:

lنمونه S دارای n مثال باشد که مستقل از یکدیگر و مستقل از h برپایه توزیع احتمال D انتخاب شده باشند.

ln ³ 30  باشد.

lفرضیه h منجر به r خطا روی این مثالها گردد. (یعنی  errorS(h)=r/n)

  آنگاه می‌توان بر پایه قضایای آماری ادعا نمود که:

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید