بخشی از پاورپوینت
اسلاید 1 :
کاهش ابعاد دامنه ورودی Dimensionality Reduction
بسم الله الرحمن الرحیم
اسلاید 2 :
مقدمه
در این مقاله روشهائی مختلفی را برای کاهش ابعاد دامنه داده های ورودی بدون کم شدن دقت و صحت نتیجه نهائی ارائه خواهیم داد که، سعی در کاهش پیچیدگی زمانی و مکانی و تعداد نمونه های مورد نیاز برای train یک classifier دارند.
features
samples
features
اسلاید 3 :
چرا باید ابعاد دامنه را کاهش دهیم؟
کاهش پیچیدگی زمانی(Time complexity ) با کاهش محاسبات.
کاهش پیچیدگی مکانی (Space complexity) با کاهش پارامترها
در learning algorithms پیچیدگی به ابعاد دامنه ورودی(D)و اندازه نمونه ها(N) بستگی دارد.
کاهش D >>کاهش پیچیدگی استنباط در طول تست >> سیستم سریعتر پاسخ می دهد .
کاهش N با استفاده از نرمالیزه کردن مقدور می باشد .
اسلاید 4 :
چرا باید ابعاد دامنه را کاهش دهیم؟
مدلهای ساده روی مجموعه های های کوچکتر قوی تر و بهتر کار می کنند.
مدل های ساده واریانس کم دارند.
تشخیص نقاط پرت و نویزها.
سریع به جواب می رسد.
تجسم ساختار بصری قابل فهم از ساختار داده ها و داده های خاص.
اسلاید 5 :
روشهای کاهش بعد
روشهاي مبتني بر انتخاب ويژگی ( Feature Selection)
روشهاي مبتني بر استخراج ويژگي (Feature Extraction)
اسلاید 6 :
روشهاي مبتني بر انتخاب ويژگی ( Feature Selection)
انتخابK مشخصه از D مشخصه اولیه حاوی بیشترین اطلاعات .
Subset selection algorithms
زیر مجموعه دارای کمترین ابعاد و بیشترین دقت.
D ^ 2 زیر مجموعه برای تست وجود دارد.
اسلاید 7 :
روشهاي subset selection
Forward Selection
Backward Selection
اسلاید 8 :
Forward Selection
فرض کنید F یک مجموعه مشخصه از ابعاد ورودی Xi که i=1,2,…,d باشد.
E(F) مقدار خطای مشاهده شده روی نمونه معتبر ( Validation Sample)است.
خطا باید روی یک مجموعه معتبر(تصدیق شده) و جدا از مجموعه train انجام شود تا در مرحله تست , با دقت و درستی و صحت عمل کند.
اسلاید 9 :
Forward Selection
با یک مجموعه تهی F=Ø شروع می کنیم .
مدل را با یکی از مشخصه های Xi ،train می کنیم.
E(F U xi) را روی یک مجموعه معتبر ( تصدیق شده) محاسبه می کنیم.
Add xj To F If E(F U Xi) < E(F)
خطای تعیین شده توسط کاربرتعیین کننده است.
اسلاید 10 :
بعد k ام .. بعد دوم بعداول
نمونه اول
نمونه دوم
..
..
Forward Selection
Add xj To F If E(FU xj) < E(F)
اسلاید 11 :
Backward Selection
با مجموعهF شامل تمامی ابعاد دامنه شروع می کنیم .
یکی یکی از Feature ها کم می کنیم .
Remove xj From F If E(F - xj) < E(F)
تا زمانی این عمل را ادامه می دهیم که حذف یک مشخصه خطا را به طور قابل توجهی افزایش دهد.
Backward معمولا پر هزینه تر از Forward است.
اسلاید 12 :
معایبFeature Selection
این روش کم کردن ابعاد هزینه بر است .
Test & Train به میزان d+(d-1)+(d-2)+…+(d-k) که هزینه به مقدارO(d^2) به همراه دارد.
همیشه بهترین جواب (جواب بهینه) را پیدا نمی کنیم .
کوچکترین زیر مجموعه که باعث خطای کمتری شود ارائه می دهد .
الگوریتم حریصانه است.
اسلاید 13 :
معایبFeature Selection
ممکن است چند feature با هم روی کم کردن خطا تاثیر بگذارند.
Featureهایی که قبلا اضافه و یا پاک کرده ایم دوباره در جریان عملیات بیاوریم فضای جستجو افزایش در نتیجه پیچیدگی افزایش می یابد. (floating Search Method)
در یک کاربرد ماننده چهره شناسی feature selection روش مناسبی برای dimensionlity reduction نیست.
اسلاید 14 :
روشهای مبتنی بر استخراج ويژگی
يك فضاي چند بعدي را به يك فضاي با ابعاد كمتر نگاشت می کنند.
اين روشها به دو دسته خطي و غيرخطي تقسيم مي شوند.
روشهاي خطي ساده ترند و فهم آنها راحت تر است .
اسلاید 15 :
روشهای خطی
Discrete Wavelet Transform (DWT)
Discrete Fourier Transform (DFT)
Principal Component Analysis (PCA)
Factor Analysis (FA)
Projection Pursuit (PP)
Independent Component Analysis (ICA)
Random Projection (RP)
اسلاید 16 :
آنالیز مولفه های اصلی Principal Components Analysis
يك فضاي چند بعدي را به يك فضاي با ابعاد كمتر نگاشت ميکند.
تکنيک PCA بهترين روش براي کاهش ابعاد داده به صورت خطي مي باشد.
اطلاعات از دست رفته نسبت به روشهاي ديگر کمتر است.
در زمينه هاي ديگري مانند شناسايي الگو و تشخيص چهره نيز مورد استفاده قرار مي گيرد.
اسلاید 17 :
PCA
در اين روش محورهاي مختصات جديدي براي داده ها تعريف می شود.
اسلاید 18 :
مختصات جدید
W1 بردار ویژه در راستای بیشترین پراکندگی یا واریانس است.
W2 بردار ویژه در راستای دومین بیشترین پراکندگی است .
و..
تعریف بردار مختصات جدید Z = W (x-m)
X-m
ضرب در ترانهاده بردار ویژه
: بردار ویژهW
:مقدار میانگینm
اسلاید 19 :
PCA مباحث ریاضی مورد نیاز
میانگین
انحراف از معیار
واریانس که توان دو انحراف معیار است
اسلاید 20 :
PCA مفاهیم ریاضی مورد استفاده
اگر مقدار بدست آمده مثبت باشد آنگاه X و Y با هم افزايش يا کاهش مي يابند.
اگر مقدار بدست آمده منفي باشد آنگاه با افزايش X مقدار Y کاهش مي يابد و بالعکس.
اگر مقدار بدست آمده صفر باشد آنگاه X و Y از يکديگر مستقلند.