بخشی از پاورپوینت
اسلاید 1 :
شناسايي آماري الگو
Statistical Pattern Recognition
اسلاید 2 :
رئوس مطالب
1- مقدمهای بر شناسايي آماري الگو
2- ويژگيها، بردارهاي ويژگي، طبقهبندها
3- يادگيري مربيدار، بدون مربي، نيمه مربي
4- مجموعه داده؛ آموزش و آزمایش
5- نکات تکمیلی
اسلاید 3 :
1- مقدمهای بر شناسايي آماري الگو
تشخیص الگو (Pattern recognition) قراردادن اشیاء در گروهها یا کلاسها
برحسب کاربرد؛ اشیاء بصورت تصویر، سیگنال، یا هر اندازه لازم جهت طبقهبندی
الگوها؛ اشیاءی برای توصیف یک پدیده فیزیکی یا یک موضوع (Object)
الگو (Pattern) در تقابل با آشوب (Chaos)، الگو یک موضوع خلاصه جهت توصیف یک شئی مانند مجموعهای از اندازهها
تشخیص الگو جزیی جدا ناپذیر از یادگیری ماشینی؛ PR ریشه در علوم مهندسی و ML ریشه در علوم رایانه
تشخیص الگو حایز اهمیت در بینایی ماشین (Machine vision)؛ بینایی ماشین شامل دریافت تصویر از طریق دوربین و تحلیل آن جهت توصیف و درک اینکه تصویر چیست
کاربرد بینایی ماشین در کارخانههای مونتاژ، اتوماسیون، خطوط تولید، بستهبندی
تشخیصالگو بعبارتی نسبتدادن برچسبها به اشیاء؛ مثال خط تولید کارخانه خودروسازی
شناسایی آماری الگو؛ لغتی جهت پوشش تمام طبقات یک تحقیق از فرمولبندی مسئله و جمعآوری داده تا تمییزدادن و طبقهبندی برای دستیابی به نتایج و تفاسیر
اسلاید 4 :
- نمونهای از الگوها
اسلاید 5 :
کاربردهای تشخیص الگو:
- بینایی ماشین (Machine vision)
- تشخیص کارکتر (حرف یا عدد) (Character recognition)
* سیستم تشخیص کارکتر نوری (OCR) موجود بصورت تجاری
- تشخیص بیماری رایانهای (Computer aided/or assisted diagnosis)
* کاربرد در تفسیر اشعه X، CT، ECG، EEG، و .
* سختی تفسیر دادههای پزشکی و وابستگی نتیجه تفسیر به مهارت پزشک
* ماموگرافی اشعه X جهت آشکارسازی سرطان پستان (بعنوان بهترین روش کنونی در تشخیص بیماری)، حدود 10 تا 30 درصد زنان بیمار تحت معاینه با تشخیص منفی، حدود 2/3 موارد خطای تشخیص ناشی از رادیولوژیست
* کاهش خطای تشخیص با بکارگیری رادیولوژیست دوم، تشخیص الگو در این نقش و کاهش هزینههای درمان ناشی از خطا و البته، مهمتر کاهش درد و رنج بیمار
- تشخیص صوت (Speech recognition)
* کاربرد نظیر ورود اطلاعات به رایانه، کنترل ماشینها در کارخانه با پیام صوتی
اسلاید 6 :
- دادهکاوی و کشف دانش (Data mining and knowledge discovery)
* کاربرد در پزشکی و بیولوژی، بازار و تحلیلمالی، مدیریتتجارت، بازیابیتصویر و آهنگ
* کاوش دادههای DNA و بیومدیکال
- تشخیص اثر انگشت و امضاء، بازیابی متن، تشخیص صورت، و موضوع جالب توجه اخیر، تشخیص حالت (ژست یا قیافه) (Gesture recognition)
چرخه تشخیص الگو
- ارایه مسئله توسط کاربر بهمراه مجموعه داده (درصورت موجود نبودن مجموعه داده، باید یک آزمایش جهت جمعآوری داده ترتیب دادهشود)
- هدف روشنکردن مسئله با تبدیل آن به واژگان PR، حل آن، و ارایه پاسخ به کاربر
- عملیات میانی شامل:
* تعیین و اندازهگیری ویژگیهای مناسب، تشکیل مجموعه ویژگی تاحد ممکن بزرگ، حتی ویژگیهای نامناسب در این مرحله بصورت تکی ولی مناسب بصورت ترکیبی
* محدودیت جمعآوری داده از جنبه مالی پروژه یا سختی اندازهگیری برخی از ویژگیها، سنجش تمیزی لباس یا روشهای تهاجمی در پزشکی
اسلاید 8 :
* تشخیص الگوی مربیدار یا بدون مربی؛ در یادگیری بدون مربی (Unsupervised) هدف کشفساختار موجود در مجموعهداده درصورت امکان (شناختهشده بنام خوشهبندی)
* در یادگیری مربیدار دادهها دارای برچسب میباشند (شناختهشده بنام طبقهبند)
2- ويژگيها، بردارهاي ويژگي، طبقهبندها
کلاس یا گروه مشتملبر اشیاء مشابه، و کلاسهای مختلف شامل اشیاء متفاوت
نمایش برچسب کلاسها با تعداد c کلاس بصورت Ω = {ω1, ω2, …, ωc}
یک مثال ساده، طبقهبندی یک تومور از تصویر پزشکی، a خوشخیم و b بدخیم
اسلاید 9 :
جامعه آماری افراد سالم و سرطانی بسیار گسترده، لذا الگوها نیز بسیار متنوع
برای یک پایگاه داده (Database)، تعریف مقادیر قابل سنجش جهت تفکیکپذیری دو گروه سالم و سرطانی
در این مثال، مقادیر میانگین و انحراف معیار استاندارد دو کمیت قابل سنجش برای جدا کردن کلاس A و B
ویژگی (Feature) عبارتستاز اندازههای استفادهشده برای طبقهبندی
اسلاید 10 :
یک بردار ویژگی شامل تعداد L ویژگی جهت توصیف هر الگو (یا شئی)
ویژگیها و بردارهای ویژگی متغیرها و بردارهای تصادفی، بدلیل طبیعت تصادفی اندازههای تعریفشده بخاطر نویز ذاتی ادوات اندازهگیری و تفاوت مشخصات الگوها
خط مستقیم جداکننده دو کلاس الگو شناختهشده بنام خط تصمیم (Decision line)
نقش طبقهبند (Classifier) ایجاد خط تصمیم، قرارگیری یک بردار ویژگی x در ناحیه A یا B بمعنای تعلق الگو به کلاس A یا B
لزوما تعلق یک بردار ویژگی به یک کلاس به معنای تصمیمگیری درست نمیباشد؛ اگر این تعلق درست نباشد، آنگاه یک طبقهبندی نادرست (Misclassification) داریم
بردارهای ویژگی جهت طراحی طبقهبند دارای برچسب شناخته شده بوده و الگوهای یادگیری (بردارهایویژگی یادگیری) (Training patterns) نام دارند
نکاتی پیرامون ویژگیها و طبقهبندی
* تولید ویژگی وابسته به هر مسئله تشخیص الگو و کار طبقهبندی میباشد
* تعداد مناسب ویژگیها باتوجه به سامانه طبقهبندی تعیین میشود
اسلاید 11 :
* مرز طبقهبندی همیشه خطی نبوده و برای هر مسئله بطور جداگانه بصورت بهینه بایستی مشخص شود
* پساز طراحی طبقهبند، بکارگیری مرحله آزمایش جهت بررسی عملکرد سامانه تشخیص الگو و تعیین میزان خطای طبقهبندی
در سامانهتشخیصالگو، قسمتهای مختلف میتوانند از هم مستقل یا غیرمستقل باشند
3- يادگيري مربيدار، بدون مربي، نيمه مربي
درصورت موجود بودن داده یادگیری با اطلاعات اولیه راجع به کار تشخیصالگو، یادگیری را مربیدار (Supervised learning) گویند
اسلاید 12 :
منظور از اطلاعات اولیه موجود بودن برچسب کلاسها میباشد
نوع دیگری از تشخیصالگو وجود دارد که در آن برچسب کلاسها معلوم نبوده و هدف کار تشخیصالگو، تعیین شباهتها و خوشههای شباهت برای مجموعهای از بردارهای ویژگی میباشد
این نوع یادگیری را یادگیری بدونمربی یا خوشهبندی (Unsupervised learning or Clustering) گویند
برخیاز کاربردهای طبقهبندی و خوشهبندی
* سنجشاز راهدور چند طیفی (Multispectral remote sensing)؛ اندازهگیری انرژی ساطعشده از سطح زمین توسط ماهواره، هواپیما، یا ایستگاه فضایی
* قسمتهایی نظیر خاکهای معدنی، و مرطوب، گیاهان، رسوب آب دارای طیفهای مختلف در محدوده نور مادونقرمز مرئی
* کار تشخیصالگو قراردان اطلاعات طیفی در گروههای تعیینکننده نوع پوشش زمین
* استفاده از الگوریتم خوشهبندی جهت تعیین انواع گروهها در باند طیف انرژی
اسلاید 13 :
یکیاز نکات اصلی در تشخیصالگوی بدونمربی تعریف شباهت بین بردارهای ویژگی و انتخاب مناسب معیار اندازهگیری
نکته حایز اهمیت دیگر، انتخاب الگوریتم مناسب برای خوشهبندی گروهها برحسب معیار شباهت تعریفشده، نیاز به تفسیر فرد خبره برای الگوریتمهای مختلف
اسلاید 14 :
در یادگیری نیمه مربیدار (Semi-supervised learning) اهداف کار طبقهبندی با یک مجموعه یادگیری برچسبدار با تعدادی داده بدون برچسب و ناشناخته به اشتراک گذارده میشود
اهمیت این روش تشخیص الگو برای طراحی سامانه با داده یادگیری محدود
4- مجموعه داده؛ آموزش و آزمایش
اطلاعات جهت طراحی طبقهبند یا خوشهبند را مجموعه داده (Data set) گویند
اسلاید 15 :
یک مجموعهداده X با ابعاد N × n شامل N بردار ویژگی n بعدی؛ هدف استفاده از تا حد ممکن تعداد بردارهایویژگی زیاد برای طراحیطبقهبند بعنوان داده آموزش (Training)
استفاده از تا حد امکان تعداد بردارهای ویژگی زیاد دیده نشده جهت بررسی عملکرد طبقهبند بعنوان داده آزمایش (Testing)
بکارگیری کل داده برای آموزش و استفاده از همه آنها برای آزمایش؛ فوق یادگیری (overtrain)
مشکل فوق یادگیری در تشخیص صحیح دادههای خارج از X (یا دیده نشده)
اهمیت داشتن یک مجموعه مجزا از X جهت بررسی عملکرد سامانه تشخیصالگو
روشهای مختلف تقسیم داده جهت تشکیل داده آموزش و آزمایش
* جایگزینی مجدد (Resubstitution) یا روش R (R-method): طراحی طبقهبند با کل داده X و آزمایش با همان مجموعه داده؛ عملکرد سامانه بایاس شده
* بیرون نگهدار (Hold-out) یا روش H (H-method): تقسیم داده X به دو قسمت مساوی جهت تشکیل مجموعه داده آموزش و آزمایش؛ امکان استفاده از نسبتهای دیگر جهت تقسیم
اسلاید 16 :
- امکان تعویض داده آموزش و آزمایش جهت تخمین خطای طبقهبند و گرفتن میانگین خطای دو مرحله آموزش و آزمایش
- نسخه دیگر این روش بنام ترکیب داده (Data shuffle) بصورت تقسیم تصادفی X به K قسمت آموزش-آزمایش با نسبت دلخواه و گرفتن متوسط خطای طبقهبندی K مرحله بعنوان خطای نهایی
* ارزیابی متقابل (Cross-validation) یا روش چرخشی؛ انتخاب یک مقدار صحیح K (ترجیحا مضربی از N) و تقسیم تصادفی X داخل K زیرمجموعه با اندازه N/K
- کنار گذاشتن یک قسمت برای آزمایش و بکارگیری K-1 قسمت برای آموزش، تکرار این مراحل K بار و گرفتن میانگین بین خطای K مرحله بعنوان خطای نهایی
- اگر K= N آنگاه روش یکی-بیرون-نگهدار (Leave-one-out) یا روش U
- بطور معمول K= 10 و روش بنام ارزیابی متقابل 10 چرخشی (10-fold cross-validation)
* بند پوتین (Bootstrap) روشی جهت اصلاح عیب بایاس در روش R
اسلاید 17 :
- استفاده از این روش جهت تولید مجموعه داده بزرگتر از مجموعه دادههای کوچک
- نمونهبرداری تصادفی از مجموعهداده X با جایگزینی جهت تشکیل مجموعهداده جدید X*
استفادهاز سه مجموعهداده از X بنامهای آموزش (Training)، ارزیابی (Validation)، و آزمایش (Testing) برای طراحی سیستم تشخیصالگو (اگر X باندازه کافی بزرگ باشد)
مجموعهداده آموزش برای طراحی، ارزیابی جهت بررسی اولیه عملکرد و پسخورد جهت اصلاح طبقهبند، و آزمایش برای بررسی نهایی عملکرد سامانه تشخیصالگو
5- نکات تکمیلی
در یک مسئله تشخیصالگو، تعریف ویژگیها وابسته به نوع داده
تاثیر نویز و اغتشاش در خراب کردن داده، نیاز به مرحله پیشپردازش قبلاز اعمال هرگونه روش جهت استخراج ویژگیها
تعداد مناسب ویژگیها وابسته به نوع مسئله، داده آموزش، و معیار انتخاب آنها
اسلاید 19 :
تصمیم در اختصاص یک بردار ویژگی ورودی به یک گروه یا خوشه به قاعده تصمیمگیری (Decision rule) بستگی دارد، هر قاعده منجر به ایجاد یک مرز تصمیم (Decision boundary) میشود