بخشی از پاورپوینت
اسلاید 2 :
Principal component regression رگرسیون اجزای اصلی(PCR)
اسلاید 3 :
تحلیل فاکتور قدرتمندترین تکنیک در حوزه کمومتریکس می باشد.تحلیل فاکتور تکنیک چند متغیره ایست جهت کاهش ابعاد داده ها با استفاده از حداقل تعداد بردارهای عمود برهم(فاکتورها) که حاوی کلیه اطلاعات مفید ومهم می باشند.
دوروش برگشت خطی جزء اصلی (PCR)و حداقل مربعات جزئی(PLS) از روشهای غیر مستقیم مبتنی بر فاکتور می باشند.
مقدمه(روشهای مبتنی برتحلیل فاکتور)
اسلاید 4 :
تعریفی از فاکتور در PCR(جزء اصلی)
یک فاکتور ، ترکیبی خطی از متغیرهای اصلی موجود در ماتریس می باشد.
در این روش ثابت شده است که میتوان بجای ماتریس J*J، متغیرهای آن را بصورت ترکیبی خطی ازJ فاکتور تعریف نمود ودر نتیجه متغیرهای جدیدی برای ماتریس بوجود آورد.
اسلاید 5 :
روش PCR
مرحله اول: تحلیل اجزای اصلی (PCA) یا Principal component analysis
مرحله دوم: رگرسیون MLR) Multiple Linear Regression)
اسلاید 6 :
مرحله اول : PCA
شامل یافتن فاکتورهای مناسب برای ماتریس Aمی باشد.بردارهای ویژه مناسبترین فاکتورها برای یک ماتریس هستند زیرا به بهترین نحو اطلاعات موجود درآن را تعریف و در نتیجه به کمک آنها می توان اطلاعات زائد راحذف نمود. با انتخاب بردارهای ویژه مناسب فضای جدیدی ایجاد میشود که از تصویرماتریس Aدر آن می توان ماتریس جدیدی بدست آورد که ماتریسTمی نامیم.
مرحله دوم: رگرسیون خطی چندگانه MLRروی ماتریس جدید T
اسلاید 7 :
مقادیر ویژه (eigenvalues)
هربردار ویژه( (eigenvector، یک مقدار خاص دارد که به آن(مقدار ویژه) eigenvalue می گویند.
Eigenvalue مربوط به یک eigenvector، مساوی با جمع مربعات داده های قابل مشاهده روی آن eigenvectorمی باشد.
Eigenvalue، یک اندازه گیری از واریانس کل بدست آمده برای تمام نقاطی است که فاصله زیادی از eigenvector، ندارند.
اسلاید 8 :
درک بهتر PCA
اسلاید 9 :
ماتریس 2*30 در یک فضای دو بعدی
اسلاید 10 :
معیارهای برای یافتن مولفه های اصلی
معیار اول(آزمون اسکری):مقدار بردار ویژه اول (واریانس توضیح داده شده توسط بردار ویژه اول)، حدود5 ، مقدار ویژه بردار دوم حدود1.2و مقدار بردار سوم به بعد کمتر از 1 می باشد. یعنی در ابتدا میزان کاهش اهمیت سریع بوده و سپس سرعت کاهش قطع می شود. نقطه شکستگی، حداکثر تعدادمولفه های اساسی را که باید در نظر گرفته شودرا نشان می دهد. یک PCکمتر از عددی که شکستگی را نشان می دهد نیز می تواند مفید باشد.بنابراین در نمودار زیر می توان مولفه اول یا دو مولفه اول را می توان در نظر گرفت.
اسلاید 11 :
معیار دوم (ارزش ویژه): مولفه هایی را که مقدار ویژه بزگتر از1 را نشان می دهند را در نظر گرفته واز سایر مولفه ها صرفه نظر می کنیم.
معیارسوم(واریانس): مولفه هایی که درصد بیشتری از پراکندگی(واریانس) را نشان می دهندبرای ادامه کفایت می کنند، معمولا مولفه اول بیشترین واریانس را در نظر می گیرد.
اسلاید 12 :
PCA
PCAمبتنی بر ترکیبی از ماتریس داده هایA، درون ماتریس های TوP می باشد. دو ماتریس TوP، اورتوگونال هستند.
در صورتیکه V، ماتریس بردارهای ویژه باشد، از تصویر A، بر روی فضای تعریف شده توسط V، به ماتریس T، با ابعاد کوچکتر از ماتریسA، دست یافت:
A V=T
ماتریسT را ماتریس اسکور می گویند که ترکیبی خطی از ستونهای ماتریس Aمی باشد.
اگر متغیرهای موجود در ماتریس Aرا بصورت ترکیبی خطی از اسکورها تعریف نمود، ماتریس لودینگ Pخواهیم داشت که اعضای آن کسینوس زوایای بین بردارهای ویژه ومحورهای مربوط به متغیرهابوده ومقادیرشان از -1تا+1 می باشد.درواقع ماتریس Pارتباط بین مختصات اصلی ومختصات جدید را نشان می دهد:
A=TV’ P
اسلاید 13 :
مرحله دوم PCR:
رگرسیون ماتریس Y، بر روی ماتریس T، می باشد:
Y=Tß+Ey
مقدار ماتریس ß،توسط روش حداقل مربعات تخمین زده می شود.
در مرحله پیشگویی، طیف Aنمونه مجهول در Vضرب می شود وبردار Tبدست می آید.سپس با ضرب کردن Tدر ß بدست آمده در مرحله کالیبراسیون ، بردار Yبرای نمونه مجهول حاصل می شود.
تعداد درجات آزادی برایPCR:
d.f. PCR=N-F-1
اسلاید 15 :
مراحل PCR
PCR، یک روش چند مرحله ای است که در زیر بیان شده است:
1-داده ها
2-پیش تیمار اختیاری
3-پیش تیمار اجباری
4-پیداکردن همه فاکتورها
5-نگهداشتن فاکتورهای مهم وچشمگیر
6-تولید دوباره داده های مهم(PC )ها
7-رسم کردن کالیبراسیون
اسلاید 16 :
پیش تیمار اختیاری
artificial removal
تصحیح خط اصلی یک طیف می باشد.به ازای هر چیز اضافه ای که غیر از جذب مورد نظر،وجود دارد وما بتوانیم آن را حذف نماییم ، می توان تعداد درجات آزادی ای که در اختیار مدل قرار داد تا اینکه ارتباط بین غلظتهاوجذبها را فیت کند و باعث دقت بالا و خطی شدن بیشتر در کالیبراسیون شود، بیشتر کرد.
Mean centering
تفریق تمام داده ها در هر طول موج از هر طیف، از مقدار میانگین جذب.
این جابجایی اصل واساسیست برای سیستم مختصات جدید تا سری داده ها را centerنماییم.
scaling and weighting
تعداد زیادی روش برای این دو عمل وجود دارند. این دو شامل ضرب کردن همه طیف ها توسط یک فاکتورمقیاس بندی است برای هر طول موج. این دو بخاطر افزایش یا کاهش دادن تاثیر روی کالیبراسیون ، انجام می شوند.
دو نوع scaling داریم:1- normalization or variance scaling 2- auto scaling
اسلاید 17 :
نرمالیزه کردن داده ها
قبل از نرمالیزه کردن
بعداز نرمالیزه کردن
اسلاید 18 :
پیش تیمار اجباری(mandatory pretreatment)
این نوع پیش تیماربرای بسیاری از الگوریتم ها برای محاسبه eigenvectorها ، بسیار ضروری می باشد.بیشتر الگوریتم ها به مربع کردن داده های ماتریس نیاز دارند. با ضرب کردن Transpose ماتریس A ، در قبل یابعد خود ماتریس A، اینکار انجام می شود.
D= AT.A
or
D=A.AT
اسلاید 19 :
چارچوب کلی برای کالیبراسیون در PCR
اسلاید 20 :
سری آموزشی (training set)
یک سری داده ها شامل اندازه گیریهایی روی یک سری نمونه های معلوم برای کالیبراسیون استفاده می شود که سری آموزشی نامیده می شود.
این سری آموزشی شامل یک ماتریس جذب طیفهایی است که اندازه گیری می شودو همچنین ماتریس غلظت شامل مقادیرغلظتی اندازه گیری شده توسط یک روش استاندارد مستقل و قابل قبول می باشد. داده های موجود در سری آموزشی برای کالیبراسیون استفاده می شودتا از آن برای اندازه گیری غلظتهای اجزای نمونه مجهول استفاده شود. سری اموزشی باید:
شامل همه اجزای پیش بینی شده باشد.
گستره ی غلظتی مورد نظر را داشته باشد.
محدوده شرایط مورد نظررا داشته باشد.
حاوی نمونه های غیر وابسته باشد.
هدف از ایجاد کالیبراسیون پیداکردن بهترین نماینده برای اینکه داده های اندازه گیری شده وپارامترهای پیش بینی شده باهم فیت شود.