بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

آنالیز مولفه هاي اصلی (PCA) داده هاي ژئوشیمیایی بسته (مطالعه موردي میدان معدنی ایجو)

 

چکیده :

داده هاي ترآیبی (compositional)، داده هاي بسته حاوي اطلاعات نسبی می باشند آه حاصل جمع این گونه داده ها ثابت می باشد( به عنوان مثال ١٠٠%). به همین دلیل ساختار همبستگی داده هاي ترآیبی شدیدا نااریب است و نتایج روش هاي آماري چند متغیره بدون اعمال تبدیلات مناسب بر داده ها، خطادار می باشد. از جمله این تبدیلات، خانواده تبدیلات لگاریتم ریشه اي (logratio) است. اغلب جهت بازآردن داده هاي بسته از تبدیل لگاریتم ریشه اي مرآزي((clr استفاده می گردد. هرچند این تبدیل را نمی توان براي روش هاي آماري مقاوم((robust استفاده نمود. بنابراین بایستی داده ها تحت تبدیل لگاریتم ریشه اي ایزومتریک((ilr قرار گیرند هرچند، متغیر هاي جدید حاصل از این تبدیل را نمی توان تفسیر نمودبنابراین بایستی داده هاتبدیل معکوس شوند.تحلیل داده ها و رسم نمودارها در نرم افزار R انجام شد. در این مقاله، تحلیل مولفه هاي اصلی((PCA مقاوم و آلاسیک براي ١٢٢ نمونه سطحی در میدان معدنی ایجو، بر روي داده هاي خام، لگاریتمی شده و لگاریتم ریشه اي براي ٨ عنصر و اآسید ردیاب و معرف آانی سازي مس ، انجام گردید و نتایج حاصل از آن ها در قالب نمودارهاي دوتایی((biplot با یکدیگر مقایسه شد آه نشان دهنده برتري نتایج حاصل از PCA مقاوم براي داده هاي تبدیل یافته با ilr بود و همچنین ثابت شد آه یک تبدیل مناسب جهت انجام PCA براي داده هاي ژئوشیمیایی به اقتضاي طبیعت بسته آن ها بایستی اعمال گردد و همچنین روش مقاوم در صورت وجود مقادیر خارج از ردیف بهتر می باشد.

آلید واژه ها:آماره مقاوم، داده هاي ترآیبی، تبدیل لگاریتم ریشه اي ایزومتریک، تحلیل مولفه هاي اصلی

 

مقدمه :

داده هاي ترآیبی (Compositional Data) ،داده هایی است آه فقط شامل اطلاعات نسبی می باشند]۶.[ این گونه داده ها، قسمتی از آل هستند.

در بیشتر حالات،این داده ها را داده هاي بسته می نامند زیرا داراي حاصل جمع ثابت هستند]۶.[یک مثال آلاسیک براي آرایه بسته یا یک سیستم عددي بسته، مجموعه اي از داده ها است آه متغیرهاي آن مستقل از یکدیگر نمی باشند و به صورت درصد یا قسمت در میلیون بیان میشوند]١٣.[ در گذشته، مجموعه داده هاي با حاصل جمع ثابت را داده هاي ترآیبی می نامیدند اما در حال حاضر این داده ها داراي تعریف وسیع تري است و مجموعه داده هایی آه داراي حاصل جمع ثابت نیز نمی باشند را شامل می گردد]۶.[ فضاي اقلیدسی براي داده هاي ترآیبی مناسب نمی باشند و محدودیت حاصل جمع ثابت این داده ها دلالت بر هندسه خاصی را دارد آه در اصطلاح هندسه اتچیسون (Aitchison) در محیط ساده شده (simplex) نامیده می شود]۵١،١٣.[

مشکلات آاربرد تحلیل هاي آماري در سیستم هاي عددي بسته در بسیاري از تالیفات از بیش از ٣٠ سال پیش مورد بحث قرار گرفته است] ٢٢،١٠،٩،٧،۵،۴،٣،٢.[
داده هاي ترآیبی داراي خواص مهم وخاصی هستند آه سبب شده نتوان از روش هاي آماري استاندارد استفاده نمود. روش هاي آماري استاندارد براي استفاده جهت داده هاي آزاد آه در بازه -∞ تا +∞ تغییر می نماید،طراحی شده اند]٨.[ داده هاي ترآیبی همیشه مثبت می باشند و هنگامی آه به شکل بسته هستند فقط در بازه ٠ تا ١٠٠ یا هر ثابت دیگري تغییر می نمایند]۵١،١٣.[

با آغاز ارائه مقالات توسط ] Aitchison٣،٢[ تحقیقات بسیاري جهت یافتن یک تبدیل مفید براي داده هاي ترآیبی به منظور تحلیل مولفه هاي اصلی((PCA انجام گرفت. سپس تبدیل لگاریتم ریشه اي مرآزي((clr به عنوان یک گزینه برتر جهت PCA رائه شد آه براساس لگاریتم خارج قسمت متغیر مربوط به هر نمونه بر میانگین هندسی آن ها است]۵.[
هدف از PCA، دستیابی به دستگاه محورهاي مختصاتی هستیم آه بتواند با تعداد آمی بعد(متغیر جدید) بخش عمده تغییر پذیري را توجیه آند. این روش به وجود مقادیر خارج از ردیف حساس می باشد

و نتایج بدست آمده بدون حذف این مقادیر، با خطا همراه است]۶١،۴١.[ در PCA آلاسیک آه براساس ماتریس آواریانس آلاسیک است، این مسئله بروز مینماید. در نتیجه بایستی از PCA مقاوم (robust) براي رفع این مشکل استفاده نمود]١٣.[روش هاي مقاوم آه با داده هاي تبدیل یافته توسط clr سازگار نمی باشند بر اساس یک تخمینگر آواریانس مقاوم مانند ] MCD١٨[ می باشد. درنتیجه بایستی از تبدیل ilr استفاده نمود وسپس بارها وامتیازات بدست آمده بایستی به فضاي clr تبدیل معکوس شوند تا بتوان متغیرها را تفسیر آرد]۴١.[

براي استفاده از روش هاي آماري استاندارد بایستی تبدیلات مناسب بر روي داده ها انجام گیرد آه از جمله آن ها تبدیلات خانواده لگاریتم ریشه اي (logratio) می باشد]۴.[

تحلیل داده ها و رسم نمودارها در نرم افزار R انجام گردید آه یک محیط رایانه اي قدرتمند براي تحلیل هاي آماري داده ها میباشد. در این مقاله از بسته هاي نرم افزاري robCompositions ، compositions
و StatDA جهت تحلیل داده ها در R استفاده گردید]١٩.[

◊◊◊◊◊◊◊

تبدیلات داده هاي ترآیبی

مرجع آلیدي براي تحلیل آماري داده هاي ترآیبی ]۴Aitchison[ می باشد. بیش از ٢٠ سال است آه طبیعت این نوع خاص از داده ها و چگونگی رفتار با آن ها شناخته شده است اما آارهاي آمی در مورد آن به انجام رسیده است ]۵١.[به دلیل محدودیت حاصل جمع ثابت در این نوع از داده ها،فضاي هندسی استاندارد اقلیدسی آاربردي ندارد و از فضاي ساده شده (Simplex) استفاده می گردد]١١،۴.[ هندسه داده هاي ترآیبی تحت عنوان هندسه اتچیسون((Aitchison شناخته شده است ]١٣.[ خوشبختانه،روش مطلوبی براي تبدیل داده هاي ترآیبی از فضاي نمونه ساده شده به فضاي اقلیدسی وجود دارد آه به نام تبدیلات لگاریتم ریشه اي ]۴،١١[، نامیده می شود. دو نوع تبدیل وجود دارد آه ارتباط یک به یکی از فضاي ساده شده به اقلیدسی برقرار می نماید:تبدیل لگاریتم ریشه اي مرآزي(] (clr۴[ و تبدیل لگاریتم ریشه اي مرآز ایزومتریک ] (ilr)١١.[تبدیل clr منتج به یک مشاهده چند متغیره می گردد و به شرح ذیل تعریف می شود:


تبدیل ilr منتج به یک مشاهده چند متغیره در فضاي D-1 بعدي می گردد آه تفسیر داده ها را غیرممکن می نماید و طبق معادله ذیل محاسبه می شود:



١٣Filzmoser[ تایید نمود آه به غیر از سه نوع تبدیل لگاریتم ریشه اي،هر نوع تبدیل دیگري براي بازکردن متغیرهاي ترآیبی و سیستم هاي عددي بسته جهت تحلیل هاي آماري،مطلوب نمی باشند.

تحلیل مولفه هاي اصلی و مقاوم آردن آن:

تحلیل مولفه هاي اصلی((PCA، یکی از مهم ترین روش هاي آماري چند متغیره است آه به طور وسیعی براي پیش پردازش و آاهش ابعاد داده ها استفاده می گردد و مولفه هاي منتج از آن براي تحلیل هاي آماري چنر متغیره استفاده می شود]۴١،١٧.[

مولفه هاي اصلی((PC از ترآیب ماتریس آواریانس یک ماتریس داده X یا ابعاد n*D با مشاهدات چندمتغیره xi بدست می آیند. براي تبدیل PCA، تخمینگر موقعیت(T(X و تخمینگر پراآندگی(C(X نیاز می باشد. در PCA آلاسیک، T(X) میانگین حسابی و C(X) ماتریس آواریانس پراآندگی است آه هر دو تخمینگر به مقادیر خارج از ردیف حساس میباشند بنابراین از جانشین هاي مقاوم تر مانند دترمینان آواریانس مینیمم (MCD) استفاده می گردد. در صورت استفاده از روش هاي مقاوم، تبدیل clr مناسب نمی باشد اما تبدیلilr بایستی مورد توجه قرار گیرد ]۴١

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید