بخشی از مقاله
چکیده
در سالهای اخیر با توجه به تبیین اصول بررسی دادههای ترکیبی و اصول استفاده از این دادهها در آنالیزهای آماری میتوان شاهد موفقیت این رویکرد در برخورد با دادهای ترکیبی بود. در زمینهی تحلیل داده های آماری در بررسیهای ژئوشیمیایی میتوان با توجه به ماهیت ترکیبی داده های ژئوشیمیایی به نیاز این علم به بررسیهای موردی با رویکردی تازه به داده ها پی برد. در این مقاله داده های ژئوشیمیایی رسوبات آبراههای ورقه 1:20000 بالوقیه مشکین شهر اردبیل که برای 23 عنصر آنالیز گردیده است به منظور بررسی کانی سازی طلا با استفاده از روش رگرسیون چندگانه مورد استفاده قرار گرفته است.
نتایج حاصله از بکارگیری این روش نشان میدهد که مدل حاصله از ضریب قوت پائین - R2=0.31 - برخوردار است بنابراین نمیتواند ارتباط صحیح عناصر مرتبط با کانی سازی طلا را نشان دهد. برای بهبود نتایج ابتدا دادهها توسط تبدیل ایزومتریک - ilr - تبدیل گردیدند و سپس توسط روش رگرسیون چندگانه تحلیل انجام گرفت. نتایج بدست آمده نشان میدهد که مدل رگرسیون ارائه شده ابزار توانمندی برای معرفی مناطق کانی سازی شده برای عنصر طلا در منطقه میباشد زیرا این نتایج توسط بررسیهای صحرایی به خوبی تائید گردیده است.
مقدمه
در آنالیر رگرسیون چندگانه هدف انتخاب مدل ریاضی است که بتواند بیشترین انطباق را با مقدار مشاهدات داشته باشد. در عمل تعدادی از متغیرهای مستقل - بعضی از مقادیر ژئوشیمیایی - به یک متغیر وابسته به دلخواه که آن هم میتواند یک مقدار ژئوشیمیایی دیگری باشد ربط داده میشود. سپس بر اساس مدلی که بهترین تطبیق را با مقادیر مشاهده شده داشته باشد، میتوان مشخص کرد که کدام یک از متغیرهای مستقل بهتر میتواند تغییرات بعضی از متغیرهای دیگر را توجیه نماید
آنالیزهای ژئوشیمیایی، از جمله مثالهای بارز دادههای ترکیبی میباشند. به عنوان مثال در یک نمونه گرفته شده از سنگ آذرین، اگر مقدار SiO2میزان 69 درصد از ترکیب سنگ را شامل شود، سایر اجزای تشکیل دهنده این نمونه، به عنوان مثال MgO، 31 درصد باقی مانده از ترکیب سنگ را تشکیل خواهند داد. دادههای ترکیبی دارای خواص خاصی هستند که سبب شده نتوان از روشهای آماری استاندارد برای تحلیل آنهااستفاده نمود. فضای اقلیدسی برای دادههای ترکیبی مناسب نمیباشند و محدودیت حاصل جمع ثابت این دادهها دلالت برهندسه خاصی را دارد که در اصطلاح هندسه آیچیسون در محیط ساده شده نامیده میشود
در این مقاله دادههای ژئوشیمیایی رسوبات آبراههای ورقه 1:20000 بالوقیه توسط روش رگرسیون چندگانه خطی با رویکرد دادههای ترکیبی مورد تحلیل جهت معرفی مناطق کانی سازی شده طلا قرار گرفته است.
منطقه مورد مطالعه
منطقه مورد مطالعه در 15 کیلومتری جنوبغرب مشکینشهر و شمال غرب کوه سبلان واقع میباشد. محدوده اکتشافی بر روی 2 نقشه زمینشناسی000،1:100 مشکینشهر و اهر واقع شده است. واحدهای سنگی موجود در محدوده اکتشافی متعلق به دوران سوم زمینشناسی - سنوزوئیک - و مربوط به دورههای ائوسن و جوانتر میباشد
خصوصیات سنگشناسی و زمینشناسی واحدهای رخنمون یافته در محدوده اکتشافی بر اساس ترتیب سنی از قدیم به جدید شامل واحد آندزیت پورفیری آنالیسمدار، متاولکانیک، واحد آندزیت تا تراکی آندزیت مگاپورفیر، واحد آندزیتبازالت، آندزیت پیروکسندار، واحد کنگلومرا و مارن، واحد تراورتن، رسوبات آبرفت عهد حاضر، واحد آذرین نفوذی میباشد.
رگرسیون خطی با رویکرد دادههای ترکیبی
در آنالیز رگرسیون خطی، هدف توضیح واکنش متغیرYبا استفاده از متغیرهای شناخته شده 1, ⋯ , میباشد. یک مدل رگرسیون مورد انتظار با مقادیر معمول به شکل زیر میباشد:
-2 تبدیل نسبت لگاریتمی مرکزی - clr - ارائه شده توسط .[7] که منتج به یک مشاهده چند متغیره میگردد و بصورت زیر تعریف میشود:
-3 تبدیل لگاریتم ریشهای مرکز ایزومتریک - ilr - ارائه شده توسط .[9] منتج به یک مشاهده چند متغیره در فضای D-1 بعدی میگردد:
در این معادله مقادیر 0, ⋯ , با استفاده از روشهایی، برای مثال روش کمترین مربعات محاسبه میشوند. این شیوه زمانی معقول میباشد که هر دو متغیرهای Xو Yدارای اطلاعات مستقل باشند - که معمولاً با واحدهای فیزیکی معرفی میشوند - . در بسیاری از شرایط کاربردی، متغیرهای توضیحی ارتباط سهم مولفهها را در میان کل متغیرها بیان میکنند. در چنین مواردی جمع متغیرها اهمیتی نداشته و مهمترین اطلاعات در نسبتهای میان متغیرها میباشد. معمولاً چنین دادههایی بصورت مقادیر نسبی یا درصد بیان میشوند و مجموع آنها مقید به مقدار ثابتی - معمولاً 1 یا - 100 میباشد. فضای نمونه دادههای ترکیبی برای یک ترکیب-D جزئی - = - 1, ⋯ , بصورت زیر تعریف میشود:
در رابطه فوق مقدار ثابت K با توجه به واحد اندازهگیری مجموعه دادهها،به عنوان مثال از 100 برای دادههایی که بصورت درصد بیان میشوند تا 106برای دادههایی که بر حسب ppm بیان میشوند، متفاوت میباشد. دادههای ترکیبی شامل دادههای با اطلاعات نسبی میباشد. این گونه داده-ها، قسمتی از کل هستند. در بیشتر حالات، این دادههارا دادههای بسته مینامند زیرا دارای حاصل جمع ثابت هستند.
با توجه به این که اکثر روشهای آماری بر هندسه اقلیدسی تکیه دارند لذا جهت استفاده از دادههای ترکیبی در این روشها نیاز به تبدیلاتی میباشد که این دادهها را از فضای آیچیسونی به فضای اقلیدسی منتقل نماید.
سه نوع تبدیل لگاریتمی زیر بمنظور بازکردن دادههای ترکیبی ارائه شده است:
-1 تبدیل نسبت لگاریتمی افزوده - alr - ارائه شده توسط
فیلزموزر - 2009 - معتقد است که به غیر از سه نوع تبدیل لگاریتمی نسبی مذکور هر نوع تبدیل دیگری برای بازکردن متغیرهای ترکیبی جهت تحلیلهای آماری، مطلوب نمیباشد.
بنظر میرسد یک تبدیل ایزومتریک لگاریتمی تنها راه بدست آوردن یک مدل رگرسیون بدونه توجه به محدودیتهای پارامترها باشد که موجب تفسیر معناداری از پارامترهای ناشناخته میشود.
با توجه به فرمول - 5 - متغیر y1 بیانگر تمام اطلاعات ارتباطی ترکیب x1میباشد زیرا تمام نسبت های بین x1و سایر قسمتهای ترکیب را توجیه مینماید
رگرسیون خطی چندمتغیره
این روش تجزیه و تحلیل آماری میتواند برای شناخت روابط بین تغییرات بعضی از عناصر در یک ناحیه مورد استفاده قرار گیرد که خود موجب میشود تا معیار مدللی برای تشخیص عناصر ردیاب در یک ناحیه خاص و یا برای نوع خاصی از کانیسازی مشخص شود. نتایج حاصل از این نوع تجزیه و تحلیل آماری همچنین میتواند در تشخیص آنومالی واقعی - مفید - از انواع دروغی و بی اهمیت مورد استفاده قرار گیرد
در بسیاری از موارد با متغیرهایی سرو کار داریم که تابعی از دو یا چند متغیر مستقل میباشند. به عنوان مثال عیار طلا تابعی از عناصر ردیاب آن مانند Sbو Asاست. همچنین وزن مخصوص یک نمونه کانسنگ آهن تابعی از عیار Feو FeO است و بالاخره کیفیت نفت خام یک مخزن بستگی به سن، عمق، درجه حرارت تشکیل، درجه بلوغ مواد آلی و تعدادی موارد دیگر در آن مخزن دارد. تخمین یکی از پارامترها از روی مقادیر متغیرهای دیگر نیاز به محاسبه و ارائه مدلی دارد که بتواند ارتباط بین پارامتر مجهول را با متغیرهای معلوم بیان نماید. چنین مدلی از طریق برازش خطی به دادهها و آزمون نیکویی برازش به آنها انجام میگیرد. در رگرسیون چندگانه اهداف چندی دنبال میشود که مهمترین آنها به شرح زیر است:
-1 خلاصه کردن حجم زیادی از دادهها به صورت یک تابع از چند متغیر مستقل.
-2 درک فرآیند مربوط به یک پدیده مورد بررسی، به عنوان مثال میزان بلوغ هیدروکربن به صورت تابعی از سن، عمق، درجه حرارت و غیره
-3 تخمین کمیتهایی که اندازه گیری آنها مشکل و یا پر خطا است ولی مربوط به کمیتهای دیگری است که اندازه گیری آنها ساده و کم خطا است. مانند تخمین تخلخل از روی لاگهای چاهپیمایی و یا تخمین عیار طلا - که اندازهگیری آن مشکل و پر خطا است - از روی ردیابهای آن مانند آرسنیک.
رگرسیون چندگانه یک روش آماری کاملا چندمتغیره نیست زیرا فقط با یک متغیر وابسته سروکار دارد ولی معمولا در مباحث آماری در بخش آمار چند متغیره مطرح میشود.
در تهیه مدل رگرسیون خطی از دادههای گزارش سازمان زمین شناسی استان اردبیل با عنوان "اکتشافات طلا و مس بالوقیه مشکین شهر" استفاده گردید این گزارش شامل نقشه زمینشناسی محدوده در مقیاس000،1: 20 در وسعتی برابر با 40 کیلومترمربع و اطلاعات نمونههای ژئوشیمیایی که با برداشت 51 نمونه ژئوشیمی میباشد.
با توجه به نیاز روشهای آماری به آماده سازی دادههای خام لذا پس از تهیه داده ها پیشپردازش ها جهت آماده سازی دادهها انجام پذیرفت که شامل تصحیح مقادیر خارج از ردیف و نرمال سازی دادهها میباشد. برای تصحیح مقادیر خارج از ردیف از روش دورفل و برای نرمال سازی داده ها از روش لگاریتم طبیعی استفاده شد. تصحیح مقادیر سنسورد و بررسی خطایآنالیز قبلا بر روی دادهها صورت گرفته بود. برای بدست آوردن مدل رگرسیون خطی از نرمافزا MINITAB استفاده شد.
-4-1 مدل خطی عمومی
فرض کنید x1، x2 ، ... ،xk متغیرهای قابل اندازهگیری - با خطای کم - باشد و y یک متغیر تصادفی قابل اندازهگیری با پراش باشد σ2 به طوری که در آن E - y - امید ریاضی yو i معرف ضرایب خطی مجهول هستند. اگر σ2 به xi و i بستگی نداشته باشد. رابطه فوق را میتوان به صورت زیر نوشت:
اولین گروه از مقادیر xi که نتیجه اندازهگیری متغیرهای مختلف - k - در یک نمونه است را به صورت x11، x12 ، ... ،x1k نشان میدهیم . حال مقادیر y1 متناظر با این مقادیر در همان نمونه اندازهگیری میشود. بنابراین میتوان معادله زیر را برای اندازهگیریها نوشت:
سپس نمونه دوم مورد اندازهگیری قرار میگیرد و یک دسته داده دیگر بدست میآید. این عمل برای n نمونه انجام میشود. که در آن n k است. در این حالت معادلات زیر ا میتوان نوشت:
ستون اول ماتریس - [x]که از تعدادی عدد یک تشکیل شده است - جمله 0 معادلات y1 تا yn را تشکیل میدهد. رابطه ماتریسی معادلات بالا را میتوان به صورت زیر نوشت:
در ادامه با استفاده از مبانی روش رگرسیون، جهت یافتن مناطق امید بخش برای طلا و مس در تیپ کانساری منطقه که از نوع پلی متال میباشد از عناصر Mn، Ba، S، Ag، Sb، As، Cu، Zn، Pb بعنوان ردیاب طلا استفاده گردید.
با توجه به اینکه میزان ضریب تشخیص1 این مدل کم میباشد - - %31 لذا نمیتوان از این مدل انتظار دقت بالایی داشت.شرایط فوق را مدل خطی عمومی مینامند. برای استفاده از این مدل ابتدا باید مقادیر xi را برای هر مورد مشخص کرد.