بخشی از مقاله
چکیده
تا کنون مطالعات زیادی در زمینه شناسایی شکستگیهای طبیعی صورت پذیرفته است که هنوز به هدف نهایی و کارآمد برای استفاده در صنعت نرسیده است. در این تحقیق سعی شده است با استفاده از دادههای پتروفیزیکی به این تشخیص دست یابیم که آیا یک ناحیه از چاه دارای شکستگی باز، شکستگی بسته و یا فاقد شکستگی میباشد . در روش پیشنهادی از درخت تصمیم برای نمایش فرضیهها استفاده شده و برای استنتاج این درخت تصمیم از روی دادههای پتروفیزیکی، از یک الگوریتم بسیار کارآمد به نام C4.5 بهره گرفته شده است. در ضمن جهت افزایش کارایی از روشی با عنوان بگینگ به منظور تجمیع یادگیریها استفاده شده است. روش مطرح شده در این مقاله بر روی دادههای سه چاه آزموده شده و کارآمدی بیش از 89 درصد را از خود نشان داده است که میتواند درخور توجه باشد.
-1 مقدمه
مطالعات نشان داده که شکستگیها تاثیر به سزایی در میزان تراوایی چاههای نفتی دارد. بعنوان مثال مستند به مطالعات انجام شده، اگر یک شکستگی منفرد با بازشدگی یک میلیمتر در سنگ مخزن باشد و توسط چاهی قطع شود، یک تراوایی خوب و مناسب را ایجاد میکند، که تولید نفتی در حدود 1000 متر مکعب در روز را باعث میشود - رضائی، . - 1380 مخازن شکافدار حدود %50 از ذخایر هیدروکربنی جهان را به خود اختصاص دادهاند.
تا کنون تلاشهای زیادی برای شناسایی شکستگیها صورت گرفته است که از آن میان میتوان به استفاده از دادههای لرزه نگاری - Thompson, 2000 - ، دادههای پتروفیزیکی - Nelson, 2001 - ، تست چاه - Martinez-Torres, 2002 - ، بررسی نحوه از دست رفتن گل حفاری و تفسیر مغزه اشاره نمود . - Dutta et al, 2007 - مقالاتی نیز در خصوص شناسایی شکستگیها از جمله - Tokhmechi et al, 2009 - و چگالی شکستگیها همانند - Tokhmechi et al, 2010 - از روی دادههای پتروفیزیکی منتشر شده که میتواند بعنوان مرجع خوبی برای تحقیقات در این زمینه باشد.
البته با ظهور چاه نمودارهای تصویری و عمقسنج در اواسط دهه 1980 شناسایی ویژگیهای شکستگیها بسیار سادهتر شد - Serra , 1989 - اما متاسفانه در کشور ایران تعداد بسیار زیادی چاه وجود دارند که امکان تهیه چاهنمودارهای تصویری از آنها غیر ممکن است - Tokhmechi et al, 2009 - و این در حالیست که اطلاعات پتروفیزیک آنها در دست است و این خود میتواند انگیزه بزرگی برای انجام این تحقیق باشد.
-2 روش تحقیق
در این بخش به تشریح سه روش به کار گرفته شده در این مقاله میپردازیم.
.2,1 درخت تصمیم
در هر یک از مسائل یادگیری ماشین با دو جنبه مختلف روبرو هستیم: یکی نحوه نمایش فرضیه ها و دیگری روشی که برای یادگیری برمی گزینیم. ساختار درخت تصمیم1 در یادگیری ماشین، یک مدل پیشبینی کننده میباشد که حقایق مشاهده شده در مورد یک پدیده را به استنتاجهایی در مورد مقدار هدف آن پدیده نگاشت میکند. تکنیک یادگیری ماشین برای استنتاج یک درخت تصمیم از دادهها، یادگیری درخت تصمیم نامیده میشود که یکی از رایجترین روشهای دادهکاوی2 میباشد - اسدی, - 1389 که ما بدین منظور از روش C4.5 استفاده خواهیم نمود. علت نامگذاری این ساختار با درخت تصمیم این است که این درخت فرایند تصمیم گیری برای تعیین دسته یک مثال ورودی را نشان میدهد. ساختار درخت تصمیم به این شکل است که در آن نمونه ها را به نحوی دسته بندی میکند که از ریشه به سمت پائین رشد میکنند و در نهایت به گره های برگ میرسد، در ساختار این درخت داریم:
▪ هر گره داخلی یا غیر برگ با یک ویژگی مشخص میشود. این ویژگی سوالی در رابطه با مثال ورودی مطرح میکند.
▪ درهر گره داخلی به تعداد جوابهای ممکن با این سوال شاخه3 وجود دارد که با مقدار آن جواب مشخص میشوند.
▪ برگهای این درخت با یک کلاس و یا یک دسته از جوابها مشخص میشوند.
.2,2 الگوریتم C4.5
از میان الگوریتمهای درخت تصمیم ID3 و C4.5 تاثیرگذارترین الگوریتمها هستند که هر دو توسط کوئینلن پیشنهاد شدهاند. وی C4.5 را در سال 1993 مطرح نموده است که شامل 9000 خط کد در زبان C میباشد C4.5 . - Quinlan, 1993 - نسل بعدی الگوریتم ID3 میباشد که از روشی استنتاجی در درخت تصمیم استفاده میکند - اسدی, . - 1389 در واقع این الگوریتم میکوشد تا از نسبت سود اطلاعات برای انتخاب صفات تصمیم استفاده نماید.
.2,3 روش بگینگ1
پس از بررسیهایی که برای افزایش درصد موفقیت این پروژه بعمل آمد به این نتیجه رسیدیم که بهتر است از الگوریتم بگینگ استفاده کنیم. دلیل این کار آنست که مجموعه دادهها و روش انتخابی - یعنی استفاده از درخت تصمیم - بسیار ناپایدار2 است، یعنی تغییر کوچکی روی دادههای آموزش تاثیر زیادی بر روی مدل میگذارد. کلیه روشهای تجمیع یادگیریها به دنبال ایجاد ساختارهای تصمیمگیری مختلف و تجمیع آنها میباشند که در این میان بگینگ برای ایجاد این ساختارها از نمونهبرداری3 دادههای آموزش بهره میبرد به این شکل که از روی مجموعه دادههای آموزش چندین مجموعه داده آموزش میسازد و این کار را با روش جایگذاری4 انجام میدهد. سپس برای هر یک از این مجموعه دادهها با استفاده از الگوریتم کلاسبند که در اینجا C4.5 است اقدام به ساخت مدل میکند و در نهایت تصمیمگیری-های بدست آمده از مدلهای مختلف را با استفاده از رایگیری5 با هم ادغام میکند.
-3 بحث و بررسی
در این تحقیق از دادههای مربوط به سه چاه بهره گرفته شد که هر یک از این چاهها دارای ده چاهنمودار قابل استفاده در دادهکاوی هستند چرا که این ده چاهنمودار در هر سه چاه وجود دارند. این ده چاهنمودار عبارتند از Caliper, Gamma ray - GR - , uranium, thorium, potassium, sonic - DT - , resistivity - RT - , density - PEF , RHOB - , neutron - NPHI - ، در ضمن تفسیر چاهنمودارهای تصویری هر چاه نیز در اختیار است و ما از آن بعنوان مرجعی برای شناسایی کلاس هر زون استفاده کردهایم.