بخشی از مقاله
چکیده
با تولید حجم بالاي داده هاي زمین شناسی همچون اطلاعات مربوط به نوع خاك، زمین لغزش ها، آبهاي سطحی و زیرزمینی و غیره، نیازهاي مربوط به تحلیل و مدلسازي این داده ها نیز بیشتر میشود. بسیاري از روش هاي داده کاوي با هدف پیشبینی شرایط آینده ي زمین، بر اساس مشاهدات کنونی زمینشناسی مورد استفاده قرارگرفته اند، به عنوان نمونه تکنیکهاي مختلفی براي پیش بینی زمین لغزش ها بر اساس پارامترهاي نمونههاي کنونی همچون شیب، جهت شیب، فاصله تا تپه، بافت خاك، قطر، ضخامت مؤثر وغیره بر بهکارگرفته شده است.
با این حال، با توجه به سرعت بالاي تولید و حجم روز افزون داده هاي زمین شناسی، روشهاي دادهکاوي معمولی کارایی خود را در تحلیل این دادهها از دست داده اند و استفاده از روشهاي برخط داده کاوي جریانی ضروري به نظر میرسد. در این مقاله پس از معرفی کاربردهایی از داده کاوي سنتی و جریانی، با توجه به سرعت، سادگی و کارایی الگوریتم درخت تصمیم، استفاده از الگوریتم VFDT براي پردازش داده هاي جریانی پیشنهاد میشود. نتایج حاصل از اعمال این الگوریتم در برابر درخت تصمیم سنتی، نشانگر کارایی بالاي این الگوریتم در کاوش حجمهاي بالاي داده است.
1 مقدمه
دسترسی به ابزارهاي کارا براي استخراج اطلاعات از دادههاي زمینشناسی، براي سازمانهایی که نیاز به تصمیمگیري بر اساس مجموعه دادههاي زمینشناسی دارند، بسیارحساس و تعیینکننده است. این سازمانها در بسیاري از حوزههاي بومشناسی1، مدیریت محیطی، سلامت عمومی، اقلیمشناسی، شناخت زمین و غیره فعالیت دارند و با حجم وسیعی از دادهها مواجه هستند
براي اولین بار در اواسط دههي 1960 در ایالات متحده کار بر روي اولین سیستم اطلاعات جغرافیایی آغاز شد. در این سیستمها عکسهاي هوایی، اطلاعات کشاورزي، جنگلداري، خاك، زمین شناسی و نقشههاي مربوطه مورد استفاده قرار گرفتند. در دههي 1970 با پیشرفت علم و امکان دسترسی به فناوريهاي کامپیوتري و تکنولوژيهاي لازم براي کار با دادههاي مکانی، سیستم اطلاعات جغرافیایی یا - GIS - ، براي فراهم آوردن قدرت تجزیه و تحلیل حجمهاي بزرگ دادههاي جغرافیایی شکل گرفت.
GIS تکنولوژي است که مجموعهاي از عملیات و توابع را براي تحلیل دادهي جغرافیایی فراهم میکند. با این حال، در میان مقادیر زیاد دادهي ذخیره شده در پایگاه داده جغرافیایی، دانش ضمنی، پر مایه و ازقبل ناشناختهاي وجود دارد که توسط GIS قابل شناسایی نیست. بنابراین تکنیکهاي ویژهاي براي پیدا کردن این نوع دانش لازم است. از سوي دیگر نمایش دادهها در GIS به صورت استاتیک است و تنها یک نمایش لحظه اي از دادههاي جغرافیایی را در اختیار قرار میدهد. این در حالی است که جغرافیاي دنیاي واقعی پویا و در حال تغییر مداوم است و براي کشف دانشی جامع، این تغییرات باید به گونهاي در نظرگرفته شوند.
به فرآیند کشف دانش و الگوهاي معتبر پنهان از پایگاه دادههاي بزرگ دادهکاوي گفته میشود. ویژگی اصلی که دادهکاوي دادههاي زمینشناسی را _به عنوان نوعی داده ي مکانی_ با دادهکاوي سنتی متمایز میسازد، همبستگی مکانی و تĤثیر متقابل میان نمونه دادههاي آن است - . - Shekhar S. And Chawla S., 2003 علاوه بر این ویژگی ، دادههاي زمینشناسی به طور مداوم و با سرعت درحال تولید و به روز شدن هستند و حتی منابع تولید آنها همچون حسگرهاي فیزیکی و یا ماهوارههایی که تصاویر لحظهاي از ساختارهاي سطحی زمین ارسال میکنند، نامحدود، در حال تغییر مداوم هستند. درنتیجه استفاده از روشهاي دادهکاوي سنتی که بر روي پایگاه دادههاي معمولی اعمال میشوند و مبتنی بر پردازش دسته اي دادهها هستند، در مورد چنین دادههایی کارایی لازم را نخواهد داشت.
با توجه به ویژگیهاي خاص دادههاي زمینشناسی، همچون وجود چندین منبع در تولید آنها، حجم زیاد دادهها، سرعت بالاي دریافت اطلاعات و ظهور الگوهاي جدید در دادهها در طی زمان، استفاده از نوع دادهي جریانی براي کاوش آنها مناسب به نظر میرسد
دادهي جریانی دنباله اي از نمونههاي داده است که بعلت سرعت ورودي بالا و حجم انبوه قابل ذخیرهسازي دائم در حافظه نیستند و براي تحلیل و مدلسازي آنها نیاز به الگوریتمهایی است که بتوانند در حین گذر داده و به صورت بر خط بر روي آن کار کنند. نمونهاي از دادههاي زمینشناسی که به صورت جریانی تولید میشوند، دادههاي شبکهي لرزهنگاري کشور است که از طریق پایگاه اینترنتی مرکز لرزهنگاري کشوري و به صورت برخط در اختیار عموم قرار میگیرد - سایت . - Irsc در پایگاه اینترنتی تحقیقات زمینشناسی ایالات متحده بسیاري از دادههاي برخط زمینشناسی سراسر دنیا، مانند اطلاعات زمین لرزهها، زمینلغزشها، آب و هوا، اتفاقهاي طبیعی مانند سیل، فوران آتشفشانی، سونامی وطوفان از طریق پایگاههاي جمع آوري اطلاعات و نیز تصاویر ماهواره اي و سنجش از دور ذخیره شده و در دسترس قرار گرفته است
در ادامهي این مقاله و در بخش دوم به معرفی تکنیکهاي دادهکاوي در تحلیل دادههاي زمینشناسی پرداخته میشود. بخش سوم به معرفی جریان داده و کاربرد تکنیکهاي کاوش دادههاي جریانی در زمینشناسی میپردازد و در نهایت در بخش چهارم کارایی یک الگوریتم دستهبندي2 دادهي جریانی به نام VFDT3بر روي یک مجموعه داده زمینشناسی بررسی میشود.
2 تکنیکهاي دادهکاوي در زمینشناسی
1-2 معرفی دادهکاوي
با توجه به تعریف Tanm,Steinbach & Kumar - 2005 - ، دادهکاوي فرآیند کشف دانش و الگوهاي معتبر پنهان از پایگاه دادهها است. دادهکاوي شامل وظایف متعددي همچون دستهبندي، خوشه بندي، کاوش قوانین انجمنی و کاوش برون نهشتها4 میباشد که الگوریتمهاي متعددي براي اعمال هریک از آنها موجود است. در مقالهي نوشته شده توسط امرایی و همکاران - - 1387 به تحلیل دادههاي مربوط به زلزلههاي پیشین و بررسی سطح آسیب پذیري مناطق در امر ساختمان سازي شهري پرداخته شده و از تکنیکهاي دستهبندي و خوشه بندي درجهت کشف الگوها و ساختارهاي پنهان در این دادهها استفاده شده است. در انتهاي این بخش نمونههایی از کاربرد الگوریتمهاي دستهبندي در زمینشناسی آورده شده است.
2-2 دستهبندي
در فرایند دستهبندي، دادههاي ورودي به دستههاي از پیش تعیین شدهاي نسبت داده میشوند. در واقع در این روش با استفاده از نوعی استقرا بر روي نمونههاي گذشته، میتوان دستهي نمونه هاي آینده را پیشبینی مینماید