بخشی از مقاله
مروري بر روشهاي دادهکاوي بکار گرفته شده در کشاورزي
چکیده
این مقاله مروري بر استاده از روش هاي دادهکاوي در کاربردهاي کشاورزي دارد. تکنیک هاي دادهکاوي خوشه بندي kmeans، طبقه بند k نزدیکترین همسایه، درخت تصمیم و الگوریتم هچتJ فرا مختصرا توضیح داده و کاربرد آنها در حل مسائل مختلف کشاورزي مانند درجه بندي محصولات کشاورزي، ناحیه بندي زمین هاي کشاورزي با استاده از تصاویر ماهواره اي، کشف زودرس بیماري در حیوانات، مصرف بهینه آفت کش ها، و... را شرح می دهد. نهایتا دو مساله تخمین پارامترهاي آب موجود در خاك کشاورزي و درجه بندي کیفی قارچ، با استاده از روشفهاي دادهکاوي را بررسی می کند و به این نتیجه می رسد در جاهایی که به دست آوردن پارامترهاي مساله دشوار باشد داده کاوي راه حل بسیار مناسبی است
واژههاي کلیدي: داده کاوي، خوشه بندي، پارامتر خاك، الگوریتم kنزدیکترین همسایه، درخت تصمیم
– 1 مقدمه
از زمانی که رایانه، در تحلیل و ذخیرهسازي دادهها به کار رفت، حجم اطلاعات ذخیره شده درآن به مرور زمان بسیار زیاد شده است به طوري که همزمان با پیشرفت فناوري اطلاعات، حجم دادهها در پایگاه دادهها هر دو سال یک بار، دو برابر شد و همچنان بافسرعت بیش تري نسبتفبه گذشته حجم اطلاعات ذخیره شده بیشتر و بیشتر میشود امروزه ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه دادهها بیش از پیش نمایان شده استچ شدت رقابت در عرصههاي علمی، اجتماعی، اقتصادي، سیاسی و نظامی نیز اهمیت سرعت دسترسی به اطلاعات را دو چندان کرده استچفبنابراین نیاز به طراحی سیستمهایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل مداخله انسانی باشند از یک سو و روي آوردن به روشهاي تحلیل متناسب با حجم دادههاي حجیم ازسوي دیگر، به خوبی احســاس میشودچفدر حال حاضر، داده کاوي مهمترین فناوري براي بهره وري موثر، صحیح و سریع از دادههاي حجیم است و اهمیت آن رو به فزونی استچ دادهها اغلب حجیم میباشند و به تنهایی قابل استاده نیستند،اما دانش نهفته در دادهها قابل استاده میباشد. بنابراین بهره گیري از قدرت فرآیند دادهکاوي جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در دادهها و نهایتا تبدیل داده به اطلاعات، روزبهروز ضروريتر میشود. در دادهکاوي معمولا به کشف الگوهاي مفید از میان دادهها اشاره میشودچفمنظور از الگوي مفید، مدلی در دادهها است که ارتباط میان یک زیر مجموعه از دادهها را توصیف میکند و معتبر ، ساده ، قابل فهم و جدید است ].٢,١
در این مقاله، کاربردهاي دادهکاوي در شاخه کشاورزي بررسی میشود. بعضی روشهاي دادهکاوي عمومی و بعضی براي یک مسئله خاص طراحی شدهاند. در این پژوهش ما روي روشهاي عمومی دادهکاوي تمرکز میکنیم به علت اینکه در زمینه کشاورزي از همان روشهاي عمومی استاده شده است و الگوریتم خاصی مخصوص کشاورزي طراحی نشده است. این مقاله بدین صورت سازماندهی شده است: در بخش ه، تعدادي از روشهاي مرسوم دادهکاوي مانند ، درخت تصمیم و شبکه عصبی معرفی میشوند. در بخش تعدادي از کاربردهاي دادهکاوي در فکشاورزي معرفی میشوند. در بخش لچم فتکنیکی براي تخمین پارامترهاي خاك، با استاده از اطلاعات بافت خاك شرح داده میشود. بخش هچم استاده از روشهاي دادهکاوي براي درجهبندي محصولات قارچ، را شرح میدهد. بخش تفبه نتیجهگیري میپردازد
-2 روشهاي دادهکاوي
به طور کلی تکنیکهاي دادهکاوي به دو زیرشاخه ي دستهبندي و خوشهبندي تقسیم میشوند. تکنیکهاي دستهبندي براي طبقه-بندي نمونه هاي ناشناخته به کار میروند. بدین منظور مجموعهاي از نمونه ها که مشخص است به کدام طبقه تعلق دارند، به عنوان مجموعه آموزشی استاده میشوند. مجموعه آموزشی براي ساخت مدل طبقه بندي به کار گرفته میشود. به عنوان مثال شبکه عصبی و ماشین بردار پشتیبان، از مجموعه آموزشی براي تنظیم پارامترهاي خود استاده کرده و با استاده از پارامترهاي تنظیم شده میتوانند یک مسئله طبقه بندي خاص را حل نمایند. به عبارت دیگر، این دو تکنیک، از مجموعه آموزشی یاد میگیرند که چگونه یک نمونه ناشناخته را دستهبندي کنند. k-nn یا روش kنزدیکترین همسایه، روش دیگري براي طبقه بندي میباشد که از یادگیري را ندارد و همواره از کلیه دادههاي مجموعه آموزشی، در زمان طبقهبندي استاده میکند.
در حالاتیکه مجموعه آموزشی در دسترس نباشد یعنی هیچ دانش اولیهاي براي دستهبندي دادهها وجود نداشته باشد، میتوان از روشهاي خوشهبندي به منظور ایجاد مجموعه هاي مجزا در دادهها استاده نمود. یکی از روشهاي مرسوم در خوشهبندي، الگوریتم k-means میباشد که در زمینه هاي تحقیقاتی متعددي مورد استاده قرار گرفته است. علاوه بر روشهاي معرفی شده در این مقاله، روشهاي آماري مانند تحلیل مولفه اصلی، مدلسازي رگرسیونی و ... نیز در زمینه کشاورزي مورد استاده قرار گرفتهاند.
-1-2 روش خوشه بندي kmeans
این روش علیفرغم سادگی آن یک روش پایه براي بسیاري از روشفهاي خوشهفبندي دیگر (مانند خوشهفبندي ازي) محسوب میفشودف]م.[ براي این الگوریتم شکلهاي مختلفی بیان شده است. ولی همه آنها داراي روالیفتکراري هستند که براي تعدادي ثابت از خوشهفها سعی در تخمین موارد زیر دارند:
بدست آوردن نقاطی به عنوان مراکز خوشهفها این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند
هنفنسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین اصله تا مرکز آن خوشهفرا دارا باشد.
در نوع سادهاي از این روش ابتدا به تعداد خوشهفهاي مورد نیاز نقاطی به صورت تصادفی انتخاب میفشود. سپس در دادهفها با توجه با میزان نزدیکی (شباهت) به یکی از این خوشهفها نسبت دادهمیفشوند و بدین ترتیب خوشهفهاي جدیدي حاصل میفشود. با تکرار همین روال میفتوان در هر تکرار با میانگینفگیري از دادهفها مراکز جدیدي براي آنها محاسبه کرد و مجدادأ دادهفها را به خوشهفهاي جدید نسبت داد. این روند تا زمانی ادامه پیدا میفکند که دیگر تغییري در دادهفها حاصل نشود
شکل (لژ نمونه اي از نتیجه الگوریتم خوشهبندي را نشانفمیدهد که دادهها را بر حسب اصلهشان از یکدیگر به چهار دسته مجزا خوشهبندي کرده است. بسته به مسئله میتوان از معیارهاي مختلفی براي خوشهبندي استاده نمود. به عنوان مثال در شکل (لژ براي خوشهبندي دادههاي دریافتی تصاویر ماهوارهاي، از معیار رنگ دریافتی (و اطلاعات فرکانس دریافتی از هر ناحیه )استاده کرده است و خوشههاي زمین بایر، علف، مزارع چغندر، مزارع گندم، یونجه، سیبزمینی و سویا را بدست آورده است
شکل (ل) بکارگیري الگوریتم خوشه بندي براي ناحیه بندي زمین هاي کشاورزی
-2-2 درخت تصمیم
درخت تصمیم یک ابزار براي پشتیبانی از تصمیم است که از درختان براي مدل کردن استاده میفکند. درخت تصمیم به طور معمول در تحقیق درعملیات استاده میفشود، به طور خاص در آنالیز تصمیم، براي مشخص کردن استراتژي که با بیشترین احتمال به هدف برسد بکار، میفرود. استاده دیگر درختان تصمیم، توصیف محاسبات احتمال شرطی است]ت.[
اغلب الگوریتم هاي یادگیري درخت تصمیم بر پایه یک عمل جستجوي حریصانه بالا به پائین در فضاي درختهاي موجود عمل میکنند.qیکی از پیاده سازي هاي الگوریتم درخت تصمیم، الگوریتم زچتCفمی باشد ]qز[فکه در این الگوریتم درخت تصمیم از بالا به پائین ساخته میشود. این الگوریتم با این سوال شروع میشود: کدام ویژگی باید در ریشه درخت مورد آزمایش قرار گیرد؟فبراي یافتن جواب از یک آزمون آماري استاده میشود تا مشخص گردد هر کدام تا چه حد قادر است به تنهائی مثالهاي آزمایشی را دسته بندي کند.فبا انتخاب این ویژگی، براي هر یک از مقادیر ممکن آن یک شاخه ایجاد شده و مثالهاي آموزشی بر اساس ویژگی هر شاخه مرتب میشوند. سپس عملیات فوق براي مثالهاي قرار گرفته در هر شاخه تکرار میشوند تا بهترین ویژگی براي گره بعدي انتخاب شود.این الگوریتم یک جستجوي حریصانه است که در آن انتخاب هاي قبلی هرگز مورد بازبینی قرار نمیگیرند.
هچتJیک پیادهسازي کد باز جاوا از الگوریتم زچتCمیباشد که در ابزار دادهکاوري WEKAپیادهسازي شده است