بخشی از مقاله
کشف الگوهاي گاز مصرفي به منظور مديريت و قيمت گذاري عادلانه با استفاده از تکنيک هاي داده کاوي
چکيده
امروزه با توجه به گسترش روز افزون اطلاعاتي که بشر با آنها سر و کار دارد، بهرهگيري از روشهايي همچون دادهکاوي براي استخراج دانش و اطلاعات نهفته در دادهها، امري غيرقابل اجتناب مي باشد. داده کاوي به علم استخراج دانش از دادههاي خام گفته مي شود و بوسيله کاوش دادههاي موجود در بانکهاي اطلاعاتي ، اطلاعات و دانش مفيد از دادهها را استخراج مي کند. خوشه بندي به عنوان يکي از تکنيک هاي داده کاوي را مي توان به عنوان مهمترين مسئله در يادگيري بدون نظارت به منظور طبقه بندي داده هادر نظر گرفت .
مراحل داده کاوي در اکثر موارد شامل شش گام مي باشدکه گام انتخاب داده و آماده سازي آن حدود ٧٠ درصد انجام پروژه مي باشد.گام انتخاب داده اين پژوهش مربوط به قبوض صادر شده براي مشترکين گاز استان مرکزي در بخش خانگي در سالهاي ٩٠ تا ٩٣ مي باشد. در گام آماده سازي داده ها که مهمترين مرحله محسوب مي شود تنها فيلدهاي موثر انتخاب، گروه بندي و نويز گيري شدند.
خروجي مرحله آماده سازي ٤ جدول در ٢٠٠٨ SQL Server با يک و نيم ميليون رکورد است که استخراج شده از حدود ١٤ ميليون رکورد مي باشد. در گام بعد الگوريتم K-means روي داده ها در محيط SQL Server Business Intelligenceاعمال شد .
خروجي الگوريتم K-means بر روي داده ها در اختيار خبرگان شرکت گاز قرار گرفت که نتيجه آن ارائه طرح پلکاني با هفت پله بمنظور قيمت گذاري و مديريت بهتر مصرف گاز مشترکين شد که علاوه بر کاهش تعداد طبقات از دوازده پله طرح فعلي به هفت پله ، انحراف معيار و واريانس بهبود پيدا نمود و فراواني تعداد مشترک يکنواخت تر گرديد بصورتيکه فراواني تعداد مشترک در طرح فعلي در سه پله اول ٨٥ درصد مي باشد که در طرح بدست آمده اين عدد به ٦٠ درصد کاهش پيدا نموده که خود بيانگربهبود طبقات مي باشد.
مقدمه
در عصري که زمان، کليد اصلي در تجارت است و فناوريهاي نوين با شتابي سرسامآور در حال پيشرفت هستند، تسلط بر فناوريهاي جديدي مانند هوش تجاري ١ در کسب وکارها يک الزام و ضرورتي اجتناب ناپذير تلقي مي شود. شرکت ها به استفاده از ابزارهاي اطلاعاتي روي آوردهاند تا بتوانند اطلاعات مورد نظر را به سرعت از منابع استخراج کنند. معمولا حجم دادهها يا اطلاعات خام بيشتر از حجم اطلاعات يا دادههاي پردازش شده هستند. از نظر کارشناسان فناوريهاي اطلاعات و ارتباطات و مديران منابع اطلاعات، دادههاي خام ارزش بسيار زيادي براي سازمان دارند و در صورتي که با روش مطلوب و بهينه مديريت شوند، يکي از دارائي هاي ارزنده سازمان مي باشند.
دادهکاوي به علم استخراج دانش از داده هاي خام گفته مي شود و بوسيله کاوش دادههاي موجود در بانکهاي اطلاعاتي ، اطلاعات و دانش مفيد از دادهها را استخراج مي کند. با استفاده از تکنيکهاي دادهکاوي مي توان بهترين بهرهبرداري را از اطلاعات خام به عمل آورد. داده- کاوي درکاربردهاي متنوعي مورد استفاده قرار مي گيرد و يکي از انها در طبقه بندي و خوبندي داده هاست .با توجه به اهميت حفظ منافع مشترکين بايد منافع سارمان نيز مد نظر قرار گرفته شود.
يکي از نمونه هاي بارز بکارگيري ابزارهاي هوش تجاري؛ يعني دادهکاوي را مي توان در تحليل مصرف گاز شرکت هاي گاز استاني دانست . با تحليل مصرف گاز مي توان به نتايج مفيدي از جمله طراحي مجدد پله هاي گاز مصرفي در طرح پلکاني مصرف گاز رسيد.
بنابراين با توجه به موارد فوق الذکر، اين تحقيق به دنبال يافتن پاسخي براي پرسش زير است :
چگونه مي توان با استفاده از تکنيک ها داده کاوي روشي براي محاسبه مصرف پلکاني گاز به منظور قيمت گذاري عادلانه گاز مصرفي مشترکين ارائه کرد؟
با توجه به موضوع مطرح شده تحقيقي با موضوع فوق با حمايت شرکت ملي گاز ايران صورت پذيرفت .
پيشينه تحقيق
داده کاوي که به عنوان روش محبوب کشف دانش در پايگاه داده ها شناخته شده است ، اشاره به فرآيند استخراج خودکار اطلاعاتي که قبلا ناشناخته و مخفي وبالقوه مفيد مي باشند از پايگاه داده هاي بزرگ دارد. اين فرآيند يافتن و تفسير اطلاعات با ارزش با استفاده از دانش زمينه هاي چند رشته مانند آمار ، هوش مصنوعي ، يادگيري ماشين ، مديريت پايگاه داده است [٥،٨] .
فرآيند داده کاوي داراي شش مرحله مي باشد. عقب و جلو رفتن بين مراحل مختلف ، همواره لازم است و به خروجي هر مرحله بستگي دارد. مراحل اصلي به شرح زير مي باشند[٩].
درک تجارت: اين مرحله بر درک اهداف و الزامات مورد نياز پروژه متمرکز است ؛ سپس اين دانش به تعريف مساله دادهکاوي و طراحي برنامه مقدماتي براي رسيدن به اهداف پروژه تبديل مي شود. [٩].
درک دادهها: اين مرحله با جمع آوري دادهها جهت آشنايي با دادهها، مشخص کردن کي ت يف دادههاي مسئله ، پيدا کردن بينش اوليه نسبت به دادهها و يا نمايان ساحتن زيرمجموعه هاي جذاب براي ايجاد فرضيه هاي اطلاعات پنهان، آغار مي شود. [٩].
آماده سازي اطلاعات:اين مرحله کليه فعاليت ها جهت ساخت مجموعه پايگاه دادههاي نهايي از دادههاي خام اوليه را پوشش مي دهد. [٩].
مدلسازي :در اين مرحله تکنيکهاي مدلسازي مختلف انتخاب شده و به کار برده مي شوند؛ همچنين ، پارامترهاي آنها جهت بهينه ، سنجيده مي شوند. [٩].
ارزيابي :در اين مرحله مدل به طور کامل ارزيابي و بازبيني مي شود و مراحل جهت ساختن مدل معين شده براي رسيدن به اهداف تجاري اجرا مي شوند. [٩].
گسترش :هدف از مدلسازي، افزايش دانش حاصل از دادههاست . دانش مفيد به سازماندهي و ارائه به شيوهاي که براي مشتريان قابل استفاده باشد ، نياز خواهد داشت . مرحله توسعه مي تواند به سادگي يک گزارشدهي يا به پي يچدگي اجراي دوباره فرآيند دادهکاوي در شرکت باشد. [٩].
خوشه بندي به عنوان يکي ازفعاليتهاي داده کاوي ميباشد و به گروه بندي کردن تراکنش ها و مشاهدات يا حالت ها درکلاس هاي مشابه مي پردازد. همچنين يک خوشه مجموعه اي از رکوردها است که به هم شبيه مي باشند و با رکوردهاي بيرون خوشه تفاوت دارند. در خوشه بندي متغير هدف وجود ندارد و به طبقه بندي تخمين و پيشگوئي مقدار متغير هدف نمي پردازد [٣] .
اغلب الگوريتم هاي خوشه بندي براساس دو روش زير پايه گذاري شدهاند:
- خوشه بندي سلسله مراتبي
- خوشه بندي تقسيمات تکرار خطا
تکنيک هاي سلسله مراتبي ، دادهها را در دنباله اي تو در تو از گروهها سازمان مي دهد، که مي تواند در قالب ساختار درختي نشان داده شود.
درحالي که الگوريتم هاي تقسيمات مجذور خطا تلاش مي کند تا تقسيماتي بدست آورد که پراکندگي داخل خوشه را کمينه يا پراکندگي بين خوشه ها را افزايش دهد[١].
در طبقه بندي هر داده به يک طبقه از پيش مشخص شده تخصيص مي يابد ولي در خوشه بندي هيچ اطلاعي از کلاسهاي موجود درون داده ها وجود ندارد و به عبارتي خود خوشه ها نيز از دادهها استخراج مي شوند. [٤].
روش تحقيق هدف
اين پژوهش از حيث هدف، کاربردي است . هدف اين پژوهش ارائه يک راهکار و روش براي محاسبه مبلغ گاز مصرفي مشترک با استفاده از الگوريتم هاي داده کاوي است . در اين روش قصد اين است که با استفاده از الگوريتم هاي دادهکاوي و بهينه سازي آنها، در صورتي که يک انبار داده مناسب براي سازمان وجود داشته باشد، بتوان بر اساس دادههاي موجود ، تجديد نظري در تعداد و سقف مصرف هر پله گاز مصرفي به وجود آورد.
جامعه آماري
در اين پژوهش قبوض صادر شده براي مشترکين بخش خانگي شرکت گاز استان مرکزي از ابتداي سال ٩٠ تا اوايل خرداد سال ٩٣ به تعداد ١٤,٢٣٧,٥٥٨ قبض مورد بررسي قرار گرفت .
روش و ابزار گردآوري داده ها
در اين تحقيق ابتدا مطالعات و کارهاي انجام شده بر روي کشف الگوهاي گاز مصرفي مورد بررسي قرار مي گيرد تا طرح کلي انجام تحقيق مشخص شود. سپس با مطالعه تکنيک هاي مختلف داده کاوي مناسبت ترين تکنيک جهت کشف و استخراج الگوهاي گاز مصرفي به منظور مديريت و قيمت گذاري عادلانه مشخص مي گردد. سپس متد پيشنهادي بر روي پايگاه داده شرکت گاز پياده سازي
نهايت متد پيشنهادي با کارهاي انجام شده قبلي مورد مقايسه قرار مي گيرد.
روش تجزيه و تحليل داده ها
استفاده از نرم افزارهاي مدلينگ در اين زمينه Business intelligence Microsoft SQL Server خواهد بود وپيادهسازي و نتيجه گيري در آن انجام خواهد شد. درحقيقت روش تجزيه و تحليل دادهها در اين پژوهش ، همان فرآيند دادهکاوي است ؛ که داراي شش
مرحله مي باشد:
گام شناخت سيستم
گام شناخت دادهها
گام آمادهسازي دادهها
گام مدلسازي
گام ارزيابي
گام توسعه و اجرا
شناخت سيستم
شرکت هاي گاز استاني با داشتن داده هاي قبوض گاز در دوره هاي مختلف مي توانند با تجزيه و تحليل و کشف الگوي مناسب در ارائه سرويس بهتر و قيمت گذاري بهتر و عادلانه براي مشترکين خود اقدام نمايند.
شناخت دادهها
در اين مرحله بعد از رايزني هايي که با شرکت گاز استان مرکزي صورت گرفت فايل قبوض گاز آن شرکت در بخش خانگي که طرح پلکاني در آن اعمال مي شود از سال ٩٠ تا ابتداي خرداد ماه سال ٩٣ بصورت فايل دريافت شد.
هر رکورد از اين بانک شامل تمام آيتم هاي مندرج در قبض گاز مشترک مي باشد؛ از جمله اين آيتم ها مي توان به موارد زير اشاره نمود
که ملاک کار ما در اين تحقيق مي باشد:
١-شماره اشتراک
٢-شماره سري قبض
٣-کد آدرس
٤-تعداد واحد
٥-تاريخ قرائت قبلي
٦- تاريخ قرائت فعلي
٧-رقم قبلي کنتور
٨ -رقم فعلي کنتور
٩-ميزان مصرف١٠
-ظرفيت کنتور
يک مسئله مهم در فرآيند دادهکاوي در اين تحقيق مشخص کردن جمع مصرفي قبوض يک مشترک در بازه زماني مشخص شده فصل سرد يا گرم است و تبديل آن به شکل مصرف يک واحد در يک ماه است .
آماده سازي دادهها
با توجه به تصميات اتخاذ شده در شرکت ملي گاز ايران بجز شهرهاي دليجان، ساوه، زوايه و پرندک که در اقليم سه آب و هوايي قرار دارند ساير شهرهاي استان مرکزي در اقليم دو مي باشند. با توجه به تغيير الگوي گاز مصرفي در بخش خانگي بعد از قانون هدفمندي