بخشی از مقاله

چکیده

وجود داده های پرت در میان مشاهدات منجر به نتایج غیر دقیق در مدل سازی می شود. کشف چنین داده هایی برای حذف یا کاهش اثر آن ها ، اثر معنی داری بر اصلاح مدل دارد. حذف یا کاهش اثر چنین داده هایی دو راه برای جلوگیری از اثر منفی آنها بر مدل سازی است. هنگامی که هر دو متغیر ورودی و خروجی غیر فازی هستند، هر دو رویکرد حذف یا کاهش اثر داده های پرت مورد بحث قرار گرفته است. ایده اصلی براساس متغیرهای زبانی و مفاهیم نظریه امکان همانند رگرسیون معمولی برای بحث در مورد داده های پرت در نظر گرفته شده است. یک مثال برای نشان دادن قابلیت روش پیشنهادی ارائه شده است.

مقدمه

رگرسیون یک روش معمول برای پیدا کردن ارتباط بین متغیر مستقل - X - و متغیر وابسته - Y - می باشد. در واقع تحلیل رگرسیون معمولی تغییرات متغیر وابسته را بر اساس متغیر مستقل توضیح می دهد و در آن از توزیع احتمال برای یافتن پارامترها استفاده می شود. هر چند نظریه امکان برای استخراج یک رابطه فازی میان داده های ورودی و خروجی استفاده می شود. چنانچه در میان داده ها، داده های پرت وجود داشته باشد این رابطه می تواند منجر به یک مدل نادقیق شود.

کشف و یا حذف داده های پرت یک فرایند مهم برای بدست آوردن یک مدل دقیق می شود. رگرسیون خطی فازی - FLR - 1 نخستین بار توسط تاناکا2 و دیگران [12] معرفی گردید. ایده وی بر اساس نظریه امکان بنا شده بود. هر چند روشهای دیگری برای تحلیل مدل های رگرسیون فازی پیشنهاد شده است. روش برنامه ریزی خطی 10]و[15 و روش کمترین مربعات 4]و[5 دو روش برای تحلیل مدل های رگرسیون فازی می باشد. با وجود این روش تاناکا هنوز به خاطر سادگی آن مورد استفاده قرار می گیرد. اما این مدل دارای مشکلاتی است که می توان آن را به دو دسته زیر تقسیم کرد:

- 1 تاثیر روند تفاوتها - 2داده های پرت چانگ و لی 1] 3و[2 نخستین دسته از مشکلات را بررسی کردند. آنها شرح دادند که فازی بودن و عدم اطمینان در ساختار یک سیستم دو عامل مهم هستند که عمیقاً روی روند مراکز و پهناها اثر می گذارند. تحقیق در مورد داده های پرت بوسیله پیترز[8] 4 انجام گردید تا اثر داده ها را روی فواصل برآورد شده کنترل کند.

چن[3]5 نشان داد که مدل پیترممکن است منجر به خطا شود بویژه وقتی که داده ها شامل مشاهدات پرت باشد. در واقع یافته وی آشکار کرد که PFLR - رگرسیون خطی فازی امکانی - یا UFLR - رگرسیون خطی فازی با علامت نامحدود - به نتایج اشتباه منجر خواهد شد هرگاه فاصله اطمینان های برآورد شده بسیار بزرگ باشد. او یک محدودیت جدید قرار دارد - -Kمقدار، که عبارتست از تفاوت بین پهنای داده های برآورد شده و پهنای داده های مشاهده شده وابسته - . برای اینکه اثر مشاهدات پرت را دور نگه داریم. با این وجود مدل او نسبت به مقدار K بسیار حساس بود.

سایر پژوهش گران مانند ارتیز6 و دیگران [7] مشخص کردند که رگرسیون نیرومند ممکن است یک روش دیگر یا معادل برای کشف داده های پرت باشد. تاناکا و لی [16] از برنامه ریزی خطی با برنامه ریزی کوادرتیک استفاده کردند تا داده های پرت را بر اساس ترکیب گرایش های مرکزی و خصوصیات امکانی مدیریت کنند. چون مدل های چانگ و لی 1]و[2، ارتیز و دیگران [7] و چن [3] مشاهدات فازی را در نظر می گیرند، در حالی که مدل پیشنهادی داده ها را معمولی در نظر می گیرد، بنابراین ما نتایج مدل تاناکا و پیتر را در نظر می گیریم.

این مقاله در مورد مشکل داده های پرت برای مدل هایی با ورودی و خروجی غیر فازی با بکار بردن متغیرهای زبانی بحث می کند. داده های پرت استفاده از رگرسیون معمولی به همراه نظریه امکانی مشخص می شوند تا اثر آن ها حذف یا کاهش پیدا کنند. ساختار سایر بخش های مقاله به شرح زیر است: در بخش 2 تعاریف مقدماتی داده های فازی مطرح شده است. مدل پیشنهادی در بخش 3 ارائه شده و یک مثال به منظور نشان دادن توانایی مدل پیشنهادی در بخش 4 بیان شده است. نتایج مقاله در بخش آخر مورد اشاره قرار گرفته است.

3 رویکرد جدید

داده های پرت یا دور افتاده، داده هایی هستند که تفاوت زیاری با اکثریت داده ها دارند. ما داده های غیر پرت را داده های قابل اعتماد - معتبر - می نامیم. مشکلات بوجود آمده توسط چنین تفاوتی بوسیله کشف داده های پرت و سپس حذف یا کاهش اثر آن ها قابل حل است. در واقع ما داده هایی که به اندازه کافی از سایر داده ها »پرت« هستند را حذف می کنیم. مفهوم »پرت« می تواند احساسات متفاوتی را در ذهن پدید آورد. فردی ممکن است احساس کند که نقطه معینی باید داده پرت در نظر گرفته شود، در حالی که دیگران چنین نظری نداشته باشند.

چنین قضاوت متفاوتی ما را به این وا می دارد که از یک مفهوم فازی به عنوان یک اندازه برای عضویت داده ها در مجموعه داده های معتبر استفاده کنیم. بدین منظور یک متغیر زبانی برای توصیف موقعیت داده ها و سپس تشخیص داده های پرت مورد استفاده قرار گیرد. ما مفهوم »پرت« را به عنوان یک مقدار فازی با درجه های متفاوت در نظر می گیریم. و به دنبال آن هر داده ای که بیرون از بازه ] , [ قرار گیرد. به عنوان داده پرت در نظر گرفته می شود. سپس مجموعه فازی »پرت« با تابع عضویت آن را تعریف می کنیم که در شکل1 نشان داده شده است.

چنانچه    باشد منحنی    برازش یافته مناسب تلقی می شود. در غیر این صورت در هر مرحله یکی از داده ها را حذف کرده و رگرسیون معمولی را روی داده ها برازش    می دهیم و    آنرا محاسبه می نماییم. در پایان مدلی که بیشترین مقدار    را داشته باشد مناسبترین مدل است. به عبارت دیگر به عقیده ما حذف داده پرت مقدار    را بهبود می بخشد. پس رگرسیون معمولی روی مجموعه جدید داده ها به کار می رود. اکنون گزاره های فوق را به صورت زیر خلاصه می کنیم.

 

- 1رگرسیون معمولی را روی تمام داده های اصلی اجرا کنید.

- 2 اگر مقدار   بزرگتر مساوی 0,8 بود به مرحله 6 و در غیر اینصورت به مرحله 3 بروی.

- 3بصورت گردشی از اول به آخر یکی از مشاهدات را کنار گذاشته و یک منحنی با استفاده از رگرسیون معمولی به داده های باقیمانده برازش دهید. در هر مرحه مقدار   را ثبت نمایید.

- 4داده ای که نادیده گرفتن آن باعث بدست آوردن بیشترین مقدار می شود را حذف کنید.

- 5رگرسیون معمولی را روی مجموعه داده های جدید به کار گیرید و به مرحله 2 باز گردید.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید