بخشی از پاورپوینت

اسلاید 1 :

فصل 3: پیش پردازش داده ها
پیش پردازش داده ها: مقدمه
کیفیت داده ها
وظایف اصلی پیش پردازش داده ها
پاکسازی داده ها
یکپارچه سازی داده ها
تقلیل داده ها
تغییر شکل داده و گسسته کردن داده
خلاصه فصل

اسلاید 2 :

کیفیت داده: چرا پیش پردازش داده؟
عوامل مؤثر در کیفیت داده ها ( معیارهای باکیفیت بودن داده ها):
صحت(Accuracy) : درست یا غلط، دقیق یا غیردقیق
تمامیت(Completeness): داده های ثبت نشده، دسترس ناپذیر و .
سازگاری(Consistency): برخی اصلاح شده برخی نه، …
مناسب و بجا بودن(Timeliness): به روز رسانی شده؟
باور پذیر بودن(Believability): میزان اعتماد به درست بودن داده
قابل توجیه و تفسیر بودن (Interprtability): میزان سادگی درک داده ها

اسلاید 3 :

وظایف اصلی پیش پردازش داده ها
پاک سازی داده
پرکردن مقادیر مفقوده، برطرف کردن نویز داده، شناسایی یا حذف پرت ها و برطرف کردن تناقض ها
یکپارچه سازی داده
یکپارچه سازی (تجمیع) چندین پایگاه داده، مکعب های داده یا فایل
کاهش داده
کاهش بعد
کاهش تکثر
فشرده سازی داده
تغییرشکل و گسسته سازی داده
نرمال سازی
مفهوم تولید سلسله مراتب

اسلاید 4 :

نمونه هایی از پیش پردازش داده ها

اسلاید 5 :

فصل 3: پیش پردازش داده ها
پیش پردازش داده ها: مقدمه
کیفیت داده ها
وظایف اصلی پیش پردازش داده ها
پاکسازی داده ها
یکپارچه سازی داده ها
تقلیل داده ها
تغییر شکل داده و گسسته کردن داده
خلاصه فصل

اسلاید 6 :

پاکسازی داده ها
داده ها در دنیای واقعی کثیف هستند: به دلیل وجود داده های غلط بسیار که به طور مثال از دستگاه های خراب، خطاهای انسانی یا کامپیوتری و یا خطاهای انتقال ناشی می شوند.
داده ها تمایل به کامل نبودن، نویزی بودن و متناقض بودن دارند.
کامل نبودن: فقدان مقادیر صفت، فقدان برخی صفات مطلوب
مثلاً : شغل = “ “ (داده مفقود)
نویزی بودن: داده شامل نویز، خطا یا مقادیرپرت
مثلاً : حقوق = “-10”(خطا)
متناقض بودن: وجود اختلاف در کدها یا اسامی برای مثال:
سن = “42” و تاریخ تولد =“2010/07/03”
رتبه بندی قبلی “1,2,3” ، رتبه بندی جدید “A,B,C”
اختلاف بین رکورد های تکراری
گاهی داده مفقود به طور عمدی به شکل دیگری تبدیل شده
مثلاً : اول فروردین به عنوان روز تولد همه

اسلاید 7 :

داده ناقص (مفقود)
داده ها همیشه دردسترس نیستند
مثلاً اغلب تاپل ها برای برخی صفات مقدار ندارند مثل درآمد مشتری در داده های فروش
دلیل وجود داده مفقود
خرابی دستگاه
ناسازگاری با دیگر داده های ثبت شده و در نتیجه حذف آنها
وارد نکردن داده به دلیل نامفهوم بودن آن
مهم نبودن برخی داده ها در زمان ورود آنها

اسلاید 8 :

چگونه با مقادیر مفقوده برخورد کنیم؟
نادیده گرفتن تاپل: معمولاً زمانی انجام میشود که عنوان یا برچسب کلاس مفقود باشد ( زمان انجام رده بندی) - اگر درصد مقادیر مفقوده در هر صفت به طور قابل ملاحظه ای اختلاف داشته باشند عملکرد ضعیف خواهد بود.
پرکردن دستی داده مفقوده: زمان بر و غیرکاربردی
پرکردن اتوماتیک با
یک ثابت سراسری: مثلاً برچسب “unknown” - یک کلاس جدید به وجود میآورد که ممکن است منجر به نتایج داده کاوی اشتباه شود
میانگین یا میانه صفت
میانگین یا میانه برای تمام نمونه های متعلق به کلاس مشابه
محتمل ترین مقدار: با استفاده از ابزارهای استنتاج مثل فرمول بیز یا درخت تصمیم

اسلاید 9 :

داده مزاحم
نویز یا مزاحمت: یک خطای تصادفی یا اختلاف در سنجش متغیر
دلایل وجود مقادیر غلط صفات:
دستگاه های خطادار جمع آوری داده
مشکلات ورود داده
مشکلات انتقال داده
محدودیت تکنولوژی
ناسازگاری در قوانین نام گذاری
دیگر مشکلاتی که به پاکسازی داده ها نیاز دارند:
رکوردهای تکراری
رکوردهای ناقص
رکوردهای ناسازگار

اسلاید 10 :

چگونه با داده های مزاحم برخورد کنیم؟
Binning
ابتدا داده ها را مرتب کرده و درون bin هایی با تعداد برابر افراز می کنند. بعد از آن می توان با میانگین ، میانه یا کران آن را هموار سازی کرد.
Regression
هموارسازی به وسیله قرار دادن داده ها در توابع رگرسیون
Clustering
شناسایی و حذف داده های پرت
بازرسی ترکیبی انسان و کامپیوتر
تشخیص مقادیر مشکوک و چک کردن آن توسط کاربر

اسلاید 11 :

Binning
افراز Equal-width (فاصله):
تقسیم دامنه به N بازه با سایز برابر
اگرA و Bپایین ترین و بالاترین مقادیر صفت باشند، عرض بازه ها برابرخواهد بود با W = (B –A)/N
ساده ترین روش است اما ممکن است داده های پرت نمایش را برهم بزنند.
مناسب داده های اریب نیست
افراز Equal-depth (فراوانی):
تقسیم دامنه به N بازه که هریک شامل تعداد تقریباً برابر از نمونه ها است.
مقیاس گذاری خوب داده ها

اسلاید 12 :

یک مثال از binning
داده ذخیره شده برای قیمت: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
افراز به bin هایی با فراوانی برابر(equal-depth) :
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
هموارسازی با میانگین bin:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
هموارسازی با کرانbin:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34

اسلاید 13 :

Regression
y = x + 1
Y1’

اسلاید 14 :

Cluster Analysis

اسلاید 15 :

فصل 3: پیش پردازش داده ها
پیش پردازش داده ها: مقدمه
کیفیت داده ها
وظایف اصلی پیش پردازش داده ها
پاکسازی داده ها
یکپارچه سازی داده ها
تقلیل داده ها
تغییر شکل داده و گسسته کردن داده
خلاصه فصل

اسلاید 16 :

یکپارچه سازی داده ها
یکپارچه سازی داده:
ترکیب داده ها از چندین منبع درون یک منبع منسجم
یکپارچه سازی طرح(schema): مثلاً A.cust-id  B.cust-#
به کاربردن متادیتا از منابع مختلف
مشکل شناسایی موجودیت:
چگونه می توان موجودیت های مشابه از دنیای واقعی را با منابع داده متعدد تطبیق داد؟ مثلاً Bill Clinton = William Clinton
مثالهایی از متادیتا برای هر صفت می توانند در برگیرنده نام، معنا، نوع داده و محدوده مقادیر اجازه داده شده برای صفت باشند. قواعد null برای رسیدگی به جاهای خالی، صفر و یا مقادیر null به کار گرفته میشوند

اسلاید 17 :

برخورد با افزونگی در یکپارچه سازی داده ها
داده از منابع مختلف می آیند از این رو افزونگی خواهیم داشت.
شناسایی شیء: یک صفت یا شیء ممکن است در پایگاه داده های مختلف اسامی متفاوتی داشته باشد
داده های مشتق شده: یک صفت ممکن از جدول دیگری مشتق شده باشد مثل درآمد سالانه که از درآمد ماهانه مشتق شده
برخی از افزونگی ها را میتوان از طریق تجزیه و تحلیل همبستگی و تحلیل کوواریانس تشخیص داد.
یکپارچه سازی بادقت داده ها از منابع مختلف میتواند به کاهش یا حذف افزونگی ها و ناسازگاری ها کمک کرده و سرعت و کیفیت داده کاوی را بهبود بخشد.

اسلاید 18 :

تحلیل همبستگی (داده های اسمی)
تست Χ2 (chi-square)


هرچه مقدار Χ2 بزرگتر باشد احتمال همبستگی متغیرها بیشتر است.
سلولهایی که بیشترین نقش را در Χ2 مقدار دارند آنهایی هستند که تعداد واقعی آنها بسیار متفاوت از حدی است که مورد انتظار بوده است.

همبستگی دلالت بر علت نمی کند
تعداد بیمارستان ها و تعداد اتومبیل های به سرقت رفته در یک ناحیه همبستگی دارند
هر دو آنها از طریق صفت سومی که جمعیت نامیده می شود با هم ارتباط پیدا میکنند.

اسلاید 19 :

تست Χ2 (chi-square): یک مثال
مقادیر داخل پرانتز نشان دهنده فراوانی مورد انتظار هستند که بر اساس توزیع داده در دو طبقه مربوط محاسبه می شوند.
نتیجه به دست آمده نشان می دهد دو صفت دوست داشتن داستان علمی تخیلی و مرد بودن در بین گروه مشخصی از افراد همبستگی دارند

اسلاید 20 :

تحلیل همبستگی (داده های عددی)
ضریب همبستگی



اگر rA,B > 0 باشد، A و B همبستگی مثبت دارند (مقدار A با افزایش مقدار B افزایش می یابد. مقدار بالاتر همبستگی قویتری را نشان می دهد از اینرو A(یاB) می تواند به عنوان یک افزونگی حذف شود
rA,B = 0: مستقل بودن A و B
rAB < 0: همبستگی منفی

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید