بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
جريان داده
بسياری از برنامه های کاربردی نوع داده جديدی به نام جريان داده را توليد و تحليل می کنند که در آن داده ها به صورت پويا به يک بستر ( يا پنجره ) وارد و يا از آن خارج می شوند .
خواص جريان داده :
حجم زياد و گاه نامحدود
تغييرپويا
جريان به درون و خارج با يک ترتيب مشخص
پيمايش يکبار يا تعدا د محدود
نيازمند زمان پاسخ سريع ( اغلب بلادرنگ )
ممکن است دارای چندين منبع باشند .
اسلاید 2 :
در جريان داده تعدادی يا همه داده های ورودی که بايد روی آنها عمليات انجام شود روی ديسک يا حافظه اصلی قرار ندارند و بيشتر به صورت جريان داده پيوسته می رسند .
جريان داده ها از داده های ذخيره شده در موارد زير متفاوت اند :
عناصر داده ها به صورت بر خط می رسند .
سيستم هيچ گونه کنترلی روی ترتيب عناصر دادهای ( روی عناصر جريان يا جريانهای دادهای ) ، که جهت پردازش میرسند ، ندارد .
جريانهای داده ای به صورت ذاتی از نظر اندازه نامحدود هستند .
يک عنصر از جريان داده پس از پردازش يا ناديده در نظر گرفته می شود يا آرشيو می شود .
اسلاید 3 :
دادهکاوی
دادهکاوی استخراج اطلاعات مفيد و دانش از حجم زياد داده ها است .
تکنيک هايی دادهکاوی :
تحليل قواعد وابستگی : کشف قواعد وابستگی است که هر قاعده وابستگی به صورت جفت صفت- مقدار هايی است که اغلب با هم در يک مجموعه داده اتفاق می افتند .
کلاسهبندی : فرايند يافتن مجموعه مدلهايی است که کلاس های داده را توصيف و مشخص میکنند تا بدين وسيله بتوان کلاس اشيايی را که نامشخص است مشخص کرد .
تحليل خوشه ها : اشيا بر اساس قاعده " زياد کردن شباهت بين عناصر کلاس و کم کردن شباهت بين کلاس ها " ، اشيا را به خوشه هايی تقسيم می کند . اشيا داده ای موجود در يک خوشه بيشترين شباهت را با هم دارند و با اشيا ساير خوشه ها بسيار متفاوت هستند .
اسلاید 4 :
دادهکاوی روی جريان داده ها
دادهکاوی جريان داده ها يک فرايند بلادرنگ استخراج الگوهای جالب توجه از جريان داده ها است .
برای مثال ممکن است بخواهيم ورود به حريم شبکه کامپيوتری را بر اساس جريان غير عادی پيام ها شناسايی بکنيم که از طريق مقايسه الگوهای تکرارشونده فعلی با يک زمان قبلی ، قابل کشف است .
اسلاید 5 :
تکنيک های ذکر شده در دادهکاوي بطور مستقيم بر جريان داده ها قابل اعمال نيستند زيرا الگوريتم های موجود برای اين تکنيک ها روی داده های مقيم در ديسک اعمال می شوند و می توانند داده ها را چند بار پيمايش کنند .
چالش های موجود در دادهکاوی جريان داده عبارتند از :
به دليل خصوصيت پيوستگی عناصر داده ورودی ، نياز به حافظه نامحدود دارند .
الگوريتم های دادهکاوی نياز به چندين پيمايش روی جريان داده دارند ولی به دليل سرعت بالای جريان داده اين امر امکان پذير نيست .
اسلاید 6 :
الگوهای تکرارشونده در پايگاهدادهها
الگوهای تکرارشونده ، الگوهايی هستند که اغلب در يک مجموعه داده ظاهر می شوند .
برای نمونه در يک پايگاهداده های مربوط به سابقه خريد يک فروشگاه ، شير و نان که اغلب با هم خريداری میشوند نمونهای از الگوهای تکرارشونده میباشند .
اسلاید 7 :
الگوهای تکرارشونده
I={i1,i2,…im} مجموعهای از عناصر
D مجموعهای از تراکنشهای پايگاه دادهها باشد .
دراينجاهر تراکنش شامل يک شماره منحصر بفرد و شامل ليستی از عناصر است ، مثلا کالاهايی که در يک فروشگاه به فروشمیرسند .
اگر A مجموعهای از عناصر باشد ، گوييم تراکنش T شامل A است اگر و فقط اگر
يک قاعده وابستگی به فرم است که در آن و است و
Ø
قاعده در مجموعه تراکنشهای D دارای پشتيبانی s است که s درصد تراکنشهايی در D است که شامل باشند .
قانون دارای اعتماد c در مجموعه تراکنش D است اگر c درصد تراکنشهايی از D باشد که اگر شامل A هستند آنگاه شامل B هم باشند .
اسلاید 8 :
الگوريتم Apriori
( يافتن مجموعه عناصرتکرارشونده با استفاده از روش توليد و آزمون )
هر زيرمجموعه از يک مجموعه تکرارشونده ، تکرارشونده است .
اگر {شير ، نون ، قند} تکرارشونده باشد آنگاه {شير ، نون} نيز تکرارشونده است .
هر تراکنشی که شامل {شير ، نون ، قند} باشد آنگاه شامل {شير ، نون} نيز است .
قانون هرس Apriori : اگر مجموعه ای غيرتکرارشونده باشد آنگاه هر مجموعه دربرگيرنده آن نبايد توليد/تست شود .
روش کار :
توليد مجموعه های کانديد به طول k+1 از روی مجموعه های تکرارشونده به طول k
تست کانديد ها روی پايگاه (شمارش تعداد هر کانديد)
اسلاید 9 :
شبه کد الگوريتم Apriori
Pseudo-code:
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Æ; k++) do begin
Ck+1 = candidates generated from Lk;
for each transaction t in database do
increment the count of all candidates in Ck+1 that are contained in t
Lk+1 = candidates in Ck+1 with min_support
end
return Èki=1Lk;
اسلاید 10 :
نحوه توليد کانديد
Suppose the items in Lk-1 are listed in an order
Step 1: self-joining Lk-1
insert into Ck
select p.item1, p.item2, …, p.itemk-1,q. item1,q. item2,…, q.itemk-1
from Lk-1 p, Lk-1 q
where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1
Step 2: pruning
forall itemsets c in Ck do
forall (k-1)-subsets s of c do
if (s is not in Lk-1) then delete c from Ck