بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

جريان داده

بسياری از برنامه های کاربردی نوع داده جديدی به نام جريان داده را توليد و تحليل می کنند که در آن داده ها به صورت پويا به يک بستر ( يا پنجره ) وارد و يا از آن خارج می شوند .

خواص جريان داده :

حجم زياد و گاه نامحدود

تغييرپويا

جريان به درون و خارج با يک ترتيب مشخص

پيمايش يکبار يا تعدا د محدود

نيازمند زمان پاسخ سريع ( اغلب بلادرنگ )

ممکن است دارای چندين منبع باشند .

اسلاید 2 :

در جريان داده تعدادی يا همه داده های ورودی که بايد روی آنها عمليات انجام شود روی ديسک يا حافظه اصلی قرار ندارند و بيشتر به صورت جريان داده پيوسته می رسند .    

جريان داده ها از داده‌‌ های ذخيره شده در موارد زير متفاوت اند :

عناصر داده ها به صورت بر خط می رسند .

سيستم هيچ گونه کنترلی روی ترتيب عناصر داده‌ای ( روی عناصر جريان يا جريانهای داده‌ای ) ، که جهت پردازش می‌رسند ، ندارد .

جريانهای داده ای به صورت ذاتی از نظر اندازه نامحدود هستند .

يک عنصر از جريان داده پس از پردازش يا ناديده در نظر گرفته می شود يا آرشيو می شود .

اسلاید 3 :

داده‌کاوی

داده‌کاوی استخراج اطلاعات مفيد و دانش از حجم زياد داده‌ ها است .

تکنيک هايی داده‌کاوی :

تحليل قواعد وابستگی : کشف قواعد وابستگی است که هر قاعده وابستگی به صورت جفت صفت-‌ مقدار هايی است که اغلب با هم در يک مجموعه داده اتفاق می افتند .

کلاسه‌بندی : فرايند يافتن مجموعه مدلهايی است که کلاس های داده را توصيف و مشخص می‌کنند تا بدين وسيله بتوان کلاس اشيايی را که نامشخص است مشخص کرد .

تحليل خوشه ها : اشيا بر اساس قاعده " زياد کردن شباهت بين عناصر کلاس و کم کردن شباهت بين کلاس ها " ، اشيا را به خوشه هايی تقسيم می کند . اشيا داده ای موجود در يک خوشه بيشترين شباهت را با هم دارند و با اشيا ساير خوشه ها بسيار متفاوت هستند .

 

اسلاید 4 :

داده‌‌‌کاوی روی جريان داده‌ ها

داده‌کاوی جريان داده ها يک فرايند بلادرنگ استخراج الگوهای جالب توجه از جريان داده ها است .

برای مثال ممکن است بخواهيم ورود به حريم شبکه کامپيوتری را بر اساس جريان غير عادی پيام ها شناسايی بکنيم که از طريق مقايسه الگوهای تکرارشونده فعلی با يک زمان قبلی ، قابل کشف است .

اسلاید 5 :

تکنيک های ذکر شده در داده‌کاوي بطور مستقيم بر جريان داده ها قابل اعمال نيستند زيرا الگوريتم های موجود برای اين تکنيک ها روی داده های مقيم در ديسک اعمال می شوند و می توانند داده ها را چند بار پيمايش کنند .

چالش های موجود در داده‌کاوی جريان داده عبارتند از :

به دليل خصوصيت پيوستگی عناصر داده ورودی ، نياز به حافظه نامحدود دارند .

الگوريتم های داده‌کاوی نياز به چندين پيمايش روی جريان داده دارند ولی به دليل سرعت بالای جريان داده اين امر امکان پذير نيست .

اسلاید 6 :

الگوهای تکرارشونده در پايگاه‌داده‌ها

الگوهای تکرارشونده ، الگوهايی هستند که اغلب در يک مجموعه داده ظاهر می شوند .

برای نمونه در يک پايگاه‌داده های مربوط به سابقه خريد يک فروشگاه ، شير و نان که اغلب با هم خريداری می‌شوند نمونه‌ای از الگوهای تکرارشونده می‌باشند .

اسلاید 7 :

الگوهای تکرارشونده

I={i1,i2,…im} مجموعه‌ای از عناصر

D مجموعه‌ای از تراکنش‌های پايگاه داده‌ها باشد .

دراينجاهر تراکنش شامل يک شماره منحصر بفرد و شامل ليستی از عناصر است ،  مثلا کالاهايی که در يک فروشگاه به فروش‌می‌رسند .

اگر A مجموعه‌ای از عناصر باشد ، گوييم تراکنش T شامل A است اگر و فقط اگر  

يک قاعده وابستگی به فرم                است  که در آن                   و               است و 

  Ø 

قاعده               در مجموعه تراکنش‌های D دارای پشتيبانی s است که s درصد تراکنش‌هايی در D است که شامل               باشند .

قانون              دارای اعتماد c در مجموعه تراکنش D است اگر c درصد تراکنش‌هايی از D باشد که اگر شامل A هستند آنگاه شامل B هم باشند .

اسلاید 8 :

الگوريتم Apriori
( يافتن مجموعه عناصرتکرارشونده با استفاده از روش توليد و آزمون )

هر زيرمجموعه از يک مجموعه تکرارشونده ، تکرارشونده است .

اگر {شير ، نون ، قند} تکرارشونده باشد آنگاه {شير ، نون} نيز تکرارشونده است .

هر تراکنشی که شامل {شير ، نون ، قند} باشد آنگاه شامل {شير ، نون} نيز است .  

قانون هرس Apriori : اگر مجموعه ای غيرتکرارشونده باشد آنگاه هر مجموعه دربرگيرنده آن نبايد توليد/تست شود .

روش کار :

توليد مجموعه های کانديد به طول k+1  از روی مجموعه های تکرارشونده به طول k

تست کانديد ها روی پايگاه (شمارش تعداد هر کانديد)

 

اسلاید 9 :

شبه کد الگوريتم Apriori

Pseudo-code:

Ck: Candidate itemset of size k

Lk : frequent itemset of size k

 

L1 = {frequent items};

for (k = 1; Lk !=Æ; k++) do begin

     Ck+1 = candidates generated from Lk;

    for each transaction t in database do

       increment the count of all candidates in Ck+1                              that are contained in t

    Lk+1  = candidates in Ck+1 with min_support

    end

return Èki=1Lk;

اسلاید 10 :

نحوه توليد کانديد

Suppose the items in Lk-1 are listed in an order

Step 1: self-joining Lk-1

insert into Ck

select p.item1, p.item2, …, p.itemk-1,q. item1,q. item2,…, q.itemk-1

from Lk-1 p, Lk-1 q

where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1

Step 2: pruning

forall itemsets c in Ck do

forall (k-1)-subsets s of c do

if (s is not in Lk-1) then delete c from Ck

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید