بخشی از پاورپوینت

اسلاید 1 :

موتورهاي جستجوي معنايي و داده هاي عظيم

اسلاید 2 :

فهرست
مقدمه
پردازش پرسش و داده های عظیم
ذخيره سازي و داده های عظیم
شاخص گذاري و داده های عظیم
جستجوي کلمات کليدي و داده هاي عظيم

اسلاید 3 :

مقدمه
رشد روز افزون حجم داده در وب
موتورهاي جستجو بايد دسترسي به بيليون ها سند را فراهم کنند
تکنيک هاي پيشرفته و مقياس پذيري براي شاخص گذاري، پردازش پرسش و رتبه بندي
MapReduce
SPARQL
استخراج اطلاعات وجستجو در RDF
کارايي فرايند اجرا پرسش SPARQL به دو فاکتور وابسته است:
بازيابي سه گانه هاي RDF: به نحوه ي ذخيره سازي و شاخص گذاري سه گانه ها وابسته است.
کارايي پيوند: به وسيله استراتژي هاي بهينه سازي و الگوريتم هاي پيوند تعيين مي شود.
SELECT ?x
WHERE {
?x rdf:type Full Prof ?x ex:work cs
}

اسلاید 4 :

مثال
ex:S1 foaf:age 25 .
ex:S2 foaf:age 25 .
ex:S1 ex:study ex:C1 .
ex:S2 ex:study ex:C1 .
ex:C1 ex:hasProfessor ex:P1 .

اسلاید 6 :

MapReduce (Map)
public static class RDFMapper extends Mapper{
private Text word = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
String[] split = value.toString().split(" ");
word.set(split[0]);
context.write(word, new Text("s"));
word.set(split[1]);
context.write(word, new Text("p"));
word.set(split[2]);
context.write(word, new Text("o"));
}
}

اسلاید 7 :

MapReduce (Reduce)
public static class RDFReducer extends Reducer {
private IntWritable result = new IntWritable();
private Text result=new Text();
public void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {
int sums = 0;
int sumo = 0;
int sump = 0;
for (Text val : values) {
if(val.toString().compareTo("s")==0) sums ++;
if(val.toString().compareTo("p")==0) sump ++;
if(val.toString().compareTo("o")==0) sumo ++;
}
String s="";
if (sums!=0) s=s+"(s "+Integer.toString(sums)+")";
if (sump!=0) s=s+"(p "+Integer.toString(sump)+")";
if (sumo!=0) s=s+"(o "+Integer.toString(sumo)+")";
result.set(s);
context.write(key, result);
}
}

اسلاید 8 :

Shuffle & Sort
مرتب کردن جفت­ها بر اساس کليد
تطابق بين زيرگراف RDF و BGP مطرح شده در پرسش
پيوند بين جفت­ها با کليد يکسان

اسلاید 9 :

پردازش پرسش و داده هاي عظيم
هدف: کاهش تعداد Job­ها افزايش کارايي فرايند اجراي پرسش
انتخاب متغير پيوند مناسب
Clique: يک زيرمجموعه از رئوس است که هر دو رأس در اين زيرمجموعه به وسيله يک يال به هم متصل شدهاند.

اسلاید 10 :

پردازش پرسش و داده هاي عظيم
SELECT ?x ?y ?z
WHERE {
?x :takesCourse ?yTP1
?x :member ?zTP2
?x :name "ted"TP3
}
پرسش 1-Clique

اسلاید 11 :

پردازش پرسش و داده هاي عظيم
پرسش Central-Clique
SELECT ?x ?y ?z ?w ?u
WHERE {
?x :takesCourse ?yTP1
?x :member ?zTP2
?w :advisor ?xTP3
?w :name ?uTP4
}

اسلاید 12 :

پردازش پرسش و داده هاي عظيم
پرسش General Query
براي اجراي اين پرسش بيشتر از يک Job نياز است.
از يک الگوريتم حريصانه بنام Clique Square براي انتخاب متغير پيوند استفاده مي­شود.

اسلاید 13 :

ذخيره سازي و داده هاي عظيم
ارتباط بين دو مرحله ي Map و Reduce
داده ها از روي ديسک خوانده مي شوند و دوباره بر روي ديسک نوشته مي شوند.

نحوه سازماندهي داده ها در HDFS يک موضوع قابل توجه است.
کاهش فضاي مورد نياز براي ذخيره داده

کارايي پرسش هايي که کاملا به صورت موازي اجرا مي شوند نسبت به پرسش هايي که براي اجرا نياز به هماهنگي با ساير نودها دارند، بيشتر است.

هرچه هماهنگي بيشتري نياز باشد ارتباط بين نودها بيشتر مي شود، يا به عبارت ديگر حجم نتايج مياني که بر روي ديسک نوشته مي شود افزايش مي يابد.

اسلاید 14 :

ذخيره سازي و داده هاي عظيم
تقسيم داده هاي RDF با استفاده از درهم معنايي
هدف: دسترسي محلي به داده هاي RDF کاهش ارتباط بين نودها

بر طبق اين روش:
کل گراف RDF به گروه هاي مستقل از هم تقسيم می شود.
براي هر نودV در گراف RDF، بسته به موقعيتV در الگوي سه گانه، سه نوع گروه مي توان در نظر گرفت:
گروه سه گانه Subject محور: شامل تمام الگوهاي سه گانه که V در آن نقش Subject دارد.
گروه سه گانه Object محور: شامل تمام الگوهاي سه گانه که V در آن نقش Object دارد.
گروه سه گانهSubject-Object محور: شامل تمام الگوهاي سه گانه که V در آن نقشSubject يا Object دارد.

تعيين مي شود که هر الگوي سه گانه در کدام گروه قرار مي گيرد.

اسلاید 15 :

ذخيره سازي و داده هاي عظيم
تکثير الگوهاي سه گانه با استفاده از تابع درهم در گروه ها

توسعه در جهت جلو: اين روش الگوهايي را اضافه مي کند کهSubject در اين الگو نقشObject براي يکي از الگوهاي موجود در گروه را دارد.
توسعه در جهت عکس: اين روش الگوهايي را اضافه مي کند کهObject در اين الگو نقش Subject براي يکي از الگوهاي موجود در گروه را دارد.
توسعه در هر دو جهت: اين روش الگوهايي را اضافه مي کند که منبع در اين الگو نقشSubject يا Object براي يکي از الگوهاي موجود در گروه را دارد.

اسلاید 16 :

شاخص گذاري و داده هاي عظيم
عمليات پيوند در مرحله Map انجام مي پذيرد.
Hbase
سه گانه هايRDF در شش جدول S_PO، P_SO، O_SP، P_SO، SO_P و PO_S ذخيره مي شوند.

تنها با يک دستور GET از يک جدول سه­گانه­هاي مرتبط را بازيابي مي توان کرد

اسلاید 17 :

شاخص گذاري و داده هاي عظيم
SELECT *
WHERE {
?article title ?title
?article author ?author
}

اسلاید 19 :

H2RDF
یک انباره توزیع­شده برای داده­های RDF است.
همچنین امکان اجرای پرسش SPARQL به صورت توزیع­شده و با کارایی بالا را فراهم می­کند.
از سه شاخص SP_O، OS_P و PO_S برای ذخیره داده­های RDF در Hbase استفاده شده است.

H2RDF+
بجای سه شاخص از شش شاخص برای ذخیره­سازی داده­های RDF استفاده کرد است.

اسلاید 20 :

جستجوي کلمات کليدي و داده هاي عظيم
Q1 = {Bernstein, SIGMOD, 2008}
a1: Articles of Bernstein published in SIGMOD 2008
a2: Articles of Buneman published in SIGMOD 2008

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید