بخشی از مقاله
چکیده
حجم سندهای XML احتمالاتی همانند XML معمولی می تواند در علوم مختلف بسیار زیاد شود که برای انتقال،ذخیره و یا استفاده از آنها این حجم بالا مطلوب نمی باشد. تکنیکهای فراوانی برای فشرده سازیXML معمولی وجود دارد که برای فشرده سازی XML احتمالاتی کاربرد مطلوبی ندارند و نمی توانند توزیع های انتخابی و سربار حاصل از آنها را پوشش دهند.
در تحقیق جاری سعی شده با پوشش ضعف اصلی در XMLاحتمالاتی که نداشتن شِمایی مستقل و ساختاری مدون است این حجم بالای اسناد را کم کرد. در این تحقیق با استفاده از شِمایXML معمولی ساختاری برایXML احتمالاتی تعریف کردیم که با کم کردن تعریف توزیع های مرکزی و تعریف اِلمان مرکزی کمتر حجم بالای این اسناد را به حجم قابل قبولی برسانیم و تعداد توزیهای انتخابی اسناد و سربار حاصل از این توزیعها کمتر شود.
-1 مقدمه
در حالی که پایگاه داده های سنتی تنها اطلاعات قطعی را مدیریت می کنند، برنامه های کاربردی بسیاری وجود دارند که از پایگاه داده هایی که شامل داده های نامشخص و غیر قطعی هستند استفاده می کنند.باید به این نکته توجه شود که پایگاه داده های سنتی برای ذخیره سازی و بازیابی مقادیر زیادی از داده ها کاربرد دارند ولی هیچ امتیازی برای نمایش عدم قطعیت در داده ها ندارند
در بسیاری از حوزه ها اطمینان 100درصد یا قطعیت کامل در اطلاعات امکان پذیر نیست، تحقیقات علمی موجود در معرض مقدار زیادی از عدم قطعیت هاست که نمی توان توسط سیستم های پایگاه داده های سنتی مدل شود.
با اهمیت اخیر وب این سوال به وجود می آید که استخراج این گونه اطلاعات که قطعیت کامل ندارند چگونه است، در واقع ما می خواهیم یک مدل داشته باشیم برای وارد کردن داده ها در یک پایگاه داده سنتی، یعنی اگر این داده ها نامشخص باشند همراه با نشانه ایی مناسب از سطح عدم قطعیت مرتبط با آن بتوان آنها را ذخیره کرد تا در پرس و جوها از آنها بتوان استفاده کرد
XML احتمالاتی یکی از مفاهیمی است که پیشنهاد شده است به عنوان مدل و مدیریت انواع اطلاعات غیر قطعی، از سیستم های XML احتمالاتی انتظار می رود تا با استفاده از مدلهای درست ، این عدم قطعیت در داده ها را به بهترین شکل منعکس کنند.[7] برای توضیح ساختار XML احتمالی یک سند XML احتمالی را در نظر می گیریم که در شکل 1 این سند موجود است
در یک XML احتمالاتی احتمال 0و1نشان دهنده وجود یا عدم وجود یک اِلمان در یک پایگاه داده است.[10] در یک سند XMLاحتمالاتی اگر یک اِلمان ویژگی Prob نداشته باشد احتمال آن برابر با 1 فرض می شود در اسناد XMLاحتمالاتی تمامی اِلمان ها بین یکDist مرکزی قرار می گیرند[11] همانطور که درشکل1مشخص استDist مرکزی از خط1 شروع و در خط 68 پایان می پذیرد. اسناد XML احتمالاتی برای یکپارچه کردن اسنادXML به وجود آمدند که این یکپارچه سازی خود عدم قطعیت و شک و تردیدهایی به وجود می آورد که برای پوشش دادن این عدم قطعیت ها ازXML احتمالاتی استفاده می کنیم.
این اسناد براساس فرضیه های احتمالاتی پایریزی می شوند در این اسناد بعداز تعریف Dist مرکزی که کلمه Dist در اینجا مخففdistributed است برای هر فرضیه Val[Prob]های مرکزی تعریف می شوند که مخفف Value[probabilistic] است[10] درخط2 یکVal[Prob] مرکزی را می بینیم هر فرضیه می تواند چندین Val[Prob]مرکزی داشته باشد.
همیشه Prob یا احتمال برابر با 0 و1 نیست و مقدار دارد. به طور مثال در خط 44 از شکل 1 بیان می شود شخصی به نام Andrew با احتمال 0.7 درصد در خط 49 همسری با احتمال0.4 درصد به نام Janetدارد. اغلب مواقع بیان توزیع احتمال برای یک اِلمان مهم است که در این صورت ممکن است روابطی بین ارزش احتمال اِلمانها وجود داشته باشد که این روابط توسط یک ساختار احتمالاتی به نام Distمشخص می شود یک اِلمان معمولی Distممکن است چند اِلمان ارزشی به عنوان فرزند داشته باشد که هر کدام با احتمال همراه باشد. همچنین ساختار Dist می تواند ذخیره کننده ارزشهای بین اِلمان ها باشد.
در اسناد XML احتمالاتی دو نوع توزیع احتمالی به کار می رود یکی، mutually exclusive که برای استفاده از آن از کلمه mux استفاده می شودو دیگری، independent که برای استغاده از آن از کلمه ind استفاده می کنیم .توزیع های mutually exclusive همان گونه از اسم شان بر می آید منحصر به فرد هستند[7] مانند خط 1 از شکل 1 که به عنوان Dist مرکزی برای سند استفاده شده، این نوع Dist بیان می کند که تمامی Val[Prob]های مرکزی و یا اِلمان ها در یک زمان اتفاق نمی افتند.
نوع دوم توزیع، توزیع independent است که در خط 40 از شکل1، یک نمونه از آن قابل مشاهده است در این نوع توزیع ها برخلاف توزیع mutually exclusive گاهی اوقات در پاسخ به کوئری امکان دارد از یک درصد احتمال استفاده شود و گاهی اوقات از هر دو احتمالاِلمان، توزیع مستقل - - independent در خط40شامل دو اِلمان Personاست که امکان دارد هر دو اِلمان Personیا یکی از دو اِلمان Personدر پاسخ به یک کوئری استفاده شود.
شکل - 1 - یک سندXML احتمالاتی
برای طرح ریزی و ایجاد یک XML احتمالاتی دو دسته ازاطلاعات وجود دارد.دسته اول اطلاعاتی است که عدم قطعیت آنها در قالب احتمالات ثابت و داده شده به کاربر نیست و باید این اطلاعات خام بدست بیاید.[4]یعنی از روی اطلاعات خام، شِمای XML ایی را طرح بندی می کنیم و سپساز روی شِمای XML ایی سند XML احتمالاتی خود را با احتمالات بدست می آوریم.[3] اما دسته دوم اطلاعاتی است که احتمالات آن به کاربر داده شده و کاربر براساس آن اطلاعات شِمای XML ایی آن را طرح بندی می کند و سپس با اقتباس از آن XML احتمالاتی آن را می نویسد با اینفاوت که کاربر از قبل احتمال مربوط به هر اِلمان را دارد