مقاله روش‌های توصیف و تحلیل مه‌ داده‌‌ها در آمار‌های ثبتی

فایل pdf

4 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده ی مختصر

مه دادهها دارای سه مولفهی اصلی تنوع، حجم و سرعت تغییر هستند و برای ذخیره سازی، تحلیل و نمایش نتایج، مشکلاتی پیش روی آنهاست. تنوع بالای مه دادهها سبب پررنگتر شدن نقش علم آمار در تحلیل آنها شده است. اما دو مانع در این مسیر وجود دارد:

-1 این دادهها به دلیل حجم و پیچیدگی زیادی که دارند، از ظرفیت ابزار تحلیلی خارج هستند.

-2 انجام محاسبات بر روی آنها بسیار زمانبر و طولانی است.

اینها از جمله چالشهایی هستند که آماردانان در این حوزه با آنها مواجهاند. در این مقاله سعی شده است که برخی روشهای آماری و محاسباتی اخیر برای مقابله با مشکلات پیش روی مه دادهها معرفی گردد.

-1 مقدمه

لین و خی - 2011 - برآورد خطی از معادلات را به صورت بلوکهای جداگانه مطرح کردند و روش افراز و تقسیم را در مه دادهها به کار گرفتند. لیانگ و همکاران - 2013 - روش تقریب تصادفی براساس بازنمونهگیری را در این حوزه به کار بردند. لیانگ و کیم - 2013 - نیز به بیان روش میانگین لگاریتم درستنمایی با استفاده از الگوریتم متروپولیس-هستینگس در مونت کارلوی زنجیر مارکوفی پرداختند. همچنین کلاینر و همکارانش - 2014 - روش نمونههای کوچک خودگردان را برای ارزیابی کیفیت در مه دادهها پیشنهاد دادند.

حال با توجه به اهمیت و نقش علم آمار در این حوزه، به طور مختصر به تشریح هر یک از این روشهای آماری میپردازیم. در بخش دوم، روش معادلات برآورد انباشته شده، در بخش سوم، روشهای میانگین لگاریتم درستنمایی، در بخش چهارم، زیرنمونهگیری براساس مونت کارلوی زنجیر مارکوفی و در بخش پنجم، روش نمونه-های کوچک خودگردان را شرح خواهیم داد. در بخش ششم نیز به معرفی برخی بستههای نرمافزار R میپردازیم و سپس در بخش هفتم با ارائهی نتیجه گیری، مقاله را به اتمام میرسانیم .

-2 معادلات برآورد انباشته

در این روش با توجه به پژوهشهای صورت گرفته بر روی پردازش تحلیلی آنلاین، به دنبال ارائهی یک روش محاسباتی مناسب و دارای قدرت ذخیره سازی برای برآورد کردن برآورد معادله در مه دادهها با استفاده از روش افراز و تقسیم هستیم به طوری که در هر قسمت از مجموعه داده، دادهها را به بعدهای کم آماری فشرده میکنیم و سپس تقریب برآوردگر را به وسیلهی حل معادلهی تجمعی در تمامی بخشها محاسبه میکنیم. این روش سبب کاهش زمان موردنیاز برای انجام محاسبات شده و بر مشکل محدودیت حافظه که برای مه دادهها مطرح است، غلبه میکند. در مدل رگرسیون خطی، برآوردگر حداقل مربعات برای ضرایب رگرسیونی برای کل دادهها میتواند به صورت یک میانگین وزنی از برآوردگر حداقل مربعات در هر بلوک بیان شود.

موفقیت در این روش به خطی بودن معادلات برآورد در بستگی دارد و معادلهی برآورد برای تمام دادهها، یک جمع ساده از آن برای تمامی بلوکهاست. برای معادلات برآورد غیرخطی، روش تقریب زدن خطی از معادلات برآورد به وسیلهی بسط تیلور در هر بلوک پیشنهاد میشود. بنابراین، سادهکردن معادلهی برآورد غیرخطی به نوع خطی، سبب میشود که پاسخهای تمامی بلوکها به وسیلهی میانگین وزنی با یکدیگر ترکیب شوند.

-3 میانگین لگاریتم درستنمایی

همانطور که میدانیم مدلهای آماری گاوسی به طور گستردهای برای مدلسازی دادههای فضایی مورد استفاده قرار می-گیرند اما به هرحال محاسبات و پیادهسازی این مدل، یک چالش است چرا که نیازمند معکوس ماتریس کوواریانس است که بسیار پیچیده است، مخصوصا هنگامی که تعداد دادهها بسیار زیاد باشد. این روش درصدد است که با به کارگیری تخمین تصادفی با استفاده از بازنمونهگیری به مقابله با این معضل بپردازد.

با الگو گرفتن از کوچک کردن واگرایی کولبک-لیبلر، این واگرایی را با استفاده از میانگین محاسبه شده از زیرنمونهها برآورد میکنیم که منجر به روش برآورد میانگین لگاریتم - درستنمایی ماکسیمم میشود. در این روش، در هر تکرار، یک زیرنمونه به حجم m از مجموعه دادههای اصلی انتخاب می-شود و پاسخ میانگین معادلهی امتیازی از روش تقریب تصادفی حاصل میشود به طوری که در هر تکرار، برآورد براساس زیرنمونه به روزرسانی میشود. از آنجایی که m بسیار کوچکتر از n است و از ایجاد معکوس ماتریس کوواریانس که بزرگ است جلوگیری میکند، این روش میتواند برا حل مشکل مه دادهها مفید باشد.

-4 زیرنمونهگیری بر پایهی روشهای مونت کارلوی زنجیر مارکوفی

هنگامی که چگالی f را بتوان ارزیابی کرد اما به آسانی نتوان از آن نمونه گرفت، برای بهدست آوردن نمونههای تقریبی و دقیق، روشهایی مورد بحث قرار میگیرند که از جملهی آنها میتوان به روشهای مونت کارلوی زنجیر مارکوفی - 5MCMC - اشاره کرد. همانطور که میدانیم هنگامی که زنجیر تحویلناپذیر و نامتناوب باشد، توزیع آن به توزیع مانای حدی میگراید. راهبرد روش MCMC ساختن چنین زنجیری است که توزیع مانای مربوط به آن با توزیع هدف f برابر باشد.

از این رو این روش در استنتاج بیزی بسیار کاربردی است چرا که در آن f توزیع پسین بیزی برای پارامتر است اما هزینهی هنگفت برآورد درستنمایی در هر تکرار، از جمله مشکلات موجود بر سر راه مه دادهها است. در این روش در پی تحلیل بیزی مه دادهها با استفاده از الگوریتم متروپولیس-هستینگس هستیم و روش میانگین لگاریتم درستنمایی را برای این الگوریتم در MCMC بسط میدهیم. نسبت درستنمایی برآورد پیشنهادی در الگوریتم متروپولیس، با تقریب میانگین - لگاریتم درستنمایی براساس k نمونه بوت استرپ به حجم m جایگزین میشود. این الگوریتم از به کار بردن تمام دادهها در هر تکرار جلوگیری میکند و از این جهت میتوان از این روش در مه دادهها استفاده کرد.

-5 نمونههای کوچک خودگردان

روش بوت استرپ یک وسیلهی ساده و قدرتمند برای ارزیابی کیفیت برآوردگرهاست. در مه دادهها که دارای حجم زیادی هستند، این روش برای جلوگیری از محاسبات پچیده بسیار مناسب است. با استفاده از زیرنمونهگیری و انتخاب m از n بوت استرپ، میتوان هزینههای محاسباتی را کاهش داد اما این روشها نیازمند استفاده از اطلاعات پیشین هستند. در اینجا روش BLB که ترکیبی از زیرنمونهگیری و نمونهگیری بوت استرپ است را به عنوان یک وسیلهی محاسباتی مناسب با عملکرد قوی برای ارزیابی کیفیت برآوردگرها معرفی میکنیم. این روش شامل گامهای زیر میباشد:

s - 1 زیرمجموعه به اندازهی m از مجموعه دادهی اصلی به حجم n انتخاب کنید .

-2 برای هرکدام از s زیرمجموعه، r نمونهی بوت استرپ بگیرید و برآورد نقطهای و مقدار کیفیت آنها را به دست آورید.

-3 سپس s مقادیر به دست آمده از گام دوم را باهم ترکیب کنید تا برآورد کلی حاصل شود - برای مثال میانگین بگیرید - . لازم به ذکر است در زیرنمونهها، m برابر با [0.5,1] پیشنهاد شده است که بسیار کوچکتر از n است و حجم بسیار کمتری را به خود اختصاص میدهد.

-6 بستههای نرمافزار R

پردازش مه دادهها یکی از موضوعات محاسباتی در دنیای امروز است. نرم افزار R و بستههای افزودنی آن به عنوان محبوب-ترین نرمافزار آماری، طیف گستردهای از محاسبات را با کارایی بالا، ارائه میدهد. برای هرگونه تحلیل آماری روی مه دادهها با استفاده از سیستم مدیریت دادهها، نیازمند انجام محاسبات عددی هستیم. خانوادهی bigmemory برای ایجاد، ذخیره کردن، دسترسی و استفاده از ماتریسهای حجیم به کار میرود.

پکیجهای biganalytics برای تجزیه و تحلیل آماری، bigtabulate برای عملیات جدول بندی و bigalgebra برای اعمال ماتریسی، توابع پیشرفتهای را ارائه میدهند و استفاده از آنها در محیطهای موازی، سرعت و کارایی قابل توجهی دارد. به عنوان مثالی دیگر میتوان به بستهی ffbase اشاره کرد که توابع پایهای آماری را برای اعضای ff ارائه میدهد. RRE نیز محصول اصلی انقلاب تجزیه و تحلیل است. همچنین شرکتی است که ابزارهای نرمافزار R را تولید و پشتیبانی میکند. RRE بر روی مه دادهها و انجام محاسبات در مقیاسهای بزرگ متمرکز است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/99842

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله روش‌های توصیف و تحلیل مه‌ داده‌‌ها در آمار‌های ثبتی

بخشی از مقاله

چرا مگ ایرانز؟

تحقیق در مورد آمار آسیب ها و جراحات شغلی شانزدهمین کنفرانس بین المللی آمار شغلی سازمان بین المللی کار

دانلود مقاله در مورد ‌‌نحوه ثبت اظهارنامه های ثبتی برای نسبت انواع اراضی دولتی

دانلود مقاله بررسی تحلیلی جرم جعل در قوانین ثبتی

مقاله در مورد اشتباهات ثبتی اداره ثبت اسناد

دانلود فایل پاورپوینت کارگروه آمار و توصیف عمومی استان

مقاله سری آمار : مقدمه ای بر آمار استنباطی ( برآورد عددی ، فاصله اطمینان و آزمون فرض )

مقاله داده کاوی توزیع شده بر روی کلان داده ها با استفاده از چارچوب هدوپ ، ( مطالعه موردی : مرکز آمار ایران )

مقاله مقایسه روش های زمین آمار و آمار کلاسیک در پهنه بندی اطلاعات بارندگی؛ مطالعه موردی استان کرمان

مقاله تئوری روش ثبتی مبنا در اجرای سرشماری عمومی نفوس و مسکن

مقاله تحلیل فراوانی وقوع ارتفاع رواناب سالانه توسط مناسبترین روش تجربی در حوزه های فاقد آمار هیدرومتری مطالعه موردی : جعفرآباد طبس

مقاله تحلیل واحدهای تقسیمات مکانی آماری استاندارد با رویکرد گذر از سرشماری سنتی به ثبتی مبنا

مقاله داده کاوی توزیع شده بر روی کلان داده ها با استفاده از چارچوب هدوپ ( مطالعه موردی : مرکز آمار ایران )

مقاله حق مالکیت از دیدگاه حقوق شهروندی و اثرات برقراری آن در نظام ثبتی کشور

مقاله توصیف پوشش واریزه ای یخچال علم کوه با استفاده از داده های اپتیکی وحرارتی ماهواره لندست8

مقاله داده کاوی و کاربردهای آن در آمار ( با اشاره به کاربرد تحلیل عاملی )

مقاله ساخت توصیف به زبان فارسی برای تصاویر مجموعه داده Flickr8k

مقاله روش جدید طبقه بندی چندکلاسه داده با کمک کاهش داده ها به منظور کاربرد در داده های حجیم

مقاله روش های صوری در توصیف سیستم های هم روند

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله روش‌های توصیف و تحلیل مه‌ داده‌‌ها در آمار‌های ثبتی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

تحقیق در مورد آمار آسیب ها و جراحات شغلی شانزدهمین کنفرانس بین المللی آمار شغلی سازمان بین المللی کار

دانلود مقاله در مورد ‌‌نحوه ثبت اظهارنامه های ثبتی برای نسبت انواع اراضی دولتی

دانلود مقاله بررسی تحلیلی جرم جعل در قوانین ثبتی

مقاله در مورد اشتباهات ثبتی اداره ثبت اسناد

دانلود فایل پاورپوینت کارگروه آمار و توصیف عمومی استان

مقاله سری آمار : مقدمه ای بر آمار استنباطی ( برآورد عددی ، فاصله اطمینان و آزمون فرض )

مقاله داده کاوی توزیع شده بر روی کلان داده ها با استفاده از چارچوب هدوپ ، ( مطالعه موردی : مرکز آمار ایران )

مقاله مقایسه روش های زمین آمار و آمار کلاسیک در پهنه بندی اطلاعات بارندگی؛ مطالعه موردی استان کرمان

مقاله تئوری روش ثبتی مبنا در اجرای سرشماری عمومی نفوس و مسکن

مقاله تحلیل فراوانی وقوع ارتفاع رواناب سالانه توسط مناسبترین روش تجربی در حوزه های فاقد آمار هیدرومتری مطالعه موردی : جعفرآباد طبس

مقاله تحلیل واحدهای تقسیمات مکانی آماری استاندارد با رویکرد گذر از سرشماری سنتی به ثبتی مبنا

مقاله داده کاوی توزیع شده بر روی کلان داده ها با استفاده از چارچوب هدوپ ( مطالعه موردی : مرکز آمار ایران )

مقاله حق مالکیت از دیدگاه حقوق شهروندی و اثرات برقراری آن در نظام ثبتی کشور

مقاله توصیف پوشش واریزه ای یخچال علم کوه با استفاده از داده های اپتیکی وحرارتی ماهواره لندست8

مقاله داده کاوی و کاربردهای آن در آمار ( با اشاره به کاربرد تحلیل عاملی )

مقاله ساخت توصیف به زبان فارسی برای تصاویر مجموعه داده Flickr8k

مقاله روش جدید طبقه بندی چندکلاسه داده با کمک کاهش داده ها به منظور کاربرد در داده های حجیم

مقاله روش های صوری در توصیف سیستم های هم روند

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران