بخشی از مقاله
آشنايی با آمار توصيفي
پيشگفتار
در عصر حاضر كسي نميتواند منكر این واقعیت باشد كه آمار نقشي لاینفک در زندگي روزمره ما بازي ميكند. اخبار روزانه رسانههاي گروهی با گزارشی از وضع هوا به پایان ميرسندو در طول اخبار، به جریانهای بازار بورس و سهام اشاره ميشود و روزنامهها خبر از افزایش نرخ اجناس ميدهندو...
آمار به عنوان پايه يك روش و راه موثر در بررسی مسائل موجود، در بسیاری از زمينههاي علمي از جمله جامعه شناسي، کشاورزی، فيزيك و....به كار گرفته ميشود. در دانش امروزي، معمولا سعی ميشود كه اطلاعات موجود در يك زمينه خاص، در قالب اعداد نمایش داده شود تا به هنگام تجزیه و تحلیل اطلاعات، فهم بهتری از پدیده مورد مطالعه به دست آمده و امکان مقایسه فراهم گردد. در يك جمله آمار مجموعهاي از روشهای جمع آوری، تهيه وتنظیم و تجزیه و تحلیل اطلاعات است كه براي كسب يك يا چند نتیجه به خدمت گرفته ميشود.
دیدگاههایی درمورد آمار
تهيه آمار كاری وقت گير و زمان بر و اصولا كسالت آور است.
آمار گورستانی از اعداد و ارقام است كه در هر اداره و سازمان نمونه ای از آن پيدا می شود.
آمار مجموعه ای از روابط و فرمولهای رياضی پيچيده و گيج كننده است.
آمار شامل نمودارها و جدولهايی از اعداد است.
آمار فرايندی است كه در آن هر ده سال افرادی را به منازل فرستاده و اطلاعات
آمار ابزاری است كه بسياری با توسل به آن افكار عمومی را به نفع خود جلب می كنند.
آمار مفهومی است كه براي ثبت و نمايش اطلاعات عددی به كار می رود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيله كشتی در 15 سال گذشته، جمعيت نواحی جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماری يا مقدار مسافت طی شده در زمان معينی به وسيله برنده مسابقه دو.
دید کلی
بیشتر مردم با کلمه آمار، به مفهومی که برای ثبت و نمایش اطلاعات عددی بکار میرود، آشنا هستند: تعداد بیکاران، قیمت روزانه بعضی از سهام در بازار بورس، کارمزد تحمل کالا بوسیله کشتی در 15 سال گذشته مثالهایی از این مفهوماند. ولی این مفهوم با موضوع منطبق با موضوع اصلی مورد بحث آمار نیست. آمار عمدتا با وضعیتهای سروکار دارد که در آنها وقوع یک پیشامد بطور حتمی قابل پیش بینی نیست. استنتاجهای آماری غالبا غیر حتمیاند زیرا مبتنی بر اطلاعات ناکاملی هستند. معادل کلمه آمار در زبان انگلیسی statistics است که از لحاظ تاریخی از کلمه لاتین status مشتق شده است.
نقش آمار در زندگی روزمره
پی بردن به واقعیات امور از طریق گردآوری و تعبیر دادهها، منحصر به پژوهشگران حرفهای نیست. این امر در زندگی روزمره همه مردم که میکوشند آگاهانه، ناآگاهانه مسائلی را درباره جامعه، شرایط زندگی، محیط زندگی خود و کل دنیا درک کنند، معمول است. برای کسب اطلاع از وضع بیکاری، آلودگی ناشی از ضایعات صنعتی، اثر یک مسکن در رفع بیماری و سایر مسائل مورد علاقه در زندگی روزمره، اطلاعات و ارقام را جمع آوری و آنها را تفسیر مینماییم یا کوشش میکنیم که تفسیرهای دیگران را بفهیم. بنابراین، هر روز از طریق تجزیه و تحلیل ضمنی اطلاعات مبتنی بر واقعیات، عمل کسب آگاهی انجام میگیرد.
نقش آمار در پژوهشهای علمی
موضوع آمار عبارت است از هنر علم جمع آوری، تعبیر و تجزیه و تحلیل دادهها و استخراج تعمیمهای منطقی در مورد پدیدههای تحت بررسی. با توجه به مراحل اساسی یک تحقیق علمی که عبارتند از: مشخص کردن هدف، جمع آوری اطلاعات، تجزیه و تحلیل دادهها و بیان یافتههای آشکار است که آمار بطور وسیعی در قلمرو تمام تحقیقات علمی بکار میرود. بویژه، در مرحله جمع آوری اطلاعات، آمار راهنمای محقق در انتخاب روشها و وسایل مناسب برای جمعآوری دادههای اطلاعاتی است. در مراحل بعد از گرد آوری دادهها، نیاز بیشتری به روشهای آماری وجود دارد.
کاربرد آمار
کاربرد روشهای آماری در قلمروهای گوناگون از علوم انسانی، علوم مهندسی، رشتههای علمی جدیدی پدید آورده است که در ارتباط متقابل با آمار هستند. نظیر آمار زیستی، روانسنجی، آمار مهندسی، آمار بازرگانی، اقتصاد سنجی و جمعیت شناسی. به علاوه علم آمار در رشتههای بسیار دیگری که هنوز از ترکیب آنها با آمار شاخههایی با اسامی خاص پدید نیامده، از قبیل علوم سیاسی، هواشناسی و محیط شناسی نقش عمدهای ایفا میکند.
آمار توصيفي
براي اينكه نتايج مناسب و مطلوب از اطلاعات كه در آمار گيريها جمع آوري ميكنيم، به دست آيد بايد:
– اعداد نماينده واقعي مشاهدات بوده و غيرواقع يا غلط نباشند
– به نحو مفيدي تهيه و تنظيم شوند
– به نحو صحيح تجزيه و تحليل گردند
– قابل نتيجه گيري صحيح باشند
به طور كلي، روشهایی که بوسیلة آنها می توان اطلاعات جمع آوری شده را تنظیم، طبقه بندی و خلاصه نمود و آنها را بوسیلة نمودارهایی نمایش داد به آمار توصیفی موسوم است. برای معرفی این روشها نیاز به برخی اصطلاحات داریم که در ذیل به معرفی آنها می پردازیم.
جمعيت
مجموعة تمام افراد یا اشیایی که مطالعات آماری در مورد یک یا چند صفت آنها در یک مکان و زمان معین انجام می گیرد به جمعیت موسوم است. هر یک از این افراد یا اشیا را یک عضو جمعیت می نامند و تعداد اعضای جمعیت را اندازة جمعیت می نامند.
مثال1:
اندازه قد يا وزن دانشجويان بيست ساله يك شهر، تعداد لامپهاي سالم و يا ناسالم توليد شده در يك كارخانه و در يك روز معين، مثالهايي از جمعيتهاي آماري هستند.
مثال2:
اگر بخواهیم معدل دانشجویان یک دانشکده در یک نیمسال را مورد بررسی قرار دهیم آنگاه جمعیت مورد نظر کلیة دانشجویان آن دانشکده می باشند و صفت مورد مطالعه معدل نیمسال تحصیلی آنها است. همین طور اگر بخواهیم میزان کالری موجود در غذاهای کنسرو شده در یک کارخانه کنسرو سازی در یک روز معین را مورد بررسی قرار دهیم آنگاه جمعیت مورد نظر تمامی غذاهای کنسرو شده کارخانه در آن روز و صفت مورد مطالعه میزان کالری موجود در آنها می باشد.
نكته:
معمولا مطالعه ويژگيهاي مورد نظر، به هنگامی كه جمعیت آماری بسیار گسترده باشد،مستلزم صرف هزینه و وقت زيادي ميباشد و در بسیاری از مواقع، اين امر اصولا امکان پذیر نیست. بنابراین در چنین موردی، براي مطالعه ویژگی مورد نظر، به قسمتی از جمعیت آماری اکتفا ميكنيم
نمونه:
زیر مجموعه ای از جمعیت که طبق یک قاعده و ضابطة خاصی برای مطالعة صفتی از جمعیت انتخاب می شود را یک نمونه گویند. تعداد اعضای نمونه به اندازة نمونه موسوم است.
نکته:
اين نمونه وقتي مفيد و قابل قبول خواهد بود كه بتواند نماينده خوبي براي كل جمعيت مورد مطالعه باشد. با توجه به اهميت اين موضوع شاخهاي از آمار تحت عنوان نظريه نمونهگيري با بررسي نمونهاي به اين امر مهم ميپردازد. در بسياري از موارد، معمولا نمونه تصادفي ساده را در نظر ميگيرند.
مثال:
براي بررسی اندازه قد دانشجویان بیست ساله يك شهر، انتخاب مثلا 150 نفر از بین اين جمعیت به طور تصادفی، يا انتخاب 100 لامپ به تصادف از لامپهاي توليدي يك کارخانه در يك روز معین، براي تعيين كيفيت لامپهاي توليدي اين کارخانه مثالهايي از نمونه تصادفی هستند.
متغير:
خصوصیت مورد مطالعه، از فردی به فرد دیگر، يا از شي به شي دیگر در جمعیت آماری تغيير ميكند، كه آن را اصطلاحا متغير ميناميم.
معمولا دو نوع متغير در آمار مورد نظر هستند:
‗ متغيرهاي گروهي، نظير رنگ، نژاد، شغل و گروه خوني كه شامل چند گروه يا طبقه ميباشند.
‗ متغيرهاي عددي كه ممكن است نتيجه شمارش باشد، مانند تعداد احشام هر خانوار در يك روستا،تعداد حوادث در يك كارخانه در روزهاي مختلف، و يا نتيجه اندازهگيري باشد، مثل قد دانشجويان بيست ساله در يك شهر، حجم شربت مولتي ويتامين با استاندارد خاص.
متغير:
• متغيرهاي گسسته
1. متغيرهاي گروهي
2. متغيرهاي عددي كه از راه شمارش بهدست آمده اند
• متغيرهاي پیوسته
1. متغيرهايي را كه از طريق اندازهگيري به دست آمده باشند
مقياسهاي اندازهگيري
در بسیار از مسائل پيشرو، اندازهگيري ویژگی يك متغیر مستلزم آگاهی و شناخت خاصي است. به طور كلي چهار نوع مقیاس براي اندازه گيري وجود دارد:
§ مقياس اسمي
§ مقياس ترتيبي
§ مقياس فاصلهاي
§ مقياس نسبتي
مقياس اسمي:
اين نوع مقياس اندازهگيري عمدتا براي طبقه بندي دادهها به كار ميرود و منظور از آن اتلاق يك عدد طبيعي به دادههاي متفاوت است.
مثال:
اختصاص اعداد 1 تا 4 به گروههاي خوني A,B, AB, O.
توجه داشته باشيد كه:
اين اعداد را نميتوان براي مقايسه يا چهار عمل اصلي به كار برد
مقياس ترتيبي:
اين نوع مقياس اندازهگيري عموما براي طبقه بندي دادهها به منظور يك نوع برتري به كار ميرود.
مثال:
در يك كارخانه ممكن است كارگران را به سه دسته ساده، نيمه ماهر و ماهر تقسيم بندي كنيم. اتلاق به ترتيب اعداد 1 تا 3 به اين سه دسته يك مقياس ترتيبي است.
توجه داشته باشيد كه:
اين اعداد تنها براي مقايسه به كار ميروند و نميتوان با آنها چهار عمل اصلي را انجام داد.
مقياس فاصله اي:
اين نوع مقياس اندارزهگيري عموما در زمينههاي كه علاوه بر حفظ ترتيب به نحوي فاصله بين ويژگيها را نيز حفظ ميكند. به عبارت ديگر در چنين مقياسي نسبت تفاضلها ثابت ميماند.
مثال:
اندازهگيري ضريب هوشي دانش آموزان كلاس اول دبستان در شهر اصفهان.
توجه داشته باشيد كه:
در اين نوع مقياس، عدد صفر يك مفهوم قراردادي است.
مقياس نسبتي:
اين نوع مقياس اندازهگيري علاوه بر حفظ فاصله، نسبت را نيز حفظ ميكند. به عبارت ديگر در اين نوع اندازهگيري نسبت دو مقدار بستگي به واحد اندازهگيري ندارد.
داده
در یک بررسی آماری، بایستی صفت مورد مطالعه را به صورت اعداد و ارقام نمایش دهیم. اگر صفت مورد مطالعه کمی، مانند وزن، حجم، درجة حرارت و غیره باشد آنگاه این عمل به سادگی با اندازه گیری امکان پذیر است اما اگر صفت مورد مطالعه کیفی، مانند گروه خون، شغل، رنگ چشم و غیره باشد آنگاه بایستی با یک قاعده معین این مسائل کیفی را با اعداد و ارقام نشان داد. در هر صورت این اعداد و ارقام را داده ها گویند که به دو صورت گسسته و پیوسته می باشند. داده های گسسته داده هایی هستند که بین دو مقدار متصور آنها هیچ عدد دیگری وجود نداشته باشد، مانند تعداد فرزندان یک خانواده که شامل مقادیر 0، 1، 2 و... است و همچنین صفت شغل افراد که به آن مثلاً اعداد 1، 2، 3 و... را نسبت می دهیم و بین این مقادیر عدد دیگری در رابطه با صفت مورد نظر وجود ندارد. داده های پیوسته داده هایی هستند که بین هر دو مقدار متصور آنها همواره عدد دیگری وجود دارد، مانند وزن افراد که بین دو نفر با وزنهای نزدیک به هم همواره می توان فردی را با وزنی بین وزن دو فرد یاد شده در جمعیت یافت. از جمله داده های گسسته می توان داده های مربوط به صفات گروه خون، رنگ، نژاد، شغل، تعداد کالاهای تولیدی و غیره را برشمرد و از جمله داده های پیوسته می توان داده های مربوط به صفات وزن، طول قد، فشار گاز، قطر لوله تولیدی یک کارخانه و غیره را برشمرد.
داده خام:
معمولا به دادههاي جمع آوري شده كه انبوهي عدد است و هيچ نوع پردازشی روي آنها انجام نشده است داده خام ميگويند.
در آمار بعد از جمع آوری داده ها به بررسی آماری بر روی آنها می پردازیم. در مرحلة نخست با توجه به اهداف بررسی، داده ها را تنظیم، طبقه بندی و خلاصه می کنیم به طوری که بتوانیم اطلاعات مفیدی برای نیل به اهداف و نتایج مورد نظر به دست آوریم. انجام این کار در سه مرحله به شرح زیر صورت می پذیرد:
الف – تنظیم و طبقه بندی داده ها در یک جدول
ب – ترسیم نمودارهای گوناگون از روی مقادیر ارائه شده در جدول
ج – خلاصه کردن داده ها به یک یا چند عدد موسوم به شاخص یا آماره
سه موضوع فوق از موضوعات اساسی بحث آمار توصیفی است که در ذیل به معرفی و بررسی آنها می پردازیم.
جدولهاي آماري
نخستین گام در خلاصه کردن داده ها، طبقه بندی و تنظیم آنها در یک جدول موسوم به جدول آماری است. یک جدول آماری بایستی به نحوی تنظیم شود که بتوان از آن به راحتی اطلاعات نهفته در داده ها را استخراج کرد. متداولترین جدول آماری جدول فراوانی است که در آن داده ها، تعداد موجود از هر داده و درصد موجود از هر داده مشخص می شود.
پيش از آنكه نحوه تنظيم جدول فراواني را بيان نماييم،اطلاع از اصطلاحات زير ضروري است.
فراواني
هرگاه nداده y1, y2, k, yn ازk نوع x1, x2, k, xk ، با فرض ، به ترتيب با تعدادهاي
تشكيل شده باشند،آنگاه را فراواني ميگوييم. به عبارت ديگر تعداد دفعاتي را كه xi در دادههاي تكرار ميشود، فراواني ميناميم و آن را با نماد نمايش ميدهيم.
به خاطر داشته باشيد كه:
اگر اندازه نمونه برابر باشد، آنگاه براي
فراواني نسبي
مثال:
دادههاي زير ميزان تصادف منجر به مرگ رد 30 منطقه را نشان ميدهد. فراواني دادها را تعيين نماييد.
7 6 6 3 4 3 5 5 6 8
3 4 8 4 7 5 8 5 5 3
6 5 5 6 6 5 6 7 8 2
مشاهده ميشود كه دادههاي تكرار اعداد 2،3،4،5،6،7،8 ميباشند،بنابراين جدول زير را براي فراواني دادهها خواهيم داشت
نسبت فراواني به اندازه نمونه را فراواني نسبي ميناميم. اگر فراواني در يك نمونه با اندازه n، برابر fi باشد، آنگاه فراواني نسبي xi را با نماد ri نمايش خواهيم داد، به طوري كه:
به خاطر داشته باشيد كه
فراواني تجمعي
با توجه به تعريف فراواني، فراواني تجمعي رديف i را با نماد نمايش ميدهيم و به صورت زير تعريف ميكنيم:
به خاطر داشته باشيد كه
براي اندازه نمونه n و آنگاه:
فراواني نسبي تجمعي
با توجه به تعريف فراواني نسبي، فراواني نسبي تجمعي رديف i را با نماد Ri نماد نمايش ميدهيم و به صورت زير تعريف ميكنيم:
به خاطر داشته باشيد كه:
براي اندازه نمونه n و آنگاه:
مثال:
معدل 50 دانشجوي دانشگاه با تقريب تا يك رقم اعشار، به شرح زير است:
1/2 9/1 6/1 2/2 1/2 2/2 4/2 8/1 5/1 9/2
8/1 3/2 8/1 7/1 3/2 3/2 0/2 5/2 1/2 6/2
8/1 1/2 9/1 7/1 7/1 0/2 9/1 2/2 6/2 4/1
9/2 4/2 8/1 9/1 2/2 2/2 5/2 0/2 0/2 0/2
4/1 5/2 9/1 8/1 6/1 4/2 9/2 9/1 6/1 4/1
چون دادهها تا يك رقم اعشار گرد شدهاند، بنابراين ميتوان گفت كه اندازه واقعي معدل ها در فاصله است
نمودارهاي آماري
معمولا دادهها را با نمودارهاي مختلف نمايش ميدهند. عموما اين نمودارها در ارتباط با دادههاي پيو.سته به كار گرفته مي شود و منظور از نمايش آنها، تجسم عيني اطلاعات نهفته در دادهها است. در اين بخش به معرفي چند نمودار معروف اكتفا ميكنيم:
‗ هيستوگرام
‗ چندبر فراواني
‗ چندبر فراواني تجمعي
‗ منحنيهاي فراواني و فراواني تجمعي
‗ نمايش نمودار تنه و شاخه
‗ نمودار جعبهاي
هيستوگرام:
چندبر فراواني
چندبر فراواني تجمعي
از اتصال نقاطي كه طول آنها مرز كلاس و عرض آنها فراواني نسبي تجمعي تا آن مرز باشد، يك خط شكسته به دست ميآيد كه آن را چندبر فراواني تجمعي مينامند
منحنيهاي فراواني
نمايش نمودار تنه و شاخه
نمرات 80 دانشجو در امتحانات نهايي درس احتمال و آمار به شرح زير است:
93 76 88 62 90 68 82 75 84 68
75 85 59 71 93 60 73 88 79 73
72 63 78 95 62 74 87 75 65 61
60 68 74 69 77 94 75 82 78 66
71 83 79 60 95 75 61 89 78 99
75 71 65 76 85 78 97 67 62 79
74 50 76 62 78 88 57 73 80 65
77 85 75 76 63 72 81 73 67 86
پس از ساختن نمودار اوليه معمولا بهتر است مقادير هر شاخه را از كوچك به بزرگ، با تعداد دفعات تكرار،مرتب كرد، به صورت زير:
معيارهاي مركزي
ميانگين
با استفاده از جدول فراواني و رسم نمودارها ميتوانيم دادهها را به نحو مطلوبي تنظيم كرده و اطلاعات نهفته را تا حدودي مشخص كنيم. با اين حال براي ارايه يك گزارش مناسب،بهتر است آنها را در يك يا چند عدد مناسب نيز خلاصه كنيم. چنين عددي ميتواند معيار مركزي باشد. مهمترين معيارهاي مركزي ميانگين، ميانه و نما است كه در بخش این به شرح هر يك از آنها خواهيم پرداخت.
هرگاه n داده y1, y2, k, ynازk نوع ، با فرض ، به ترتيب با تعدادهاي تشكيل شده باشند، آنگاه را فراواني ميگوييم.
ميانگين حسابي
ميانگين وزني
كليه دادهها بزرگتر از صفر باشند ميانگين هندسي
ميانه
اگر دادهها را از كوچك به بزرگ مرتب نماييم،عدد m را ميانه اين دادهها ميناميم،اگر نصف دادهها در سمت چپ و نصف داده در سمت راست اين عدد قرار گيرد
محاسبه ميانه براي دادههاي گسسته
فرض كنيد y1, y2, k, yn دادههاي ما باشند و شكل مرتب شده آنها را با
نمايش دهيم آنگاه:
محاسبه ميانه براي دادههاي پيوسته
چندكها
چندك يك معيار كليتر از ميانه است و درعنوان حالت خاص ميانه را نيز در بر ميگيرد. اگر p يك عدد حقيقي بين صفر و يك باشد،آنگاه عدد را چندك مرتبه p ميناميم هر گاه p 100%
دادهها سمت چپ و (p -1) 100% دادهها سمت راست باشند.