بخشی از مقاله
پروژه آمار -مجموعه تمام عناصری را که دارای یک یا چند ویژگی مشترک بوده
مقدمه
واژه statistics که به فارسی آن را آمار ترجمه کرده اند در اغلب زبان ما به دو معنی به کار میرود:
الف) به معنی ارقام و اعداد واقعی یا تقریبی دربارۀ اموری از قبیل زادومرگ، طلاق، میزان محصولات کشاورزی و صنعتی تصادفات رانندگی و غیره در این رابطه معمولاً دو اثری مثلاً به نام دفترهای آمار در سازمانهای دولتی موجود است.
ب) به معنی روش هایی برای جمع آوری ، تنظیم و تجزبه و تحلیل اطلاعات عددی دربارۀ موضوع.
با اینکه این دو مفهوم با هم ارتباط دارند ما در این فصل مطالبی را تحت عنوان تهیه و تنظیم داده ها که اغلب آمار توصیفی نامیده میشوند شرح میدهیم.
ضرورت استفاده روزافزون از روشهای آماری سبب شده تا دانشگاه ها، درس آمار و احتمالات را به عنوان درس اصلی رشتههای علوم پایه، مهندسی، علوم اداری، مدیریت، یازرگانی، اقتصاد، پزشکی و سایر رشته ها منظور نمایند دو دلیل عمده برای رشد سریع کاربرد آمار وجود دارد. نخست آنکه بکارگیری روشهای کمی در تمامی شاخههای علوم در حال گسترش است و دوم آنکه مقدار اطلاعاتی آماری جمع آوری شده و رای قوۀ ادراک است.
در این فصل آمار توصیفی را معرفی و واژه هایی مرتبط با این موضوع نظیر جمعیت، نمونه، متغیرها و داده ها را تعریف کرده و سپس مشخص کنندههای مرکزی شامل میانگین، میانه و نما را برای دادههای گسسته و پیوسته معرفی میکنیم. همچنین چندک ها را که میانه حالت خاصی از آن است مورد بررسی قرار میدهیم. آنگاه مشخص کنندههای پراکندگی شامل دامنه تغییرات، انحراف متوسط و انحراف معیار را برای دادههای گسسته و پیوسته ارائه خواهد شد. در پایان نمودارهای گوناگون آماری مورد بحث قرار خواهند گرفت.
جمعیت:
مجموعه تمام عناصری را که دارای یک یا چند ویژگی مشترک بوده و در یک زمان مشخص و یا موقعیت مناسب مورد مطالعه قرار میگیرد جمعیت گویند. مثلاً جمعیت دانشجویان رشتههای فنی و مهندسی که در دو سال گذشته فارغ التحصیل شده اند از نظر دانش علمی مثال دیگر اینکه جمعیت ماشینهای سمند که در دو سال گذشته به بازار آمده اند از نظر قدرت ترمز. جمعیت به دو نوع تقسیم میشود: جمعیت متناهی و نامتناهی تعداد عناصر جمعیت را اندازه ی جمعیت گویند و آن را با حرف N نشان میدهند.
نمونه:
بخشی از جمعیت را نمونه گویند و یا به میان دیگر نمونه زیر مجموعه ای از جمعیت است.
تعداد عناصر نمونه را اندازه (حجم) نمونه گویند و با حرف N نشان میدهند.
در بررسیهای آماری سعی میکنند در انتخاب نمونه دقت کافی انجام گیرد. تا با بررسی چنین نمونه مناسبی نتایج فاصله از آن را بتوان با دقت زیاد برای جمعیت تعمیم داد در هر صورت بایستی نمونه انتخاب شده یک الگوی مناسب از جمعیت باشد برای مثال اگر بخواهیم در مورد میزان درآمد افراد ساکن شهر گرگان مطالعه ای را انجام دهیم بایستی نمونهی ما به گونه ای انتخاب شود که شامل افراد با درآمد کم، متوسط و زیاد به نسبت موجود در جمعیت باشد.
مقیاس سازی:
عددی کردن متغیرها را مقیاس سازی گویند در حقیقت میخواهیم عدد حقیقی x را تحت قاعده خاص f به متغیر t نسبت دهیم یعنی x=f(x) برای آشکار شدن موضوع فرض کنید متغیر مورد نظر وزن باشد آنگاه عدد x را توسط تابع f به ویژگی وزن اختصاص میدهیم بر حسب اینکه قاعده ی f چگونه باشد چهار مقیاس گوناگون بدست میآید.
الف) مقیاس اسمی: هر گاه مقیاس x که معمولاً یک عدد طبیعی است، تنها برای شناسایی افراد یا چیزها یا مکان ها به کار رود، آن را یک مقیاس اسمی مینامند مثلاً کارگران یک کارخانه از شهرهای تهران، اصفهان، شیراز و گرگان باشد به ترتیب آن ها را با اعداد 1و2و3و4 مشخص کنیم این اعداد صرفاً میگویند که هر کدام از کدام شهر است مانند کارگری که برچسب 4 دارد از گرگان است.
ب) مقیاس ترتیبی: از x =f(t) یک مقیاس ترتیبی بدست میآید اگر شدت و ضعف متغیر t در x منعکس شود به این معنی که اعداد خاصیت بزرگتر یا کوچکتر را به مفهوم بهتر یا بهتر دارا میباشند ولی فاقد خاصیت نسبت هستند به عنوان مثال اگر مهندس یک کارخانه کارگران را از نظر مهارت با اعداد 1 و2و3و4 مشخص کند، کارگر شماره 4 از کارگر شماره 2 ماهرتر است ولی نمی توان گفت که 2 برابر او مهارت دارد.
مقیاسهای اسمی و ترتیبی عمدتاً برای متغیرهای کیفی استفاده میشوند.
ج) مقیاس فاصله ای: از x=f(t) یک مقیاس فاصله ای بدست میآید اگر این تابع به صورت خطی x=a+bt باشد که در عرض از مبدأ مخالف صفر باشد. (a=0) این مقیاس دارای 3 ویژگی است.
الف: صفر به معنی هیچ نیست
ب: نسبت حفظ نمی شود
ج: نسبت فاصله ها حفظ میشود.
د) مقیاس نسبی:
هر گاه مقیاس x، که یک عدد حقیقی است نسبت را حفظ کند، آن را یک مقیاس نسبی گویند این مقیاس عالی ترین نوع مقیاس است که عموم با آن آشنایی دارند و در آن صفر به معنی هیچ و نسبت حفظ میشود و نسبت فاصله ها نیز حفظ میشود.
قابل ذکر است که مقیاسهای فاصله ای و نسبتی برای متغیرهای کمی مورد استفاده قرار میگیرند.
متغیرها:
ویژگی t، مثلاً گروه خونی،مهارت، هوش و وزن در افراد مختلف جمعیت یکسان نیست و معمولاً از فردی به فرد دیگر تغییر کرده، کاهش یا افزایش مییابد از اینرو t را یک متغیر مینامیم دو نوع متغیر داریم.
الف) متغیر گروهی: مانند گروه خونی و مهارت که با مقیاس اسمی یا ترتیبی سنجیده میشود و براساس آن جمعیت را گروه بندی میکنند.
ب) متغیر عددی: مانند شماره فرزندان یک خانواده که از راه شمارش به دست میآید، با هوش یک پسر 12 ساله و وزن یک جوان 23 ساله که از راه اندازه گیری با مقیاس فاصله ای و نسبتی بدست میآیند.
داده ها:
اطلاعات عددی ارائه شده را داده ها مینامند داده ها دو نوع اند:
الف) دادههای گسسته:
از راه اندازه گیری با مقیاسهای اسمی، ترتیبی یا شمارش بدست میآیند دادههای گسسته را دادههای جدا از هم مینامند.
ب) دادههای پیوسته:
از راه اندازه گیری با مقیاسهای فاصله ای یا نسبتی بدست میآیند.
داده ها اغلب به صورت انبوهی از اعداد ارائه میشوند و به خوبی خود خام هستند.
مثال برای دادههای گسسته: فرض کنید میخواهیم در مورد تعداد افراد خانوار تحقیق کنیم میدانیم این داده ها توسط اعداد 1 و2 و 3 و... بالاخره حداکثر مثلاً 15 یا 20 بیان میشود یعنی مجموعه مقادیر ممکنه متناهی میباشد.
مثال برای دادههای پیوسته : اگر بخواهیم وزن دانشجویان یک کلاس را برحسب کیلوگرم بررسی کنیم ممکن است هر مقدار بین دو عدد 40 تا 90 کیلوگرم بدست آید میدانیم که این مقادیر نامتناهی است.
جدولهای آماری:
نخستین گام در خلاصه کردن داده ها، طبقه بندی و تنظیم آن ها در یک جدول مرسوم به جدول آماری است. متداولترین جدول آماری جدول فراوانی است که در آن داده ها تعداد موجود از هر داده و درصد موجود از هر داده و درصد موجود از هر داده مشخص میشود بنابراین یک جدول فراوانی شامل موارد زیر است.
الف) فراوانی نسبی: خارج قسمت فراوانی هر طبقه بر کل فراوانی را گویند مثلاً فراوانی نسبی طبقه دوم و آن را با نماد ri نشان میدهیم.
ب) فراوانی تجمعی: عبارتست از مجموع فراونیهای آن طبقه با طبقات بالاتر و آن را با نماد F نشان میدهیم.
ج) فراوانی تجمعی نسبی: عبارتست از مجموع فراوانیهای نسبی آن رده باردهای قبل از آ« و با R نشان میدهیم
د) نماینده هر طبقه: عبارتست از میانگین کران بالا و کران پایین آن طبقه
(کران بالا ui + کران پایین li) 2/1= xi
مثال 1: برای دادههای گسسته:
تعداد لامپ ها یی که در 50 خانواده در عرض یک ماه مصرف میشود عبارتند از:
7،5،3،3،4،5،3،2،8،3،3،2،4،4،3،6،8،6،7،4،5،4،6،4،5،2،3،4،2،7،3،5،4،6،2،2،3،4،5،4،8،4،3،2،2،6،4،5،7،8
یک جدول فراوانی برای این داده ها تشکیل دهید چند درصد خانواده ها بیش از 4 لامپ در ماه مصرف میکنند؟
حل: داده ها از طریق شمارش تعداد لامپهای مصرف شده بوسیله اعداد 2 و 3و ... و8 به دست آمده اند و روی آنها میتوان چهار عمل اصلی حساب را انجام داد با توجه به عدد 60/0 در ستون فراوانی تجمعی نسبی 60% از خانواده ها حداکثر 4 لامپ در ماه مصرف میکنند و بنابراین 40% از خانواده ها بیش از 4 لامپ در ماه مصرف میکنند.
جدول فراوانی لامپهای مصرف شده 50 خانواده در یک ماه در صفحه بعد آورده شده است.
فراوانی نسبی تجمعی
فراوانی تجمعی
فراوانی نسبی
فراوانی
xi
16/0 8 16/0 8 2
36/0 18 20/0 10 3
60/0 30 24/0 12 4
74/0 37 14/0 7 5
84/0 42 10/0 5 6
92/0 46 8% 4 7
00/1 50 8% 4 8
00/1 50 جمع
تشکیل جدول آماری برای داده ها پیوسته: مراحل تشکیل جدول به شرح زیر است:
1) مشخص نمودن تعداد رده ها:
اگر n تعداد داده ها و k تعداد رده ها فرض میشود از رابطه 2k=n میتوان مقدار تقریبی k را معین نمود، بدیهی است اگر k یک عدد غیرصحیح باشد عدد صحیح بعد از آن را به عنوان تعداد رده انتخاب میکنند.
2) مشخص نمودن طول رده:
برای مشخص نمودن طول رده ابتدا مقدار R را از رابطه زیر محاسبه میکنیم:
1+ (کوچکترین داده – بزرگترین داده) = R
سپس از رابطه طول رده را محاسبه میکنیم تعداد ارقام اعشاری طول رده باید با تعداد ارقام اعشاری داده ها یکی باشد در غیر اینصورت طول رده را به عدد بزرگتر
گرد میکنیم (گرد کردن به سمت بیشتر است مثلاً 36/3 بود به 4/3 گرد میکنیم.)
3) تشکیل رده ها:
کران بالا رده کران پایین رده
U1 = L1+c 5/0- کوچکترین داده = L1
U2 = L2+c L2 = u1
. .
. .
. .
Uk = Lk+c Lk = uk-1
4) تشکیل جدول: در ستون اول جدول رده ها را قرا میدهیم، در ستون دوم جدول نماینده رده ها را با استفاده از رابطۀ محاسبه کرده و قرار میدهیم. در ستون سوم جدول با شمارش مشاهدات مربوط به هر رده فراوانی رده ها را مشخص میکنیم و در آخر ستونهای بعدی جدول با استفاده از ستون سوم تکمیل میکنیم.
مثال2 مربوط به دادههای پیوسته:
جدول توزیع فراوانی زیر مربوط به وزن 100 دانش آموز بر حسب کیلوگرم میباشد جدول توزیع فراوانی آن را رسم کنید.
fi حدود واقعی
2 95/42 – 95/39
4 95/45 - 95/42
26 95/48 – 95/45
47 95/51 – 95/48
15 95/54 – 95/51
6 95/57 – 95/54
100
حل: از جدول زیر به سادگی میتوان نتیجه گرفت که مثلاً وزن 47% از افراد در فاصله {95/51 – 95/48} میباشد و یا وزن 79 نفره کم تر از 95/51 کیلوگرم میباشد.
Fi Fcp R pi Fpi=ri fi xi حدود طبقات حدود واقعی
2 2% 2 2 2% 2 45/41 9/42-40 95/42-95/39
6 6% 6 4 4% 4 45/44 9/45-44 95/45-95/42
32 32/0 32 26 26/0 26 45/47 9/48-46 95/48-95/45
79 79/0 79 47 47/0 47 45/50 9/51-49 95/51-95/48
94 94/0 94 15 15/0 15 45/53 9/54-52 95/54-95/51
1 1 100 6 6% 6 45/56 9/57-55 95/57-95/54
100 1 100
مثال 3 برای دادههای پیوسته: یک نمونه 50 تایی به شرح زیر انتخاب کرده ایم جدول آماری برای این داده ها بیابید.
80 75 100 95 125 85 70 85 90 105
70 75 115 100 75 115 120 75 95 90
80 85 95 105 85 95 75 70 85 75
115 90 95 115 75 70 115 75 80 70
90 70 80 115 95 75 85 80 85 95
حل: 1 مشخص کردن تعداد رده
پس 6 رده داریم 6 = k 6>k>5 = 50 = k2
2 مشخص کردن طول رده
10=c = گرد میکنیم 33/9 = = = c 56= 1+(70-125)=R
3 تشکیل رده ها
5/79 = 10+5/69 = u1 5/69 = 5/0 – 70 = L1
5/89 = u2 5/79= L2
5/99= u3 5/89 = L3
5/109 =u4 5/99 = L4
5/119 =u5 5/109 = L5
5/129 = u6 5/119 = L6
4 تشکیل جدول
Ri Fi ri fi xi رده ها
30/0 15 30/0 15 5/74 5/79-5/69
54/0 27 24/0 12 5/84 5/89-5/79
76/0 38 22/0 11 5/94 5/99-5/89
84/0 42 8% 4 5/104 5/109-5/99
96/0 48 12/0 6 5/114 5/119-5/109
1 50 4% 2 5/124 5/129-5/119
50 = n
هسیتوگرام (نمودار ستونی):
هیستوگرام نموداری متشکل از تعدادی مستطیل است که تعداد این مستطیل ها برابر تعداد ردههای جدول فراوانی است قاعده هر مستطیل روی محور افقی قرار دارد و طول آن برابر طول واقعی رده است که هر چه باشد آن را یک واحد در نظر میگیریم و مرکز آن نماینده رده است ارتفاع هر مستطیل برابر فراوانی نسبی مربوط به آن رده است.
به عنوان مثال هیستوگرام مربوط به مثال 3 را رسم مینمائیم.
محاسبه نما برای دادههای پیوسته:
در این حالت داده ها را در یک جدول فراوانی مرتب میکنیم و رده ای که فراوانی آن از سایر رده ها بیشتر است به عنوان ردۀ نمایی اختیار میکنیم حال میتوان نمایندۀ این رده یعنی xi را به عنوان نما اختیار کرد و یا اگر بخواهیم نما را به طور دقیق تر در این رده محاسبه کنیم از فرمول زیر استفاده میکنیم.
به عنوان نمونه در مثال 3 نما را حساب میکنیم.
نمودارهای آماری:
نمایش داده ها را طبق قراردادهای خاص به صورت هندسی، یک نمودار آماری میگویند.
هر نمودار آماری باید دارای شماره، عنوان و در صورت لزوم زیرنویس و مأخذ باشد مقیاسهای اندازه گیری روی محورهای افقی و عمودی باید مشخص باشند نمودارهای آماری در امور اقتصادی، صنعتی بهداشتی و غیره به کار میروند. و بر حسب رشته مربوط آنها را به طریق مختلف ترسیم میکنند در اینجا فقط چند نوع نمودار که در آمار مورد نیاز میباشند شرح میدهیم.
نمودارهای آماری برای دادههای گسسته:
برای دادههای گسسته دو نوع نمودار میله ای و دایره ای را در زیر معرفی میکنیم.
الف) نمودار میله ای:
در این نمودار دو محور عمود بر هم در نظر میگیریم و بر روی محور افقی مقادیر xi ها و بر روی محور عمودی مقادیر فراوانی نسبی riما را نمایش میدهیم. سپس در هر مقدار xi میله ای به ارتفاع فراوانی نسبی ri مربوط به آن طبقه را رسم میکنیم برای مثال جدول مربوط به دادههای گسسته که در مثال 1 هست را رسم میکنیم.
ب) نمودار دایره ای:
در این نمودار دایره ای را رسم کرده و این دایره را به تعداد طبقات جدول فراوانی به قطاع هایی تقسیم میکنیم به طوری که اندازه هر قطاع متناسب با فراوانی نسبی طبقۀ مربوطه باشد.