توزیع نرمال چیست؟
بسیاری از داده های آماری بزرگ به گونه ای هستند که اگر برای انها یک جدول توزیع فراوانی تنظیم کنیم و هیستوگرام آن را رسم کنیم، این هیستوگرام تقریبا قرینه و یک نمایی است. منحنی که به این هیستوگرام برازش می شود نیز قرینه و زنگوله ای شکل است.
توزیع نرمال یا توزیع گاوسی یکی از معمولترین و مهمترین توزیعهای آماری است که به طور گسترده در همه جا به کار گرفته میشود. یکی از دلایلی که میتواند اهمیت وجود توزیع نرمال برای دادهها را نشان دهد، وجود پدیدهها و متغیرهای زیادی است که بخصوص در روانشناسی، فیزیک و … از توزیع نرمال پیروی میکنند. بسیاری از پدیده ها در دنیای واقعی، نظیر طول قد افراد، میزان هوش، وزن کودکان تازه متولد شده، مقدار نوشابه ریخته شده در داخل شیشه های نوشابه توسط یک دستگاه اتوماتیک، بیشترین تعداد تصادفات جاده ای در نزدیک شهرها، تعداد فروشگاه های با رتبه بالا، میزان خرید مشتریان دارای الگوی توزیع نرمال است.
یک توزیع قرینه رنگوله ای شکل، همانند توزیع نرمال را می توان به خوبی توسط دو شاخص میانگین و انحراف معیار توصیف کرد. با دانستن این دو کمیت می توان توزیع داده ها را کاملا مشخص کنیم.
قانون تجربی به ما می گوید در هر توزیع نرمال، موارد زیر برقرار است:
- تقریبا 68.2درصد از مشاهدات در فاصله یک انحراف معیار به طرف میانگین قرار می گیرد.
- تقریبا 95.4درصد از مشاهدات در فاصله دو انحراف معیار به طرف میانگین قرار می گیرد.
- تقریبا 99.7 درصد از مشاهدات در فاصله سه انحراف معیار به طرف میانگین قرار می گیرد.
نتیجه :
توجه داشته باشید که در یک توزیع نرمال، اگر مشاهده ای در محدوده یک انحراف معیار قرارد گرفته باشد بعنوان یک رویداد محتمل، و اگر بیش از دو انحراف معیار با میانگین فاصله داشته باشد به عنوان یک مشاهده غیرعادی تلقی می شود. مشاهده ای که بیش از سه انحراف معیار با میانگین فاصله داشته باشد را باید به عنوان یک مشاهده پرت تلقی کرد.
در لینک زیر می توانید ویدئوی آموزشی درباره نحوه پیاده سازی توزیع نرمال را براساس داده های فروش خود مشاهده کنید.