平均、分散、標準偏差

キーワード

中央値、最頻値、平均、偏差平方和、分散、標準偏差、変動係数

参照：JavaScriptの計算プログラム

データの特徴を表すには、データの大きさとバラツキの程度を示すのが一般的です。そのための概念を列挙します。
　例えば、１０、２０、３０、４０、５０の５個（ｎ＝５）のデータがあるものとします。単位はｍ（メートル）です。

	記号と計算式	計算値と[単位]	意味
データ数	ｎ	５[個]
最小値		１０[ｍ]
最大値		５０[ｍ]
合計		１５０[ｍ]	= 10 + 20 + 30 + 40 + 50
平均		３０[ｍ]	データの大きさを示す尺度です。
中央値 (メディアン)	昇順にならべたときの中央の値	３０[m]	偶数個ののときは中央２個の平均（四分位数：小さい順に４等分したときの値）
最頻値 (モード)	最もデータ数の多い値「意味」参照	２０[m]	データが次のとき 10,20,20,20,30,30,40,50
偏差平方和		１０００[ｍ^２]	（ｘ_ｉ－ｘ）を偏差といいます。偏差の大きさを示すのに、偏差を単純に合計したのでは０になるし、絶対値での処理は面倒なので、偏差^２の合計で示すのです（＊注１）
分散		２５０[ｍ^２]	バラツキの尺度です。データ数が大ならば偏差平方和も大きくなるので、その平均をとることにより、データ数の影響をなくします。ところが、推計統計論では、個数（ｎ）ではなく、自由度（ｎ－１）を用います（その理由はここでの範囲を超えるので省略）。
標準偏差		√２５０＝１５.８[ｍ]	分散では単位がｍ^２になっているので、√分散とすることで、元のデータと同じ単位にします。
変動係数		０.５２７[－]	標準偏差÷平均値とすることにより、データの単位や大きさの影響をなくすことができます。これで、一般的なバラツキの尺度とすることができます。
平均偏差		６０／５＝１２[m]	平均との差の絶対値÷個数。

（＊１）偏差平方和の計算

　　　ｘ　　ｘ_ｉ－ｘ　(ｘ_ｉ－ｘ)^２
　　１０　　－２０　　　４００
　　２０　　－１０　　　１００
　　３０　　　　０　　　　　０
　　４０　　　１０　　　１００
　　５０　　　２０　　　４００
　　　　　　　　　　　１０００　←偏差平方和

なお、Σ(ｘ_ｉ－ｘ)^２は、次のように変形することができます。
　　　Σ(ｘ_ｉ－ｘ)^２　　　　　　　（↓　（ａ－ｂ）^２＝ａ^２－２ａｂ＋ｂ^２）
　　＝Σｘ_ｉ^２－２ｘΣｘ_ｉ＋ｘ^２Σ１　　（↓　Σｘ_ｉ＝ｎｘ）
　　＝Σｘ_ｉ^２－２ｎｘ^２＋ｎｘ^２
　　＝Σｘ_ｉ^２－ｎｘ^２
　　＝１０^２＋２０^２＋・・・＋５０^２－５×３０^２
　　＝１００＋４００＋・・・＋２５００－４５００＝１０００　（上表と一致）

Excelによる基本統計量の計算

Excelで、［データ］→［データ分析］→［基本統計量］を用います。

ｙ＝Ａｘ＋Ｂとしたとき

元のデータｘをｙ＝２ｘ＋６にしたとき、すなわち、２６、４６、６６、８６、１０６としたとき、上の諸元がどのように変わるかを考えます。

平均: 合計は、２６＋４６＋６６＋８６＋１０６＝２（１０＋２０＋３０＋４０＋５０）＋６×５になります。一般的には、Ａｎｘ＋Ｂｎになります。それで平均はＡｎｘ＋Ｂｎになり、この場合は２×３０＋５＝６５になります。
偏差平方和、分散: 偏差は、２６－６５＝－４０、３６－６５＝－２０、・・・、１０５－６５＝４０のように２倍になり、偏差平方和は、１６００＋４００＋・・・＋１６００＝４００００になります。すなわち偏差平方和は元のＡ^２倍になりＢには無関係です。分散もＡ^２倍になりＢには無関係です。
標準偏差: 標準偏差は√分散なので、Ａ倍になります。
変動係数: 標準偏差がＡｓになり、平均がＡｘ＋Ｂになるのですから、Ｂ＝０のときの変動係数は元のＣＶと同じ値になります。

データの個数がＭ倍になったとき

例えばＭが２で、１０、２０、３０、４０、５０、１０、２０、３０、４０、５０の１０個のデータの場合はどうなるかを考えます。

平均、偏差平方和: 平均は変化せず、偏差平方和がＭ倍になることは明らかです。
分散、標準偏差、変動係数: データの個数はＭｎ個ですから、その自由度はＭｎ－１になります。それで、この分散はＭｓ^２／(Ｍｎ－１）になります。すなわち、Ｍ(ｎ－１)／(Ｍｎ－１) 倍になります。
ここで、ｎが十分に大きいと、この式は１に近づきます。すなわち、ｎが十分に大きいときは、分散は元と変わらないことになります。
標準偏差と変動係数もｎが十分に大きいときは、元と同じになります。

Ｌ組のデータを加えたとき

例えば、１日目の出荷が５回あり、それぞれ１０，２０，３０，４０，５０個でした。２日目の出荷も同じでした。そのとき２日間の平均や標準偏差はどうなるかというように、Ｌ組の合計を考えます。

平均: 各日の平均をｘとすれば、Ｌ日間ではＬｘになります。
偏差平方和: ここで、偏差はすべてのデータＬｎ個の平均からの偏差ではなく、それそれの組のなかでの平均からの偏差です。それで、それで、全体の偏差平方和は各組の偏差平方和の合計となります。すなわち、Ｌ倍になります。分散の計算での自由度もｎ－１です。それで分散もＬ倍になります。
標準偏差: 分散がＬ倍になるのですから、標準偏差は√Ｌ倍になります。これは重要な事項です。
変動係数: 標準偏差が√Ｌ倍、平均がＬ倍になるので、変動係数は１／√Ｌ倍になります。

以上をまとめると、次表になります

	Ａｘ＋Ｂ	データ個数Ｍ倍	Ｌ組の合計
平均	Ａｘ＋Ｂ	元と同じ	Ｌ倍
偏差平方和	Ａ^２倍	Ｍ倍	Ｌ倍
分散	Ａ^２倍	元と同じ（注２）	Ｌ倍
標準偏差	Ａ倍	元と同じ（注２）	√Ｌ倍
変動係数	元と同じ（注３）	元と同じ（注２）	１／√Ｌ倍

注２：ｎが十分に大きいとき
注３：Ｂ＝０のとき

標本の平均と分散

母集団の平均や分散を知りたいとき、母集団すべてを調べることは不可能なので、いくつかの標本（サンプル）を取り出して、その平均や分散を測定して、それらから母集団の平均や分散を推定することになります。それで、母集団と標本での平均と分散の関係を知ることが必要になります。
　そのような理論を推測統計といいますが、ここでは、その最も基本的な「点推定」について、結果だけを示します。

平均μ、分散σ²の母集団からｎ個の標本を取り出したとき、標本の平均μ₀と平均の分散σ²₀は次の式で与えられます。

　　　　μ₀＝μ、　　　σ²₀＝σ²／ｎ

中央値（メディアン）と平均偏差

これらは、平均と標準偏差に対応するものですが、統計学的な意味づけよりも実務の観点を重視したものです。特に極端な異常値が存在する場合、その影響を少なくすることができます。

データが、１０、２０、３０、４０、２００のように極端な値がある場合、平均は６０になりますがこの５つのデータの代表値とするよりも中央の３０を代表値とするほうが適切なことがあります。同様に分散も極端な値があるとそれが２乗されるので、標準偏差も非常に大きくなってしまいます。
　むしろ、偏差を用いないで四分位数（昇順にならべたときの小さいほうから。１／４、２／４、３／４の点）を求めるほうが実際の分布をよく示すようなこともあります。