Web教材一覧統計・確率

t分布と推定・検定

キーワード

t分布、平均の区間推定、平均の検定、平均の差の検定

参照:JavaScriptの計算プログラム


t分布とは、平均に関する統計分布です。標本の平均と標準偏差から、母集団の平均を推定したり、2つのグループの間で平均に差があるかを検定したりするときに用いられます。
 代表的なt検定には、2つのグループの分散が等しいかどうか(F検定)により次の2つがあります。
 ・分散が等しいとき:スチューデント(Sstudent)のt検定、単にt検定というときこれを指す。
 ・分散が等しくないとき:ウェルチ(Welch)のt検定

平均μ、標準偏差σの正規分布になっている母集団から取り出したn個の標本の平均をμ0、標準偏差をsとすると、
      μ0-μ
   t=─────
     s/√
は、自由度n-1のt分布に従う。

(Excel関数:TDIST(数値,自由度、片側・両側指定)、逆関数 TINV(確率,自由度)
t分布の数表計算プログラム

平均の区間推定
● 例題t・1
成人男性10人を無作為に選び身長を測定したところ、次の結果を得た。
  170, 175, 165, 180, 175, 155, 165, 170, 160, 185 [cm]
成人男性全体の平均μの95%信頼区間を求めよ。
● 解答
95%信頼とは、図の黄色の部分が95%ということですから、片側の無色の部分は2.5%になります。
t分布表から、自由度n-1=9、2.5%のtの値を求めるとt=2.262になります。
また、標本の個数n=10、標準偏差s=9cmから、
   s/√=9/10=2.846
になります。
従って、この信頼区間は、
   μ0±(t×s/√
   =170±(2.262×2.846)=170±6.4
   =163.6~176.4[cm]
となります。
● 補足
[有意水準と信頼区間の関係]
99%信頼区間は、黄色の部分が大になるので、A点はもっと右になり、信頼区間は広くなります。
自由度9、0.5%のtは3.250ですので、t×s/√=9.3になります。
信頼区間は、160.8~179.3
[標本数と信頼区間の関係]
標本数が母集団の数と一致すれば、μ=μ0になります。それからもわかるように、標本数が大ならば、信頼区間は狭くなります。たとえば標本数が100ならば、その標準偏差sが上と同じ9cmであっても、
   s/√=0.9、 t(2.5%、自由度99)=1.61
  ∴t×s/√=1.61×0.9=1.44
信頼区間は、168.56~171.44になります。
平均の検定
● 例題t・2
ある全国規模の試験では、平均点がμ=50点であったことが公表されている。ある学校で無作為に選んだ16人について調査したとろ、平均点はμ0=55点、標準偏差はs=10点であった。この学校の成績は、全国と比較して高いといるかどうか。有意水準5%で検定せよ。
● 解答
  帰無仮説 H0:μ0=50
  対立仮説 H1:μ0>50
大きいかどうかなのだから、片側確率5%で考えます(全国と比べて差があるかならば2.5%を用いる)。
t分布表から、自由度15、有意水準p=0.5%のtの値はtp=1.753です。
標本からの計算によるtの値は、
      μ0-μ    55-50
   t=───── = ─────── = 2
     s/√    10/√16
計算値は図のAの位置になり、棄却域に入るので、H0:μ0=50よりもH1:μ0>50のほうが確からしいといえます。すなわち、この学校の成績は全国平均よりも高いことが有意水準5%でいえることになります。
平均の差の検定
● 例題t・3
AとBの農場で収穫した作物の重さを測定した結果は次の通りであった。
  A 38.6 40.4 30.8 42.2 34.2 36.8 38.4 31.8 39.4 37.4
  B 29.0 30.6 32.8 32.2 37.2 32.8
AはBよりも重いといえるかどうか。有意水準5%で検定せよ。
● 解答
例題t・1とt・2では、比較の一方が非常に個数の大きな母集団でした。本問では双方が標本です。このような場合でもt検定が用いられます。
A、Bそれぞれの標本数n、自由度φ、平均μ、標準偏差sに添字aとbをつけると、2つを合わせた標準偏差sおよびtは次の式で求められます(理由は省略)。

そして、
  帰無仮説 H0:μa=μb
  対立仮説 H1:μa>μb
となります。
片側5%、自由度14(=φa+φa)のt値は1.76になります。
一方、上の式に、
 A na=10, φa=9, μa=37.0, sa=3.69
 B nb= 6, φa=5, μb=32.4, sb=2.76

を代入すると、s=3.39、t=2.63となります。
計算による値のほうが大きいので、有意差があるといえます。

(注意)3群以上ではt検定は使えない

A、B、Cの群について、A-B間、B-C間、C-A間の3回のt検定を行ったとき、
  すべての組み合わせで差が出ない確率
  = (A-B間で差が出ない確率) * (B-C間で差が出ない確率) * (C-A間で差が出ない確率)
となります。
 有意差水準を0.05とすると、この3つの確率は0.95となり、全体では0.857になります。
   少なくともひとつの組み合わせに差が出る確率
   =1-すべての組み合わせで差が出ない確率
なので、0.143となります。

この0.143は有意差水準0.05よりかなり大きな値です。
 このように、t検定を繰り返すと、本当は有意差がないのに差があるとしてしまう確率が高くなってしまうのです。これを検定の多重性による第一種の過誤といいます。
 そのため、3群以上の平均の差の検定にはt検定は使えません。分散分析など他の方法を用います。


「確率・統計」の目次