アンケートをしたとき,次のような表が得られますが,これを2×2分割表といいます。
男 | 女 | 合計 | |
はい | a=18 | b=10 | a+b=28 |
いいえ | c=12 | d=17 | c+d=29 |
合計 | a+c=30 | b+d=27 | a+b+c+d=57 |
データ入力の手間を考慮すれば,次のように変形することもできます。
男 | 女 | |
はい | r1=18 | r2=10 |
合計 | n1=30 | n2=27 |
ここでは,変形後のデータを入力して,「はい」と答えた比率が,男のほうが女よりも大きいといえるかどうかを統計的な手段で調べます。統計用語でいえば2標本の比率の差の片側検定です。
2×2分割表のときは,χ2は次のように計算できます。
ここでYatesの補正項の±は( )2の値が小さくなるように与えます。
なお,3以下の値があるときは個別に確率計算をするのが適切なのですが,ここではそれを無視しています。
2×2分割表のときは自由度は (2-1)(2-1)=1ですから,上の式で求めたχ2値を自由度1のχ2と比較します。
χ2≧6.63 有意水準1%でH0は棄却される。
χ2≧3.84 有意水準5%でH0は棄却される。
χ2<3.84 有意水準5%ではH0は棄却できない。
となります。
とおけば,Zが正規分布のαに相当するものです。
それで,
Z≧2.33 有意水準1%H0は棄却(p1>p2だといえる)される。
≧1.64 有意水準5%H0は棄却される。
<1.64 有意水準5%ではH0は棄却できない。(p1>p2だとはいい切れない)。
と結論できます。
なお,Zの分子の「0.5~」は,入力データが離散量(整数)なので,それを連続量にするための補正項です。
●注意:場合によっては,この3通りの結果に矛盾が生じることもあります。それは「どのような考えで検定したのか」による違いです。「どれでなければいけない」ということはないので,「そんなものかな」と理解しておけばよいのです。
n1=100,p1=80(0.80),n2=100,p2=63(0.63)のときは,99%の有意差があります。でも,n1=10,p1=8(0.80),n2=10,p2=6(0.60)のときは,有意差はありません。99%の有意差があるといえるのは,n2=10,p2=3(0.30)のときです。さらに,n2=5だと,p2=0(0.00)でやっと99%の有意差になります。
このように,データが大きければ,小さな比率の違いでも有意差がありますが,データが少ないときは,比率がかなり異なっていても有意差があるとはいえないのです。それは,データが少ないと,もし1つがyesからnoに変われば比率が大きく変化するということからも,常識的に理解できましょう。