標本調査、母集団、標本、抽出、定性調査、定量調査、復元抽出法、非復元抽出法、有意抽出法、無作為抽出法、サンプルサイズ、サンプル数、標本誤差、非標本誤差、単純無作為抽出法、系統抽出法、集落抽出法、クラスタ抽出法、層別抽出法、層化抽出法、多段抽出法、区間推定、信頼区間、信頼度、最小サンプルサイズ、回答比率、許容標本誤差率、有効回答率、訪問面接調査、訪問留置調査、電話調査、郵送調査、ホームユーステスト、Web調査、会場調査、街頭調査、継続調査、テレビ視聴率、コーホート分析、統計法、e-Stat
成人男性の平均身長を知りたいとき、成人男性全体のことを母集団といいます。母集団全員について調査する方法を全数検査(悉皆調査)といいます。全数検査をすれば真の身長が得られますが、あまりにも費用や時間がかかります。
何らかの手段で、例えば母集団から100人を抽出して測定するのであれば、比較的低費用・短期間で、真の値ではありませんが、それに近い値が得られます。この抽出した100人のことを標本(サンプル)といい、標本で母集団を推測する方法を標本調査といいます。
標本調査は、多様な場面で行われています。
・国や地方自治体が、全国または地域の住民や産業の統計調査を行います。
・社会問題に関して、テレビ局や新聞社が世論調査を行います。
・新分野への進出、新製品の開発などに際して、消費者動向などの市場調査を行います。
・製造業では、製品の品質管理を行うために抜取検査を行います。
用語は異なりますが、標本を抽出して母集団を推測する標本調査だといえます。
なお、標本が人であり、質問に回答してもらう調査をアンケート調査ともいいます。
本章では、定量調査、復元抽出法、無作為抽出法に限定します。
これらの方法は、標本が母集団を代表する点では優れていますが、母集団が大きいときには番号付けすらできません。
母集団が大きいときは、次のような手段で抽出します。
適切な標本抽出をしたのであれば、母集団の分布と標本の分布は同じはずです。標本を調べて平均身長が170cmなら母集団の(真の)平均身長も170cmだといえましょう。
しかし、少数の標本での結果ですから誤差があります。正確には「170±10の間(信頼区間160~180)になることが、95%の信頼度でいえる」というような表現になります。
このような計算をすることを区間推定といいます。その方法は、正規分布と推定・検定を参照してください。
母集団が正規分布に従うとしましょう。結果だけを示すと、は
μ-Zσ≦X≦μ+Zσ 式1
・X:母集団の平均。これを計算で求める。
・μ(170):標本の平均。標本データから計算で求める
・σ(5):標本の標準偏差。標本データから計算で求める
・Z(1.96):信頼度。与件。正規分布表より95%信頼度なら1.96、99%信頼度なら2.58
となります。
式1から、X=μ±Zσ = 170±(1.96×5)=170±10 = (160~180)
で与えられます。これから、上述のような表現がえられます。
質問が支持率のように二択のとき、母集団は2項分布になります。
・n(100):サンプルサイズ。与件
・p(0.5):発生率(支持率)
とすると、「2項分布は、n×pが大きいときは、平均μ=np、標準偏差σ=√np(1-p)の正規分布で近似できる。」という法則があります。それで、
・μ=np=100×0.5=50:標本での発生数(支持数)
・σ=√np(1-p)=5
になります。
またXは母集団での発生数になるので、
・q:母集団での発生率 とすると、
・X=nq=100q になります。
この後は「項目が数量の場合」と同じです。式1に上の関係を代入すると、
nq=np±Z√np(1-p)=50±1.96×5
∴ q=p±Z√p(1-p)/n=0.5±1.96×0.05=0.5±0.048 式2
となります。
すなわち、「100個の標本で調べたところ、95%信頼性で母集団の支持率は0.5±0.048であることがわかった」ことになります。
標本数が少ないと精度や信頼度の良い結果が得られません。多数の標本にすると費用や時間がかかります。ここでは、精度や信頼度を指定したときに必要なサンプルサイズを得る数学的な方法お考えます。
平均身長を精度10cmで知りたい。85%信頼度としたとき、何人を標本として調べればよいか」というような問題です。
式1において、Xが与件になり、μとσがサンプルサイズnの関数であることから、nを求める式に変形することになりますが複雑です。χ2分布での分散による方法もありますがしれも面倒です。そのため、ここでは割愛します。
ここでは、質問は「現政権を支持するか?」で、回答は「支持」「不支持」の二者択一です。そして、調査者は「支持率は不明だがおそらくは50%程度だろう。精度は5%(標本の母集団からの差異が5%)でよく、それが95%の信頼度でいえる」には、サンプルサイズをいくつにすればよいかという問題にします。
次のように記号を付けます
・n:サンプルサイズ。求める値
・p(0.5):母集団の回答比率(支持率)。真の比率。正確には不明だが、おおよその値は既知として与件
・q:標本の回答比率。計算で得られるが実際には不要
・d=|q-p|(0.05):許容標本誤差率。与件
・Z(1.96):信頼レベル。与件。正規分布表より95%信頼度なら1.96、99%信頼度なら2.58
式2は、次の式になります。
d=|q-p|=Z√p(1-p)/n
∴ n=(Z/d)2p(1-p) 式3
上の値を代入すると n=(1.96/0.05)20.5×0.5=384
すなわち、有効回答数が384以上になるように標本を抽出すればよいことになります。
式2に与件の値を変えて、nの変化を調べましょう。直観とも一致しましょう。
特段の理由がないならば、許容標本誤差率5%、信頼度95%とするのが一般的です。回答比率を50%としたとき、必要な有効回答数は最大384になるのですから「通常のアンケート調査では有効回答数を400以上になるようにすればよい」といわれています。
母集団が比較的小さいとき
上の公式は、母集団が非常に大きいことを前提にしていました。母集団が比較的小さいとき、すなわち、母集団を全数調査するのは困難だが、無限大だというのも抵抗があるという場合を対象にします。数学的説明は省略しますが、母集団の大きさをNとしたとき、最小サンプルサイズnは次の式になります。
m=(Z/d)2p(1-p) (母集団が非常に大きいとしたときの最小サンプルサイズ)としたとき、
n=m/(1+m/N)
N→∞のとき、分母→1なので、n→m になります。
上のケースで、N=3000としてみましょう。m=384であることはわかっています。
n=384/(1+384/3000)=340 になります。
実際に調査をするには、
調査実施に要する費用や労力が小さい
調査項目に合致した母集団である
十分な有効回答が得られる(回答者の負担が少ない)
回答にバイアスが入りにくい(心理的影響が少ない)
などの検討をして、適切な手段を選択します。
種類 | 回答場所 | 回答時期 | 試供品 | 費用・労力 | 母集団一致 | 有効回収数 | バイアス | 注 |
---|---|---|---|---|---|---|---|---|
訪問面接調査 | 自宅 | 即答 | 多数の調査員 | 事前に確認 | 高い | 実施者に気兼ね | ||
訪問留置調査 | 自宅 | 後日回収 | 多数の調査員 | 事前に確認 | かなり高い | 比較的少ない | ||
電話調査 | 自宅 | 即答 | 訪問より安価 | 事前に確認 | 回答拒否もある | 実施者に気兼ね | ||
郵送調査 | 自宅 | 後日回収 | 訪問より安価 | 事前に確認 | 低い | 多様な回答者 | ||
ホームユーステスト | 自宅 | 後日回収 | 提供 | 試供品費用 | 事前に確認 | 郵送より高い | 実施者に気兼ね | |
Web調査 | 不定 | 注→ | 安価で実現 | 偶然が多い | わからない | 本心かどうか不明 | 回答する時間がある | |
会場調査 | 会場 | 即答 | 提供 | 規模による | 事前に確認 | 小規模になる | 周囲に影響される | 会場に集めて調査 |
街頭調査 | 街頭 | 即答 | 提供 | 規模による | 偶然が多い | 小規模になる | 本心か不明 |
定性調査は、「自由回答」のような調査です。一般的には、調査員が回答者(複数のことが多い)に面接して意見を聴くという調査方法になります。そのため、標本(回答者)の数は極めて小さいのですが、対話を通して、より深い回答を得ることができます。
これは、システム開発における要件分析での手法とほぼ同じです。
参照:要求の引き出しとまとめの方法、
レビューの方法
継続調査とは、定期的に同じ質問を繰り返して行う調査のことです。トラッキング調査や追跡調査とも呼ばれます。
テレビの視聴率調査など、調査の対象者を毎回同じにする調査(パネル調査)、新商品浸透度調査など、対象者を調査の度に選定する調査があります。