Web教材一覧確率・統計

標本調査

キーワード

標本調査、母集団、標本、抽出、定性調査、定量調査、復元抽出法、非復元抽出法、有意抽出法、無作為抽出法、サンプルサイズ、サンプル数、標本誤差、非標本誤差、単純無作為抽出法、系統抽出法、集落抽出法、クラスタ抽出法、層別抽出法、層化抽出法、多段抽出法、区間推定、信頼区間、信頼度、最小サンプルサイズ、回答比率、許容標本誤差率、有効回答率、訪問面接調査、訪問留置調査、電話調査、郵送調査、ホームユーステスト、Web調査、会場調査、街頭調査、継続調査、テレビ視聴率、コーホート分析、統計法、e-Stat


標本調査とは

成人男性の平均身長を知りたいとき、成人男性全体のことを母集団といいます。母集団全員について調査する方法を全数検査(悉皆調査)といいます。全数検査をすれば真の身長が得られますが、あまりにも費用や時間がかかります。
 何らかの手段で、例えば母集団から100人を抽出して測定するのであれば、比較的低費用・短期間で、真の値ではありませんが、それに近い値が得られます。この抽出した100人のことを標本(サンプル)といい、標本で母集団を推測する方法を標本調査といいます。

標本調査は、多様な場面で行われています。
 ・国や地方自治体が、全国または地域の住民や産業の統計調査を行います。
 ・社会問題に関して、テレビ局や新聞社が世論調査を行います。
 ・新分野への進出、新製品の開発などに際して、消費者動向などの市場調査を行います。
 ・製造業では、製品の品質管理を行うために抜取検査を行います。
用語は異なりますが、標本を抽出して母集団を推測する標本調査だといえます。
なお、標本が人であり、質問に回答してもらう調査をアンケート調査ともいいます。


標本調査の用語

標本調査の種類

定性調査と定量調査
定性調査とは、質問に対して自由な回答を求める調査です。「現政権について、どう思いますか?」のような質問です。本章では対象にしません。
定量調査は、回答の型により、二つに分かれます。
  • 数量:身長の調査など。値に大小関係がある。
  • 区分:賛成/反対など。分類・区分であり値の間に大小関係などはない。
復元抽出法と非復元抽出法
復元抽出法とは、抽出を行う際に、一度抽出したサンプルが再び抽出の対象となりうる方法のこと。抽出が複数で行われるとき(サンプル数≧2のとき)、同じ標本が重複して抽出される可能性があります。重複があると、その標本が他標本より大きな影響を与えるので、一般的には避けるほうが適切です。
有意抽出法と無作為抽出法
有意抽出法とは、調査の企画者がなんらかの基準で標本を抽出する方法です。「専門家〇人に聞きました」などがこれにあたります。しかし、これでは企画者の主観により標本が異なるので、その標本の回答を統計的処理した結果には客観的な信頼性がありません。
それで、通常は乱数などを用いて主観を排除した方法で標本抽出をします。それを無作為抽出法といいます。

本章では、定量調査、復元抽出法、無作為抽出法に限定します。

サンプルサイズとサンプル数
「標本として100人を抽出した」とき、この100をサンプルサイズといいます。「抽出を3回で行った」とき、この3(集団の数)をサンプル数といいます。すなわち、サンプル数は抽出方法関係し、サンプルサイズは平均身長などの計算に関係します。
標本誤差と非標本誤差
標本調査で得た値は、母集団を全数調査した値(真の値)とは一致しません。その差異を誤差といいます。
標本誤差とは、標本による値と母集団の値(真の値)の間の差異のことです。
非標本誤差とは標本誤差以外の誤差で、次のようなものです。これらは調査の設計時に考慮すべき事項です。
  • 標本が少ない。ある政策について3人に聞いたら3人が賛成だった。この政策は世論に受け入れられている。
  • 標本が母集団を代表していない。成人男性の身長を調査するのに、バスケット選手だけを抽出した。
  • 無回答あるいは無効回答があった。

標本抽出法の種類

単純無作為抽出法
母集団全体に通し番号をつけ、乱数など無作為手段で指定した間隔で次の標本を抽出することを繰り返して行う方法です。
系統抽出法
単純無作為抽出法と似ていますが、一回目は乱数などで抽出しますが、その後は一定間隔で抽出します。

これらの方法は、標本が母集団を代表する点では優れていますが、母集団が大きいときには番号付けすらできません。
 母集団が大きいときは、次のような手段で抽出します。

集落抽出法(クラスタ抽出法)
母集団をいくつかのグループ(市区町村など)に分け、無作為に市区町村を抽出し、それに含まれる母集団全体を標本にする方法です。クラスタ(地域)間の特性の違いがないときは、抽出結果による違いが少ないし、大都市からは多数、過疎地からは少数の標本になるので、全体の母集団との差異を小さくできます。
層別抽出法(層化抽出法)
「身長は年齢により異なるが、同じ年齢ではばらつきが少ない」としましょう。こととき、全体の母集団を年齢別にわけ、各年齢の母集団から無作為に標本を抽出する方法です。
すなわち、集落抽出法はグループを抽出するのに対して、層別抽出法はグループの内部から抽出するのが違いです。
なお、層別抽出法では、各年齢の構成比に応じて標本を抽出するのが普通ですが、ばらつきの多い層からは多数、ばらつきの少ない層からは少数を抽出し、数学的加工を施して調整することにより、全体のサンプルサイズを小さくすることもできます。
多段抽出法
最初に県レベルで県を抽出、次にその県内の市区町村を抽出、さらに市内の町を抽出というように集落抽出法を段階的に行う方法や、最初は集落抽出法で地域を抽出、次は各地域内を単純無作為抽出法で抽出というようにいくつかの抽出法を組み合わせることもあります。

区間推定

項目が数量の場合

適切な標本抽出をしたのであれば、母集団の分布と標本の分布は同じはずです。標本を調べて平均身長が170cmなら母集団の(真の)平均身長も170cmだといえましょう。
 しかし、少数の標本での結果ですから誤差があります。正確には「170±10の間(信頼区間160~180)になることが、95%の信頼度でいえる」というような表現になります。

このような計算をすることを区間推定といいます。その方法は、正規分布と推定・検定を参照してください。

母集団が正規分布に従うとしましょう。結果だけを示すと、は
      μ-Zσ≦X≦μ+Zσ   式1
  ・X:母集団の平均。これを計算で求める。
  ・μ(170):標本の平均。標本データから計算で求める
  ・σ(5):標本の標準偏差。標本データから計算で求める
  ・Z(1.96):信頼度。与件。正規分布表より95%信頼度なら1.96、99%信頼度なら2.58
となります。

式1から、X=μ±Zσ = 170±(1.96×5)=170±10 = (160~180)
で与えられます。これから、上述のような表現がえられます。

項目が比率の場合

質問が支持率のように二択のとき、母集団は2項分布になります。
  ・n(100):サンプルサイズ。与件
  ・p(0.5):発生率(支持率)
とすると、「2項分布は、n×pが大きいときは、平均μ=np、標準偏差σ=√np(1-p)の正規分布で近似できる。」という法則があります。それで、
  ・μ=np=100×0.5=50:標本での発生数(支持数)
  ・σ=√np(1-p)=5
になります。
 またXは母集団での発生数になるので、
  ・q:母集団での発生率 とすると、
  ・X=nq=100q になります。

この後は「項目が数量の場合」と同じです。式1に上の関係を代入すると、
    nq=np±Z√np(1-p)=50±1.96×5
  ∴ q=p±Z√p(1-p)/n=0.5±1.96×0.05=0.5±0.048  式2
となります。
 すなわち、「100個の標本で調べたところ、95%信頼性で母集団の支持率は0.5±0.048であることがわかった」ことになります。


最小サンプルサイズ

標本数が少ないと精度や信頼度の良い結果が得られません。多数の標本にすると費用や時間がかかります。ここでは、精度や信頼度を指定したときに必要なサンプルサイズを得る数学的な方法お考えます。

項目が数量の場合

平均身長を精度10cmで知りたい。85%信頼度としたとき、何人を標本として調べればよいか」というような問題です。
 式1において、Xが与件になり、μとσがサンプルサイズnの関数であることから、nを求める式に変形することになりますが複雑です。χ2分布での分散による方法もありますがしれも面倒です。そのため、ここでは割愛します。

項目が比率の場合

ここでは、質問は「現政権を支持するか?」で、回答は「支持」「不支持」の二者択一です。そして、調査者は「支持率は不明だがおそらくは50%程度だろう。精度は5%(標本の母集団からの差異が5%)でよく、それが95%の信頼度でいえる」には、サンプルサイズをいくつにすればよいかという問題にします。

次のように記号を付けます
  ・n:サンプルサイズ。求める値
  ・p(0.5):母集団の回答比率(支持率)。真の比率。正確には不明だが、おおよその値は既知として与件
  ・q:標本の回答比率。計算で得られるが実際には不要
  ・d=|q-p|(0.05):許容標本誤差率。与件
  ・Z(1.96):信頼レベル。与件。正規分布表より95%信頼度なら1.96、99%信頼度なら2.58
 式2は、次の式になります。
    d=|q-p|=Z√p(1-p)/n
  ∴ n=(Z/d)p(1-p)   式3
 上の値を代入すると n=(1.96/0.05)0.5×0.5=384
 すなわち、有効回答数が384以上になるように標本を抽出すればよいことになります。

式2に与件の値を変えて、nの変化を調べましょう。直観とも一致しましょう。

特段の理由がないならば、許容標本誤差率5%、信頼度95%とするのが一般的です。回答比率を50%としたとき、必要な有効回答数は最大384になるのですから「通常のアンケート調査では有効回答数を400以上になるようにすればよい」といわれています。

母集団が比較的小さいとき
 上の公式は、母集団が非常に大きいことを前提にしていました。母集団が比較的小さいとき、すなわち、母集団を全数調査するのは困難だが、無限大だというのも抵抗があるという場合を対象にします。数学的説明は省略しますが、母集団の大きさをNとしたとき、最小サンプルサイズnは次の式になります。

m=(Z/d)2p(1-p) (母集団が非常に大きいとしたときの最小サンプルサイズ)としたとき、
   n=m/(1+m/N)
 N→∞のとき、分母→1なので、n→m になります。

上のケースで、N=3000としてみましょう。m=384であることはわかっています。
  n=384/(1+384/3000)=340 になります。


調査の方法

調査での留意事項

調査手段の種類

実際に調査をするには、
  調査実施に要する費用や労力が小さい
  調査項目に合致した母集団である
  十分な有効回答が得られる(回答者の負担が少ない)
  回答にバイアスが入りにくい(心理的影響が少ない)
などの検討をして、適切な手段を選択します。

種類回答場所回答時期試供品 費用・労力母集団一致有効回収数バイアス
訪問面接調査自宅即答 多数の調査員事前に確認高い実施者に気兼ね
訪問留置調査自宅後日回収 多数の調査員事前に確認かなり高い比較的少ない
電話調査自宅即答 訪問より安価事前に確認回答拒否もある実施者に気兼ね
郵送調査自宅後日回収 訪問より安価事前に確認低い多様な回答者
ホームユーステスト自宅後日回収提供 試供品費用事前に確認郵送より高い実施者に気兼ね
Web調査不定注→ 安価で実現偶然が多いわからない本心かどうか不明回答する時間がある
会場調査会場即答提供 規模による事前に確認小規模になる周囲に影響される会場に集めて調査
街頭調査街頭即答提供 規模による偶然が多い小規模になる本心か不明

定性調査の主な調査手法

定性調査は、「自由回答」のような調査です。一般的には、調査員が回答者(複数のことが多い)に面接して意見を聴くという調査方法になります。そのため、標本(回答者)の数は極めて小さいのですが、対話を通して、より深い回答を得ることができます。
 これは、システム開発における要件分析での手法とほぼ同じです。
参照:要求の引き出しとまとめの方法レビューの方法

継続調査

継続調査とは、定期的に同じ質問を繰り返して行う調査のことです。トラッキング調査や追跡調査とも呼ばれます。
テレビの視聴率調査など、調査の対象者を毎回同じにする調査(パネル調査)、新商品浸透度調査など、対象者を調査の度に選定する調査があります。

テレビ視聴率
視聴率測定方法;調査会社はモニタ契約した視聴者から次のような手段で視聴情報を収集します。ほぼ7日以内に集計できるそうです。
  • ピープルメータ(PM)
    個人視聴率調査用測定機で、家庭内の最大8台のテレビを対象に、特殊のリモコンボタンにより視聴者個人を特定します。
  • オンラインメータ
    世帯視聴率調査用測定機で、テレビがオンになると自動的に記録します。毎日、インターネットを通して自動的に調査会社に送られます。
  • 調査票回収
    対象者は個人単位で視聴時間とチャネルを毎日記入し調査員が回収します。
モニタ数は、「400の法則」と比較すると多く、ビデオリサーチでは、関東地区ではPMを従来は900世帯に設置していましたが、2020年に2700世帯に拡張しました。
コーホート分析(Cohort Analysis)
Cohortは「ローマ時代の軍団→集団」という意味。国民性調査のような長期的な継続調査を対象にしたもので、顧客の消費行動などを、時代、年齢、世代に三つの観点から分析する方法です。
アンケート項目への回答から、次式の誤差を最小にするよう統計的方法を用います。
ある時代のある年齢層を特徴づける数量
  = 時代効果 + 年齢効果 + コウホート効果 + 誤差
  • 時代効果
    年齢や世代を問わず,時代とともに社会全体が同じ方向に変わっていく要因
  • 加齢効果
    青年期と高齢期では意識や行動が変わるように年齢の変化による要因
  • コーホート効果
    生まれ育った時代環境を反映した他の世代と区別できる特徴による要因

公開統計資料

行政の統計サイト

IT関連の統計資料