Web教材一覧統計・確率

多変量解析の基礎

キーワード

重回帰分析、判別分析、主成分分析、因子分析、数量化理論


多変量解析とは、互いに関連した複数個の観測項目のデータ(多変量データ)から,項目間の関係を検討するための統計的手法です。ここでは、数学的な分野は一切割愛して、代表的な多変量解析手法を列挙して、その特徴を示すだけにします。

目的従属変数
目的変数
説明変数=量的説明変数=質的
予測量的重回帰分析数量化1類
予測質的判別分析数量化2類
分類なし主成分分析
因子分析
数量化3類

重回帰分析

たとえば、店舗の売上高yを店舗面積x1、地価x2、店員数x3などから、
  y=a0+a11+a22+a33
として、最小自乗法などによりa0、a1、a2、a3を算出して、新規店舗の売上高を予測したり、既存店舗の実績売上高との比較をしたりします。

●数値例
 例えば、右図のように、y、x1、x2、x3のデータが与えられたとき、単にそれぞれのxとyがどのように関係しているかを調べたのでは、次の散布図になり、その関係はあいまいです。相関もあまり大きくありません(x3はかなり大きいですが)。

最小自乗法により、次の式が得られます。
  y=-153.3+2.408x1+0.401x2+9.336x3   ・・・A
これに個々のデータを代入すると、右図の計算値になります。これとyとの相関係数は0.89になり、かなりの説明力があることがわかります。

●留意点
 以降の事項は、多変量解析に共通する留意点です。


判別分析

判別関数とは、重回帰分析での目的関数が「合格/不合格」などの質的な値になるものです。
 合格、不合格になる判定基準は不明です。主な要因がx1、x2であろうと推察されますが、それ以外にあるかもしれません。そのような場合に、x1、x2から計算した値yが
   y≧α なら合格
   y<α なら不合格
としているのではないかと考えて、その計算式
   y=a0+a11+a22
を探そうとする方法です。それによって得られた式を判別関数といいます。

例えば、右図のように、合格になった(y=1)事例と、不合格になった(y=-1)事例のデータ(x1,x2)があるとします。その散布図は下図のようになります(赤:y=1、青:y=-1)。このとき、赤と青を分離する点線のような判別関数をみつけようとするものです。

●重回帰分析による判別式の算出
 上のように、合格をy=1、不合格をy=-1として重回帰分析を行えば、合格ならyは1に近くなるし、不合格なら-1に近くなるはずです。重回帰の式は
   y=-2.455+0.1058x1+0.1468x2
となりました。
 これに、各データのx1とx2を代入したのが「判別結果」です。
 そしてここでは、合格・不合格の判定値αを0としました。すなわち、y≧0になれば合格、y<0ならば不合格としているのだろうと考えました。
 その結果、No.8とNo.17で判定誤りがありましたが、全体としてはかなりよい判別関数であるといえます。

●マハラノビスの距離
 もっと高度な理論(その内容は省略。用語だけの紹介)では、合格・不合格の2つのグループを曲線で分割する方法があります。変数がひとつの場合に、どれだけ散らばっているかを示す尺度が分散σ2ですが、変数が複数の場合には、相関を考慮した距離であるマハラノビスの距離2という尺度があり、それを用いて判別しようとする方法です。


主成分分析

重回帰分析や判別分析では、目的変数がありますが、主成分分析では目的変数はありません。主成分分析は、いくつかの要因を合成(圧縮)して、少ない成分を探しだし、いくつかのグループに分類することを目的にしています。いわゆる「似たものあつめ」です。クラスタリング(厳密には異なりますが)ともいいます。
 例えば、右図のような数学・理科・国語・英語などの成績データから、一つあるいは二つの成分を取り出すことにより、生徒をいくつかのグループに分類するようなときに用います。

この理論は、分散共分散行列や固有値など高度な数学を用いますので、ここではイメージ的な説明にとどめます(したがって、厳密な説明ではありません)。
 データの重心を通り、各点からの距離が最小になるような直線(最小自乗法をイメージ)を考えます。それを第1主成分とします。次に、第1主成分の要素を取り除いたデータを用いて同様なことを行い、第2主成分とします。
 ここでのデータを用いると、
   第1主成分:z=0.56x1+0.58x2-0.48x3-0.354
   第2主成分:z=0.43x1+0.39x2+0.50x3+0.624

が得られます。
 各データについて、zとzを計算すると、下の散布図が得られます。

1が数学、x2が理科、x3が国語、x4が英語の成績であり、第2主成分zの係数がすべて正であることから、これは総合能力を示していると考えられます。また、第1主成分zは、数学と理科の係数が正、国語と英語の係数が負であることから、理系・文系、あるいは分析力・語学力の能力であると考えられます。
 そして、生徒4や20などは、理系で総合的によくできる生徒群、生徒11や10は、文系であまり成績がよくない生徒群というように分類できます。
 また、原点(0,0)に近い生徒16や9は、生徒全体で一般的なグループに属するといえます。

ここで重要なのは、これら主成分の実務的な意味は、これらの計算過程で示されるのではなく、主成分の式(係数)や散布図から分析者が主観により意味づけをすることです。ですから、本当に総合能力や理系・文系であるかどうかではなく、分析者がそのように分析したということなのです。


因子分析

例えば、多数の生徒の英語・数学・国語・理科・社会の成績から、それらの教科間の相関を計算すると、次の結果が得られたとします。

数学と理科との相関係数は0.83なので、数学と理科は似たような能力を示しているといえます。数学と社会の相関係数は-0.61なので、数学と社会では、相反する能力であるといえます。また、数学と英語の相関係数は絶対値が小さいので、両科目の間の関係は小さいといえます。
 すなわち、これら5つの教科の示す能力は、もっと少ない説明要因(これを因子という)で説明できると考えられます。因子分析とは、その因子を探すための方法です。5教科を分類すること、それにより、生徒を分類する方法だともいえます。

因子分析も主成分分析と同様に、目的変数をもたず分類を行う方法ですが、両者の間には大きな違いがあります。主成分分析では主成分が結果として得られたのですが、因子分析では因子を説明変数としているのです。
 英語や数学などの教科を変数x、因子をf、誤差(独立因子という)をeとして、
   x1=a111+a122+・・・+e1
   x2=a211+a222+・・・+e2
          :
   xn=an11+an22+・・・+en

において、誤差の2乗和が最小になるようなaijを求めます。このaij因子負荷量といいます。
 主成分分析では、誤差を無視しているのに対して、因子分析では誤差を独立因子として分析の対象にしていることも特徴の一つです。

計算プロセスは省略して、次の結果が得られたとします。

因子負荷量
上のaijですが、独自因子(誤差)の分を除いた各変数と各因子の相関を表わしています。
第1因子では、数学や理科が正で大きく社会や国語は負になっていることから理系能力、第2因子では、社会や英語が正で大きく、数学や理科が負になっていることから文系能力というように、実務的な主観により名前をつけます(これは主成分分析と同じです)。
共通性
因子負荷量の2乗を横に合計したものです。各変数が因子群によってどれだけ説明できるかの尺度になります。この例では、この2つの因子により、数学や理科については非常によく説明できるが、英語についてはあまり説明できていません。
寄与率
因子負荷量の2乗を縦に合計したものを用いて、その因子で全体のどれだけを説明できたかを示します。この値が1に近ければ説明力が高いことになります。ここでは、第1因子だけで0.38、第1因子と第2因子で0.70を説明していることになります。

因子分析では、主成分分析と同様に固有値の計算が必要になるだけでなく、少ない因子で寄与率が高くなる因子負荷量を求めるために、軸の回転という複雑な計算が行われます。


数量化理論

ここまでは、説明変数として売場面積や数学の成績など「量」的な変数を対象にしてきました。ところが、実務での分析では、立地条件(商業地域か、住宅地域か)とか官能判断(甘い、辛い、酸っぱい)など「質」的な変数を取り扱う必要があります。質的変数では大小関係がないものや、大小関係があっても、1と2の差が2と3の差と異なるものがあります。このような変数も取り扱えるように拡張したのが数量化理論です。
   数量化1類: 重回帰分析
   数量化2類: 判別分析
   数量化3類: 主成分分析、因子分析
などが広く用いられています。


理解度チェック

第1問

  1. 次の多変量解析の手法のうち、量的な目的変数をもつものはどれか。
     ア 重回帰分析  イ 判別分析  ウ 主成分分析  エ 因子分析
  2. ある製品の成分を、反応時間と反応濃度の関数として定式化するのに、最も関係の深い多変量解析の手法はどれか。
     ア 重回帰分析  イ 判別分析  ウ 主成分分析  エ 因子分析
  3. 多数の人に、ある商品を買うか買わないかの判断をしてもらった。それとともに、「価格が高い、安い」「デザインがよい、悪い」「機能が十分、不十分」などの理由も聞いた。これから、どのような要因が購入に関係しているかを調べたい。それに適した手法を示せ。
     ア 数量化1類  イ 数量化2類  ウ 数量化3類  エ 数量化4類
  4. ある企業では、多数の顧客を、最近の購買日、購買頻度、購買金額、購入品目などの記録を調べて、いくつかのグループに分類し、それぞれのグループに適した販売方法をとろうとしている。これに最も適した分析方法はどれか。
     ア 重回帰分析  イ 判別分析  ウ 主成分分析  エ 因子分析
  5. あるクレジット会社は、過去の加入申請での承認・却下記録や、加入者の不良加入者(支払いをしなかった客)の記録などを調べて、専門家でなくても加入審査ができるような基準を作りたいと思っている。これに最も適した分析方法はどれか。
     ア 重回帰分析  イ 判別分析  ウ 主成分分析  エ 因子分析
  6. 重回帰分析や判別分析では、説明変数の個数を多くすれば、実績値と計算値の合致度が増大するので、その変数を取得する労力や計算に要する労力を考えないならば、できるだけ多くの説明変数を設定するのが適切である。
    × 解が不安定になる、実務解釈が困難になる
  7. あるスーバーチェーン本部が店舗の多変量解析を行ったところ、目的変数「売上高」への説明変数「店長のやる気」の係数が負になる結果を得た。このことから、店長は「やる気がない」ほうがよいと結論した。
    × 実務的判断が重要。サンプルの取り方、説明変数の取捨、データの加工方法が不適切
  8. 主成分分析での主成分の実務的解釈は、データの加工プロセスから得られるものであり、分析者の主観を極力排除することが大切である。
    × この解釈は分析者の主観以外に頼るしかない。