機械学習

機械学習の概要

機械学習とは、コンピュータに大量の訓練データを与えて，コンピュータが自ら学習することにより、未知のデータに対して判断を行えるようにすることです。
　「ネコかイヌかを判断するＡＩモデルを作る」という極めて単純な例で、機械学習の手法を説明します。

機械学習で用いるデータ

いかにＡＩ（人工知能）とはいえ、プログラム通りに動作するアプリケーションです。まず最初にデータを与える必要があります。
　多数のネコとイヌを連れてきて、身長、体重、目の特徴、声などの特性を調べて、それを、x₁、x₂、…、x_n とします。
　また、ネコなら y = 1, イヌなら y = -1 とします。この　y をラベル（正解）といいます。教師ありのモデルではラベルを用い、教師なしモデルではラベルはありません。
（画像認識技術を用いて写真を与えるだけで、x_i などの特性をＡＩが自動的に取得することもできます。その場合でも、その写真がネコ・イヌであることを人間が教える必要があります。）

ここで集めたデータは、手順により次のように区分されます。

訓練データ（train_data)
モデル作成のためのデータです。
検証データ (validation_data)
モデルの検証と改善に用いるデータです。
テストデータ
汎用化・予測に用いるデータです。

ＡＩモデル作成手順

訓練・学習：訓練データを用いてモデルを作成する。
検証：このモデルの信頼性を検証データにより検証する。
予測：完成したデータにテストデータを与えて結果を得る、

訓練・学習（モデルの作成）

モデルの作成とは、「何らかの手段」により、
　　　　y = a₀ + a₁x₁ + a₂x₂ + … + a₂x_n
となる係数 a を求めることです。
（ここでは単純に一次式としましたが、複数の変数を組み合わせたハイパーパラメタを変数にすることがあります）。
　ネコとイヌについて、大量のデータを集め、その特性 x₁、x₂、…、x_n を調べて、何らかの手段により a の値を決定し、y　を求めます。そして、y > 0 ならばネコ、y < 0 ならばイヌだと判別します。
　この式のことをモデルといいます。

（注）ここで「何らかの手段」が重要です。「ＡＩはが自分でルールを作る」とはいえ、厳密には人間がかなり関与しています。
　「ヒゲの数」や「目の形」などの特性を人間が与えるならば、多変量分析の判別分析がそのまま使えて計算方法も確立しており、プログラムも容易に入手できます、この場合は、ルール全体を人間が与えているので、ルールベースといいます。ルールベースになるモデルは、「人工知能」である必要はありません。本章では対象にしません。
　それに対して、「ネコとイヌの画像を見せて～」のようなケースでは、画像から特性を見出して（ｘを決めて）ルールを作るのはＡＩです。まさしく自分でルールを作っています。このモデル化にはニューラルネットワークを使いますが、ニューラルネットワークの構成などは人間が設定します。「人間が設定した枠組みの中でのルール自動作成」だということになります。

検証（モデルの評価と改善）

作成されたモデルに、検証データを与えて、判別がどの程度の信頼度があるかを検証し、実務的に十分でなければ、検証データを用いてモデルの改善（f の変更）をします。
　訓練データの量が大きければよいモデルができると考えがちですが、それは不適切です。
　そもそもこのモデルは、他のデータを与えたときにネコかイヌかを判別させることが目的ですから、モデル作成に使った訓練データ以外データ（検証データ）でモデルの信頼性（判別能力）を検証する必要があるのです。

いくつかの点とその近似式の関係で説明します。１次式や２次式を当てはめたのでは、点と曲線は離れてしまいます。３次・４次を次数を増やせば距離は短くなり、最後には曲線がすべての点を通り誤差は０になります。しかし、その曲線は極端に変化が大きく、別な点での式の値は現実的ではない値になりましょう。
　このように、過度な精度になることを過学習といいます。
　むしろ次数の小さいほうが、安定した近似式であり、実務的に適した近似式になります。当初のモデルでは、一致度はある程度犠牲にしても、安定したモデルにしておき、検証データで検証・改善をするほうがよいのです。

テスト（汎用化・予測）

最終テスト、実務化のステップです。テストデータにより確認したり、あえて紛らわしいデータも含む新しいデータで確認したりします。結果として、ネコ・イヌの判別が必要な業務にはこのモデルを用いればよい（汎用化）とします。

（注意）分布シフト

正しい学習をするには、モデル訓練時の入力データの統計的分布と、検証／テスト時、本番環境での入力データの統計的分布が一致していることが前提になります。
　何らかの事情でこれが崩れると、モデルの性能が期待通りに発揮されない原因になります。
　特に、訓練データとテストデータの分布が異なる場合を「トレーニング・テスト分布シフト」といいます。それを防ぐために、これらのデータを区別せずに収集して、乱数により分ける情報が推奨されています。しかし、本番の段階でこれを保証するには困難なときもあります。

機械学習の分類

学習方法による区分

教師あり学習
画像とともに「これはネコ」「これはイヌ」の正解を与える学習　→回帰、分類
（この「正解」をＡＩでは「ラベル」という。多変量解析では「被説明変数」）
教師なし学習
ラベルを与えない学習→クラスタリング、次元削減など
強化学習
ＡＩ将棋のようにＡＩの結果に得点（スコア）を与え、スコアが大になるルールをＡＩに考えさせる

その他の「学習」

転移学習
ある領域の知識を別の領域の学習に適用させる技術
深層学習
ディープラーニング。学習方法ではなくモデル構成の区分なので省略→ 参照：ニューラルネットワーク

教師あり学習（Supervised Learning）

「教師あり」とは、データとともに「正解」を与えて、これからＡＩにモデルを作成させる方法です。この「正解」は、機械学習では「ラベル」といい、多変量解析での被説明変数に相当します。
「教師あり」の代表的モデルには、「回帰」と「分類」があります。

回帰（Regression）

統計の多変量解析で広く用いられている回帰分析と同じで、被説明変数と説明変数の関係を定量的に分析し、分析結果に基づく予測します。
　代表的なのは最小二乗法です。説明変数を身長、胸囲。性別、被説明変数を体重として、多人数のデータを与え、ある人の説明変数を与えて体重を推定するようなときに適用できます。説明変数には量的・質的特性があってもよいが、被説明関数は量的変数であり、多様な値になるのが特徴です。

分類（クラス分類, Classification）

被説明変数が回帰では数量であるのに対して、分類が質的であることが特徴です。多変量解析での判別分析やロジスティック回帰分析が対応します。

判別分析（Discriminant）
被説明変数が質的変数です。その値はＡ，Ｂ，Ｃのように多数の値を設定できますが、「イヌかネコか」「合格/不合格」などの２値（０／１）なのが通常です。
ロジスティック回帰分析
被説明変数が事象発生確率で、０～１の値になります。
例えば、喫煙本数（量的データ）、辛いもの好き（質的データ）、胃潰瘍病歴の有無（質的データ）などの説明変数とガンの発生確率の関係を調べるなどに適用されます。

「教師あり学習」での代表例

パターン認識
「ネコとイヌの画像を与えて～」のような適用分野です。この特徴は説明変数が画像や音声などのビット列であることです。
　・画像認識：本人認証（顔認識）など
　・文字認識：手書き文字の認識など
　・３Ｄ認識：物体認識、ロボットや自動運転への利用など
決定木
例えば、ダイレクトメールを発送して，来店した人・来店しなかった人に区分したとき，属性（年齢，性別，所得，家族数，職業など）により来店確率を求める手法です。どのような区分を設定するのがよいかを学習します。
ランダムフォレスト
決定木を発展させた手法で、決定木をたくさん作って多数決する（または平均を取る）ような手法です。
決定木、ランダムフォレストは回帰でも利用されます。

教師なし学習（Unsupervised Learning）

教師なし学習とは、ラベル（正解）を与えない（多変量解析では被説明変数がない）データを分析します。
　　教師なし学習┬クラスタリング┬非階層型クラスタリング（K-means法）≒主成分分析
　　　　　　　　│　　　　　　　└階層型クラスタリング（ウォード法）
　　　　　　　　└次元削減≒因子分析

クラスタリング

「似たデータを近くに、似ていないデータを遠くに配置して、グループ化する」技術です。
　顧客のグループ化を考えましょう。人間による分類では、購買額の大小、来店頻度、特定商品の購入有無など、事前に設定した項目を基礎にしてグループ化するのが通常ですが、ＡＩではそのような既定概念を排して「ともかく３つのグループに分類せよ」と指示するだけで、システムが顧客の特性値から「似たもの集め」をします。これにより、思わぬ発見ができることがあります。

クラスタリングは、目的は同じですが結果表示の違いにより、非構造型クラスタリング（下左図）と構造型クラスタリング（下右図）に分かれます。

非階層型クラスタリング
多変量解析での主成分分析に一致します。主成分分析は、いくつかの要因を合成（圧縮）して、少ない成分を探しだし、いくつかのグループに分類することを目的にしています。　例えば、右図のような数学・理科・国語・英語などの成績データから、一つあるいは二つの成分を取り出すことにより、生徒をいくつかのグループに分類するようなときに用います。この成分は科目の組み合わせであり、それが何を示すかは、人間が結果を見て「横軸は総合的能力、縦軸は文系／理系傾向」などと適当に考えるしかありません。
　ＡＩでの代表的解法に、K-means法があります。
階層クラスタリング
二つのデータの各特性の距離を計算して、最も近い２つのデータを結合して（新しい１つのデータ）にします。上図ではＡとＥの距離が最小2.50なので１つにまとめます。
　これを繰り返して、全データが１つになるまで行うと上右図が得られます。
　ＡＩでの代表的解法に、ウォード法があります。

クラスタリングの代表例

アソシエーション分析
バスケット分析ともいいます。「同時購入の確率が高い商品の組合せ」の情報を得て、ネットショッピングにおける推薦（レコメンデーション）や実店舗における商品の陳列やセット割引きの検討にも利用できます。
ソーシャルネットワーク分析
公表資料内で氏名が同時掲載される頻度やＳＮＳ上で友人としてのつながりのデータに基づき、人のつながりを分析します。
協調フィルタリング
他の似た特性を持つデータを用いて、その差分を推薦する手法です。
例えば、
　　Ａさんの興味：Ｐ，Ｑ，Ｒ，Ｓ
　　Ｂさんの興味：Ｐ，Ｑ，Ｒ
だとするとき、ＢさんはＡさんとの一致点が多いことから、ＢさんもＳに興味があると推測できます。それで、ＢさんにＳを推薦（レコメンド）します。Ｗｅｂサイトの広告などに使われます。
　また、ＰやＱに興味をもっている利用者の割合が高いならば、Ｐに興味を持つ人にＱを推薦します。

次元削減（dimensionality reduction）

次元削減とは、低次元表現が元データの何らかの意味ある特性を保持高次元空間から低次元空間へデータを変換する方法です。
多変数解析での因子分析がその基本になります。

●主成分分析と因子分析の違い
　主成分分析は多数の観測変数から少数の主成分という合成変数を作り出す手法で、観測変数が原因で主成分は結果です。
　因子分析は観測変数に影響を与えている共通因子を抽出する方法で、共通因子が原因で観測変数が結果となります。因子分析では、主成分分析と同様に固有値の計算が必要になるだけでなく、少ない因子で寄与率が高くなる因子負荷量を求めるために、軸の回転という複雑な計算が行われます。

強化学習（Reinforcement Learning）

教師なし/教師あり機械学習とは異なり、強化学習は動的な環境で特化型人工知能に用いられます。「最終的なゴール」を設定し、それに向かった最適な答えを導き出すための方法を模索するやり方です。その方法として、試行錯誤を通じて、報酬（評価）が得られる行動や選択を学習します。
　例えば将棋に関する強化学習は、敵軍の王将をとることに最大の評価として設定し、システムに将棋を教えるのに、ある手を打ったときに、その結果に対する得点を与えます。また、ロボットにある操作を教えるのに、操作の目的と人間の動作を観察させ、ロボット自身にやらせてその結果を得点で評価します。これを繰り返すことにより強くなります。

　システムは最大の得点を得る（最良の手を打つ）ためのルールを見つけ出します（教師なし学習）。その結果に対して教師は新たな得点を与え（教師なし学習）、コンピュータはその得点によりルールを修正します。
　かなり複雑なので、一定のレベルに達するまで、かなりの訓練期間がかかります。また、連続手に対する得点の与え方やコンピュータが獲得したルールが合理的であるという保証はありません。

Q-learning
いくつかの状態におけるいくつかの行動について報酬を与えた表をＱ関数といいます。その最大だけを選択し続けると未経験状態に遷移しなくなり学習できません。それで確率的にある行動を選択させ、多様なケースでの学習を行わせる方法です。
Deep Q-learning
状態や行動の個数が大きくなるとＱ関数の更新が困難になります。Ｑ関数を畳み込みニューラルネットワークで表現してディープラーニングさせる方法です。

転移学習（transfer learning）

例えば、サッカーの選手は一般の人に比べて、ラグビーや野球の技量修得が容易でしょう。このように、ある領域の知識を別の領域の学習に適用させる技術です。

ネコには和猫やペルシャ猫、イヌには秋田犬やスピッツなどの品種があり、その品種判別のモデルを作りたいとします。通常ならば、ネコのモデルとイヌのモデルを作成しますが、ネコのデータは多いのに対して、イヌのデータは少ないとします。イヌのモデルは精度の低いものになります。

このとき、ネコのモデル化で得られた知識を、イヌのモデルに応用することにより、精度を向上させることができます。
　このように、大量の高品質なデータのある領域の知識を転移させることで、限られたデータしかない領域においても高精度なモデルを作成する技術を転移学習といいます。

人工知能（ＡＩ）へ