データマイニング<システムの活用<Web教材<木暮仁

Web教材一覧システムの活用

データマイニング

キーワード

データマイニング、バスケット分析、クレジット加入審査


マイニング(mining)とは、鉱山用語で金脈などを探索することです。データマイニングとは、大量のデータを分析することにより、貴重な情報を発見するための技術です。一般に高度な統計学の手法を駆使していますが、その操作方法や出力デザインを工夫して、使いやすくしたソフトウェア製品が多く市販されています。 (OLAPツールとの比較)

多次元データベースによるOLAPとデータマイニングは,似ているところもありますが,次のような違いがあげられます。

 OLAPデータマイニング
データ量比較的小さい極めて巨大
処理内容単純計算高度な統計学
処理形態かなり定型的毎回異なる
処理方法利用者が指示ツールの選択
結果の解釈実務知識が必要統計学の知識も
利用者各部門の素人が使う特定部門の専門家
利用頻度非常に多いそれほど多くはない
利用環境データマートデータウェアハウス

データマイニングの主な技法

クラスタ分析
グループ分け,似たもの集めとでもいうべき手法です。例えば,顧客をいくつかの層に分類するとき,通常では性別,年齢別,購入金額別というように人間が事前に切り口を決めて分類しますが,クラスタ分析では,それらを事前に与えるのではなく,統計的にそれらの間にどのような関係があるかを調べて,似たようなものを同じグループにまとめるのです。それによって20代の女性と40代の男性で1回に購入する金額が高いグループとか40代の女性で1回の購買額は少なく購買頻度が多いグループなどに区分します。これによって,顧客を層別してそれぞれに適したマーケティングをすることができます。
決定木
ダイレクトメールを発送して,来店した人・来店しなかった人に区分したとき,属性(年齢,性別,所得,家族数,職業など)により来店確率を求める手法です。ここで重要なことは、どの属性で区分するかを人間が指定するのではなく、統計手法により最も効率的な絞り込みを自動的に行うことです。右図のような「決定木」という見やすい形で表示します。
アソシエーション
何と何が一緒に発生するかを発見する手法です。例えば,スーパーで一人あたりの売上を増大させるには,「ついで買い」をさせることが効果的です。商品Aを買う人は商品Bも買うことが多いことがわかれば,そのような併買商品を近くに陳列すると,顧客も便利ですし,ついで買いも高まります。そのような分析をバスケット分析といいます。このとき,商品が非常に多いので「A商品と併買する商品は?」「B商品では?」というように事前に商品を決めて分析するのは困難です。アソシエーションは,それを事前指定せずに併買関係を求める方法です。

データマイニングの代表的な適用例

バスケット分析
アソシエーションの適用例です。POSデータを分析して陳列方法を検討します。何と何を一緒に買うことが多いかを発見し、AとBを隣接したコーナーに有名な例として,「紙オムツやベビーミルクとビールの併売」があります。米国では奥さんに頼まれてダンナが車でスーパーに買いに行くのが通常ですが,そのときに赤ちゃんのものだけでなく自分用にビールをケースごと買って行くのだと説明されています。でもこれは「伝説」でしょう。
クレジット加入審査
クレジットカードを用いたのに後日支払をしない客を不良客といいますが、そのときにはクレジット会社の損失になります。不良客の加入を避けるために、クレジット会社では加入時に、年齢、性別、職業、持ち家などのデータにより審査をします。優良客と不良客の違いの特徴を、過去のデータを分析することにより、合理的な審査基準を作成できます。その分析に、データマイニングが用いられています。
インターネットアクセスの分析
Web販売では、そのWebサイトにどこから(直接に、ポータルサイトから、バナー広告から)来たのか、購入までにページをどのように動いたかなどを記録して分析することにより、効果的な広告の出し方やWebページの工夫に活用できます。大量の記録データから、購入に関係する要因を発見するために、データマイニングは強力なツールになります。

データマイニングでの留意点

データクレンジング
データクリーニング、データ洗浄ともいいます。
データマイニングの元になるデータは、日常業務で収集・蓄積したデータですが、これをそのまま使うのは不適切なことがあります。このようなデータについて適切な修正をする(データを洗う)必要があります。
  • 販売システムと購買システムでは相手先の名称(コード)が異なる場合、「仕入先への販売実績」を求める用途にも使うには、名寄せ作業が必要です。
  • 配送経路を対象にするとき、得意先への納品元が販売部門なのか出荷センターなのか、システムにより異なる場合があります。
  • 不慮のトラブルでの品切発生や緊急配送による販売や輸送で例外的なデータが含まれていることもあります。
統計的・実務的な素養が必要
統計的な結果を分析する場合、統計的素養がないと、実際には有意差がないのに、違いがあるかのように誤解する場合があります。
統計的処理はあくまでも実務的な因果関係を無視した数値的処理です。それを鵜呑みにするのは危険があります。
data cleansing