データウェアハウス、データマート
データウェアハウスは、(セントラル)データウェアハウスとデータマートに区分できます。(セントラル)データウェアハウスとは、全社的なデータの保管庫で、基幹業務系システムで収集・蓄積したデータを、多様な分析に利用しやすい形式にして保管しています。巨大なデータ量になりますので、それに適した超並列プロセッサのような特別のコンピュータを用いるのが通常です。
データマートとは、利用部門に配置したサーバです。(セントラル)データウェアハウスから、その部門に必要なデータだけを抽出して、利用者に使いやすい多次元データベースなどの形式にして、OLAPツールなどで利用するようになっています。利用者が通常利用するのは、このデータマートです。
データマートは近所のコンビニエンスストアのようなもので,データウェアハウスは中央卸売市場のようなものだと考えるとよいでしょう。
データウェアハウス | データマート | |
比喩 | 卸売市場での素材 | コンビニでの完成商品 |
使用ツール | データマイニング | OLAPツール |
存在場所 | 集中(超並列プロセサ) | 対象部門のサーバに分散 |
データ量 | 非常に大 | あまり大きくない |
管理者 | 情報システム部門 | 利用部門が望ましい |
利用頻度 | 比較的少ない | 頻 繁 |
利用者のレベル | かなりの知識あり | 初心者もいる |
重点 | データが必ずあること | 操作性のよいこと |
データの内容 | 全社的データを体系的 | 利用対象部門用途に限定 |
データの特性 | 汎用的な部品 | 個別利用に特化 |
データの構造 | 正規化したRDB | 多次元データベース |
ところが、(セントラル)データウェアハウスをデータウェアハウスと呼んでデータマートと区別することもあれば、データマートをデータウェアハウスということもあります。この両方をデータウェアハウスということもあります。文脈から判断する必要があります(混乱例)。
データウェアハウスの説明として、よく二つのことがいわれます。
一方では多次元データベースのように各部門で簡単に利用できることが要求され,それには各部門に設置したサーバにデータを入れておくのが効率的です。
他方では大量データの短時間処理がいわれますが,それには高価な超並列プロセサが適しています。
この両方を同時に満足できる環境を実現するのは経済的に困難です。
また,各部門に設置するサーバのディスク容量は比較的小さいので,その部門で必要とするすべてのデータをそこに常駐させることはできませんし,利用部門のニーズが変化するのに伴い,入れておくべきデータも変化します。そのたびに基幹業務系システムから必要なデータを取り出してサーバに送るのでは,情報システム部門の負荷が増大してしまいます。
この矛盾は、(セントラル)データウェアハウスとデータマートを、ともにデータウェアハウスということが多いことに起因しています。