Web教材一覧システムの活用

データウェアハウスの定義

キーワード

インモン、目的別、統合化、時系列、非更新、DSS、データマッピング


データウェアハウスの定義

データウェアハウスとは、文字通りにはデータの倉庫のことですが、データウェアハウスの提唱者であるインモン(W.H.Inmon)は、「目的別に(subject-oriented)、統合化された(integrated)、時系列に保管し(time-variant)、更新をしない(non-volatile)という特徴を持つ、マネジメントの意思決定を支援するデータの集合である」と定義しています(図示)

目的別
企画部門のスタッフが戦略立案をするときと,現場の営業マンが得意先の売上状況を検討するのでは,データの内容もその取り扱い方も異なります。利用者からすれば,自分の関心の主題(subject)に特化してあるほうが使いやすいのでのから,そのような提供をするべきです。
統合化
「自社が資材を購入している仕入先に,自社製品をどれだけ売り上げているか」を調べたいようなことはよくあります。ところが,仕入先は購買システム,得意先は販売システムとして取り扱われています。とかく基幹業務系システムでは縦割りに構築されることが多く,仕入先コードは4桁,得意先コードは6桁などと統一されていないこともあります。そのようなときは,仕入先と得意先を結びつけるのは困難です(それを結びつける作業を名寄せといいます)。
 統一することが必要ですが、基幹業務系システムを全面的に改訂するのは,多くの費用と労力がかかりますので簡単には行えません。それで,基幹業務系システムからデータウェアハウスへデータを転送するときに,統一した形式に変換することが求められます。
時系列
基幹業務系システムでは,「現在の在庫」「今月の売上」「今年度の決算」というように,現在の状況を把握することを目的としています。それに,基幹業務系システムでは効率性が重要ですから,その処理に必要なデータだけを持つようにしています。例えば売上ファイルなどは,月単位で一つのファイルにするのが通常です。ところが,顧客購買情報から個客の動向を探るには,数年にわたるデータが必要ですから,操作を容易にするためには,数年間のデータが一つのファイルになっているほうが便利です。このように,長期間のデータを一つのファイルに持つことをここでは時系列といっているのです。
非更新
基幹業務系システムでは,昨日までの累積データを今日発生したデータで追加・削除・変更するといった更新処理が中心になっています。特にオンラインでの更新処理では,同時に同じデータを更新する場合があり,それが間違いなく処理できることが求められます。それを同時更新における排他制御による一貫性の保持といいます。データベースを管理するシステムをDBMS(Database Management System)といいますが,一貫性保持には複雑な機能が必要なため,大きなシステムになっています。データウェアハウスでの利用では,データを加工するだけで更新はしないと決めることにより,DBMSからこの機能を外して軽くできます。その分,検索処理の高速化や検索加工の機能を強化することができます。

このような概念は目新しいものではありません。1970年代のDSS、1980年代に普及した情報検索系システムも同じような概念です。並列処理技術やデータベース技術の発展により、従来とは格段の機能を実現できようになったため、新しい用語にしたのです。さらに2000年代になると、社内ポータルに組み込まれ、BI(ビジネスインテリジェンス)という概念になりました。

データウェアハウスへのデータ移行

データウェアハウスのデータは、日常業務で収集・蓄積したデータ、主として基幹業務系システムのデータがベースになっています。基幹業務系システムでは、多様な個別システムがあり、データウェアハウスへデータを移行するには、「統合化」でのコード変換のような作業が必要です。

データマッピング
販売システムでの得意先と購買システムでの仕入先など異なるデータを関連づけることです。コードだけでなく、販売データや出荷・納品データなどデータの関連付けも含みます。図表化するのが通常です。
ODS(Operational Data Store)
基幹業務系システムのデータ(オペレーショナルデータ)を、データウェアハウスなど別の目的で利用するために、分析に不要な項目は削除したり、データマッピングでの変換をしたりして、一時的なデータベースにしたものです。