スタートページ歴史経営数学の歴史

データサイエンス/データエンジニアリングの歴史


データサイエンスとデータエンジニアリングの概要

従来から、社内・社外のデータを適切に加工して、意思決定の参考資料を提供する「データの有効活用」の重要性が指摘されてきた。
 安心して意思決定の資料として使うには、加工に用いるモデルが、信頼性の高い結果を出すこと、その結果について客観的な論理性による説明機能を持つことが必要である。
 データサイエンスとは、適切なモデル構築を主目的にした研究分野である。

状況に合致したモデルを個々にゼロから構築するのではなく、既に論理が明確であり計算過程に誤りがないことが証明されている汎用的な部品を組み合わせカスタマイズしてモデルを構築するほうが適切である。代表的な部品に統計的方法やOR技法などがある。データサイエンティストとは、データサイエンスの専門家であり、これらの部品の開発や特定分野のモデル開発を担当する。

また、モデルで使用する元データが適切でなければ、適切な結果は得られない。元データが社内基幹系システムであっても、次のような懸念が生じる。

このように、元のデータをそのままモデルに使うのではなく、モデルに適した加工が必要になる。
 個々のモデルを対象にするのは面倒であり、汎用的に利用できるデータベースにすることが適切である。また、そのデータベースは、操作が容易である形式にすること(RDB、多次元DB、列方向DBなど)も重要である。
 データエンジニアリングとは、元データを、上のような懸念を考慮して修正し、利用しやすい形式にして提供することを主目的とした研究分野である。
 データベースの管理(外部スキーマ、概念スキーマ、ビューが対象)
 データディクショナリ、ディレクトリの作成・維持
 データウェアハウスの構成
 データ信頼性の評価、データクリーニング

データサイエンスという用語は1974年に始まり、1980年代末には広く普及していた。
 一方、データエンジニアは、RDBが普及した頃には「データベースエンジニア」と呼ばれ、ラージデータの活用が注目された頃から、海外では「データラングラー」とも呼ばれている。どちらも起源は不明確である。「データエンジニアリング」が独立した分野だと認識されたのは2000年以降である。
 しかも、従来はデータサイエンスもデータエンジニアリングも同一人、同一組織が担当することが多く、あえて区別する必要もなかった。
 それで、データエンジニアリングをデータサイエンスの一部のように取り扱っていることもある。


主要年表


参考URLs


歴史展望(私見も含む)

データマネジメント(以前)の歴史

コンピュータ導入時期

事務分野におけるコンピュータの利用は、会計システムや販売システムなど、古典的用語での業務基幹系システムから始まった。
 当時からエラーのない効率の良いシステムを短期間、低コストで開発するための方法論は盛んに研究された。そのためのデータサイエンスやデータマネジメントの重要性は認知されてはいたものの、それを一つの研究分野、専門組織とするまでには至らなかった。

公開ファイルからデータウエアハウスへ

業務基幹系システムによる定例的日常業務が一巡すると、社内に大量のデータが蓄積されるようになり、それを有効利用しようとの動きが活発になった。古典的用語での情報系システムである。
 コンピュータの性能や機能は飛躍的に向上し、業務部門の人が端末をコンピュータに接続して使うEUC(エンドユーザ・コンピューティング)が普及してきた。
 1970年代中頃から「データ指向型DSS」が普及した。基幹系システムで蓄積したデータを利用者が使いやすい形式に変換して公開ファイルとし(データマネジメント)、利用者が任意の切り口で選択、加工、表示できるように、習得しやすく操作しやすい環境を提供する(データサイエンス)利用形態である。

この公開ファイル方式は、メインフレームの公開ファイルから必要データをPCの表計算ソフトのスプレッドシートに転送してさらに加工したりグラフ化する使い方に発展した。さらに、1990年代になるとデータウェアハウス(データマート)の多次元データベースをOLAPツールで操作する形態へ発展した。

(蛇足)コンピュータ導入頃、システム部門内ではデータマネジメントは不評だった。開発で忙しいときに、変数の命名基準やファイルの体系化(基本ファイルと派生ファイルの区分など)のような標準化は、意義は理解しても疎ましく思われ。受け入れられなかった。結果として、一貫性のない変数名やファイルが散在し、その後の公開ファイルやデータウェアハウスで多大な負担をかけることが実感されるようになった。

RDB/SQL

データマネジメントの重要性が認識されるようになったのは、1980年代後半からのRDBの普及である。RDBではデータの正規化が基本であり、構築し運用するには、外部スキーマ、概念スキーマ、ビューなどの定義、そのためのデータディクショナリ、ディレクトリの作成・維持が重要である。当時は「データベースマネジメントと呼ばれたが、現在のデータマネジメントの前身だといえる。


データサイエンスの歴史

初期のシステム部門(電算室)では基幹系システムの構築や運用を担当する基幹系グループが主流であり人数も多かったが、「新しい技術あるいは特殊用途の技術を担当するグループ」もあった。ここではそれを(かなりいい加減だが)データサイエンスグループということにする。このグループは、任務、行動指針、知識スキルなどで、基幹系グループとは異質であることが多い。
 ・組織にとって未経験の分野を対象にする。
 ・上司から具体的な指示がなく、自主的な行動が主になる。
 ・しかし、経営者や実務部門の協力がなければ成功しない。
 ・その中には消極的な人もあるし、積極的にグループの一人になることもある。

データサイエンスグループの出現

日本での大企業でコンピュータが普及し始めた1960年代中頃には、既に統計的手法やOR技法はほぼ確立していたし、コンピュータソフトウェアも整備されていた。社外計算センターの大型コンピュータを利用すれば、かなり大規模(当時としては)モデルを扱うことができた。
 統計的手法やOR技法の実務的な有用性が認識され、社内コンピュータの高性能化に伴い、広い分野で適用された。その過程でシステム部門だけでなく、実務部門でも関心をもつ人が出てきた。

しかし、コモディティ化が進むと、単なる計算ツールになり、データサイエンティストとしての社内地位の向上にはならなかった。再認識されるようになったのは、データマイニングやAIが注目されるようになってからである。

EUCとDSS

1970年代中頃からEUCが普及してきた。これを支援するには、使いやすい環境を提供する必要がある。
 ・サーバ側に多様な処理に対応した雛型を用意する。
 ・市販の簡易プログラム言語を普及する。
 ・PCとの連携方式を開発する。
などの任務は、データサイエンスグループの担当であった。
 この普及に伴い、データサイエンスグループの人数は増加した。しかし、ヘルプデスク機能が求められ、それに人を取られるようにもなった。

DSSには「モデル指向型DSS」がある。企業モデル、予想財務諸表モデルなどを構築し、利用者が販売価格、設備投資などのパラメータを変更して机上実験(シミュレーション)を行う分野である。
 この機能は、2000年代になると Excel に「データ分析」機能として搭載されるようになる。
 このような利用は経営者が対象になる。成功すれば経営者の認識も変わるし、データサイエンスグループの地位も上がると期待された。ところが有効なモデルにするには、経営者の積極的な取り組みが求められるし、データサイエンスグループの経営センスやコミュニケーション能力の不足もあり、継続的な成功につながるケースは少なかった。


1990年代後半以降の動向

対象データの拡大

データウェアハウスまでの「データ」とは、社内で発生した数値的なデータであった。それが、1990年代後半から、データの対象が大きく拡大した。それと共にデータサイエンスから独立した「データマネジメント」の重要性が認知されるようになった。

AIの影響

2010年代のAI、2020年代の生成AIと対話型生成AIの普及は、データサイエンティストやデータマネジメントに抜本的な影響を与えている。
(注)「ルールベース型AI」は、多変量解析とほぼ同じ分野でモデルも同じなので、対象外とする。

「ブラックボックスのモデルを、結果を得ること以外に関心がない業務担当者が操作して、その結果を実務に使う」環境になった。冒頭で述べた「適切なモデル」とは対極的な状況である。
 このようなリスクを低減するには、データサイエンティストやデータマネジメントが対象モデルについて、かなりの理解をもつことが求められる。ところが、理解をするための知識・スキルが追い付いていないのが現状である。

データサイエンティストやデータマネジメントの人材確保・育成が、産官学全体で取り組むべき重要かつ緊急な課題であることを強調したい。