データサイエンス、データガバナンス

データサイエンス、データガバナンスとは

大量かつ複雑化したデータ、つまりビッグデータを分析・活用することで、企業は業種や規模にかかわらず、これまでとは別の角度からビジネス課題を見つけることが可能になりました。そして、新しいビジネスアイディアを見つけることで企業の成長に繋げたり、ビジネスに変化をもたらすといった点で、データの収集・整理・分析・活用などに関して経営的観点からマネジメントすることが重要です。それをデータガバナンスといいます。
　また、高度な加工、正しい分析には、統計学や情報技術の活用が不可欠です。そのような学術分野をデータサイエンスといい、データから有意義な洞察を引き出す研究分野の包括的な概念です。

これらの概念は新しいものではありません。用語として普及したかどうかは別として、データを分析して有益な情報を発見しよう、最適な手段を求めようとする努力は、昔から行われてきました。その積み重ねでデータサイエンスの対象や重要性も変化してきたのです。それとともに、データガバナンスの重要性も認識されてきました。

データサイエンスの発展

統計的手法、ＯＲ技術
実験から得られた少量のデータから全体の特性を把握する統計的手法や、多様な条件下での最適化、机上実験など応用数学としてのＯＲ技法は、１９５０年代から注目されていました。
ＤＳＳ、データウェアハウス
１９７０年代になると、これまでに基幹業務系システムで蓄積してきたデータを解析して、意思決定に役立てようとする考え方が普及してきました。ＤＳＳ（Decision Support System：意思決定支援システム）です。
　これは１９９０年代のデータウェアハウスへと発展します。一般ユーザは任意の切り口で選択、分類、集計などの操作が簡単にできるようになったのです。
データマイニング
データウェアハウスの普及とともにデータマイニングが注目されだしました。データマイニングとは、大量データを統計的手法などで分析することにより、従来気づかなかった有益な情報を発見しようとすることです。
これまで処理の対象となっていたのは、構造的な数値情報がほとんどでしたが、この頃になると文書のような非構造的データを対象としたテキストマイニングの手法も発展してきました。
エキスパートシステム
データ分析の流れとは別に、１９８０年代にＡＩブームが起こりエキスパートシステムの利用が注目されました。
専門家が持っている「もし…ならば…確率…で…である」という自然言語形式の知識を知識ベースとしてもち、「～の現象が発生する原因はなにか」を多様な論理法を使って推論する推論エンジンにより、「○○が原因である確率は○％、△△である確率は△％」のような解を表示するものです。
ビッグデータ
２０１０年代になると、これまでコンピュータ処理が困難だった巨大なデータ群でしかも様々な種類・形式が含まれる非構造化データ・非定型的データが処理が可能になってきました。そのようなデータ群を記録・保管して解析することで、ビジネスや社会に有用な知見を得たり、新たな仕組みやシステムを産み出す可能性が注目されるようになりました。
ＩｏＴ（Internet of Things）
さらに２０１０年後半になると、多くの機器にセンサやＩＣチップを取り付け、ネットワークでデータ収集、解析、制御するＩｏＴの概念が普及しました。これにより、ビッグデータの種類や規模が飛躍的に増大しました。
ＡＩの実用化
２０１０年代後半になると、ＡＩ分野で階層型ニューラルネットワークやディープラーニングなどの技術が実用レベルに達し急速に普及しました。ラージデータを対象にしたデータマイニングが日常的に利用できる環境になったのです。

大量データの体系

分類の切り口が多様ですので、体系化は困難ですが、近年よく用いられる用語を掲げました。

　　データスワンプ　目的も不明確なまま集めた、構造化データ、非構造化データ
　　│
　　│←─┬　データカタログ
　　│　　└　データクレンジング
　　↓
　　データレイク　すべての構造化データと非構造化データを保存できる一元化されたデータの集合
　　　│
　　　├　構造化データ
　　　│　　├　社内基幹系システム
　　　│　　│　　└　データベース
　　　│　　├　社内情報系システム
　　　│　　│　　├　データウェアハウス
　　　│　　│　　└　データマート
　　　│　　└　データ共有
　　　│　　　　　├　オープンデータ
　　　│　　　　　└　データプール
　　　│
　　　├　非構造化データ
　　　│　　└　非構造データベース
　　　│　　　　　　└　テキストマイニング
　　　│
　　　└　構造化・非構造化データ
　　　　　　├　データマイニング
　　　　　　└　ＡＩ・機械学習

これらの多くは既出ですので、それ以外の用語を簡単に説明します。

データスワンプとデータレイク
swampとは（混沌とした）沼地、lakeとは（整備された）湖の意味で用いています。どちらもあらゆる形式の構造化データ、非構造化データの生データをそのまま蓄積したものですが、データスワンプとは元のデータをそのまま蓄積しただけで、欲しいデータを捉えることができない状態をデータスワンプといいます。
それを後述のデータカタログやデータクレンジングなどを行い、信頼できるデータの所在場所や取出し方法を整理することにより、「使える蓄積データ」に整理したのがデータレイクです。
データレイクとデータウェアハウスは、どちらもビッグデータを格納するために広く使用されていますが、データウェアハウスは主として基幹系システムから収集した構造化データを対象にしています。
データプール
データレイクに似た用語にデータプールがります。ここでのpoolとは共有の意味で、主に取引関係先との間で、製品等の共通関心事項に関する情報を共有することを目的としたデータレイクです。共通的な加工手段を前提とするため、一層の標準化が求められます。
データカタログ
データにはビジネスシステムで収集したもの、メールやＳＮＳからのデータ、機器やセンサなどからのデータなど多様なカテゴリのデータがあります。それらを、統一した観点から分類し、何がどこにあるかのインデクスをつけ、メタデータを使用して整理したものです。いわばデータ台帳というようなものです。
データクレンジング
「データ洗浄」の意味です。例えばセンサからの情報では、故障や異常動作による異常値が発生します。統計データでは災害等による欠落や不適切な標本による異常値があります。それをそのまま使うと、偏った統計結果を生じてしまうので、あらかじめ異常値や欠落の修正をすることが必要です。

データサイエンティスト

データサイエンス分野に従事する大学や研究所での研究者やビジネス界で実務応用を行う技術者などです。ビジネス界では次のような活用分野で多様な職種があります。

ビジネス課題を抽出し、データを分析・活用して課題を解決できる人材（データマーケターなど）
統計学、人工知能などの情報科学系の知識を理解し、統計ソフトなどを用いた専門的な分析ができる人材（データアナリストなど）
データ分析を目的とし、プログラミング知識を使ってデータの収集、加工やシステムへの実装、運用ができる人材（データエンジニアなど）

これらの分野は互いに重複していますし、掲げた職種も他分野の能力が必要です。データサイエンティストとして、特に重要な知識・スキルには次の３点が求められます。

統計学等の能力
どの分野でも、高度な統計的解析を必要とします。統計に関する知識が乏しいと、データに潜む貴重な情報を取り出せないし、不適切な処理により誤った解釈をすることがあります。大量データの相互関係を検討するにはＡＩ、、最適値の検討などにはＯＲなどの知識が求められます。
ＩＴ能力
大量で非構造的なビッグデータを組み合わせて、上記のような加工・分析するには、高度なＩＴスキルが必要です。自らの分析のためにソフトウェアを構築するだけでなく、他者の利用のためにユーザビリティを考慮したソフトウェアにする技術も求められます。
ビジネス能力
データサイエンスの活用がビジネスに与える効果、どのような問題にどのような技術を適用するかの判断、得られた情報の吟味と実務適用などを的確に行う能力です。自ら行う能力だけでなく、経営者をはじめ関係者に理解させるコミュニケーション能力や共同作業でのチームワーク能力も求められます。

このような知識・スキルを持つ人材が必要なことは、多くの企業や組織が認めているのですが、深刻な人材不足に悩んでいます。
　その対策として、官民で様々な取組が行われています。国もデータサイエンティストの育成は急務としており、統計局ホームページに統計力向上サイト「データサイエンス・スクール」を開設しています。大学等でもデータサイエンスの講座が設けられているほか、自社内のデータサイエンティストの育成に力を入れる企業やトレーニングコースを設けて外部から受講者を募集する取組みもあります。