ビッグデータとは
ビッグデータ(big Data)とは、大量データを収集・保管して、分析することにより価値のある情報を入手する技術や活用分野です。データそのもの、加工の技術、応用分野などを指します。
ビッグデータの特徴(3V)
- データ量(Volume)
「大量」の定義はなく、対象環境によりまちまちです。巨大なものでは数百TB(テラバイト)やPB(ペタバイト)のものを指すこともありますし、用途によっては数TB程度のものもあります。
- 多様性(Variety)
文章、音声、画像データなど多様な形式、非構造的な形式のデータも対象にします。
- 発生頻度(Velocity)
静的に蓄積されているデータだけでなく、WebページやSNSなどに投稿される情報も対象になります。災害観測からのセンサ情報、道路状況の情報なども対象になります。
ビッグデータの適用例
- 地域全体の電力消費状況を把握して、適切な節電計画や緊急時対策などの策定に役立てる(スマートグリッド、次世代送電網)。同様にガス、水道、交通などライフラインの分野で適用する。このように、広域を対象に総合的に適用することをスマートシティという。
- 大量の医療データや薬品データを分析して、新薬の開発、予防や治療の方法などに役立つデータを得る。
- 気象、ゲノム、天文、素粒子など自然科学の分野では、膨大なデータを取り扱うことが多い。
- 不正アクセスやウイルス対策には、トランザクションデータをリアルタイムに把握して分析して、攻撃を検出し対応を迅速に行なう。
- ビジネスでは、自社へのメールやSNSなどに寄せられる評判やクレームなどを分析して、品質改良の手段にしたり、マーケティングに生かしたりする。
- コールセンターで、顧客からの電話の音声を分析して顧客の感情を理解したり、テキストに変換することができる。
- 犯人追跡には、監視カメラや主要道路のNシステムから送られてくる大量な画像データから犯人を特定する。
- 気象予測では、多様な観測機器(人も)から送られてくる多様な形式のデータを組み合わせて気象予測を行う。
ビッグデータシステムに求められる技術
データ分析技術
- 音声から性別や年齢、感情などを特定、画像から特定の人物を特定するパターン認識技術
- 音声から文章データに変換する技術
- 非定型の文章データから情報を取り出す技術
これをテキストマイニングといいます。後述します。
- 近年は、AI(人工知能)とビッグデータを組合わせたディープラーニングが注目されている。
データ処理技術
- 保管:多様なデータを1か所に集めることが困難な場合があります。1種類のデータであっても大量のデータを一つのハードウェアに保管するのは不適切な場合があります。
そのため分散データベースでの取り扱いが必要になります。
- 処理速度:大量データの複雑な処理を、しかも分散環境で、短時間(リアルタイムが要求されることもある)で処理するには高速な処理速度が必要である。それには、高速ネットワーク、高速ハードウェアの導入とともにソフトウェアの工夫が必要になる。
テキストマイニング
大量の文章データ(テキストデータ)を分析して、価値のある情報を取り出すことをテキストマイニングといいます。定型化した数値データを対象としたデータマイニングと区別したものです。
ビッグデータシステムの最も基本的な技術です。
通常の検索エンジン(キーワード検索)では、大量のテキストデータを特定の語句(キーワード)で検索します。テキストマイニングも検索エンジンと同じ機能をベースにしていますが、それよりも複雑な機能が必要になります。
- キーワードを与えるのではなく、テキストデータに含まれる単語の出現頻度や相関関係を調べることが大きな機能です。それによりキーワードを見つけることができます。そのため、通常の自然文を単語に分解し、名詞、動詞、形容詞などの種分けをする処理(形態素解析)が必要です。
- キーワード間の関係、類似語、反意語、上位語との関係、時系列あるいはデータ作成者(発言者)などでの分類などを組み合わせる処理になります。
- そのような処理により、なんらかの数値化ができたら、データマイニングのような多変量解析などの統計学の処理をすることもあります。
データレイク
レイクとは「湖」のことです。多数の川から、魚や水草、鉱物など多様な資源が流れ込んできます。そのように、多数のソースからのビッグデータは多様性をもっています。それを元のままの多様な形式で保持し管理しするリポジトリです。多数の人が自分のニーズに合わせて自在に検索・加工・編集するのを支援することが目的です。
この用途には、以前からデータウェアハウスがありましたが、データウェアハウスでは2次元あるいは多次元の構造的データに限定されていました。それを多様な形式のデータに広げようという考え方です。
- データを元のままで管理するので、加工方法を限定せず、より広い用途に適用できます。
- 分散処理技術の進歩により、物理的に一か所に集約する必要がなくなりました。その参照情報だけを集中管理すればよいことになります。
しかし、ただ放り込んだだけのデータでは検索や加工に手間がかかったり、データの精度や信頼性もあいまいです。そうした状態をデータスワンプ(データの沼地)といいます。沼地を湖にするために、次のような手段が必要になります。
- データカタログ:データそれぞれにタイトルや概要、出所、鮮度やファイル形式といったメタデータを付与します。
- テキストマイニングや画像認識、AIなどの非構造的データの加工ツールがありますが、それらとデータカタログを関係づけ、典型的な加工処理は非専門家でも使える環境を整えます。