Web教材一覧システムの活用

ビッグデータ


ビッグデータとは

ビッグデータ(big Data)とは、大量データを収集・保管して、分析することにより価値のある情報を入手する技術や活用分野です。データそのもの、加工の技術、応用分野などを指します。

ビッグデータの特徴(3V)

ビッグデータの適用例

ビッグデータシステムに求められる技術

データ分析技術

データ処理技術

テキストマイニング

大量の文章データ(テキストデータ)を分析して、価値のある情報を取り出すことをテキストマイニングといいます。定型化した数値データを対象としたデータマイニングと区別したものです。
 ビッグデータシステムの最も基本的な技術です。

通常の検索エンジン(キーワード検索)では、大量のテキストデータを特定の語句(キーワード)で検索します。テキストマイニングも検索エンジンと同じ機能をベースにしていますが、それよりも複雑な機能が必要になります。

データレイク

レイクとは「湖」のことです。多数の川から、魚や水草、鉱物など多様な資源が流れ込んできます。そのように、多数のソースからのビッグデータは多様性をもっています。それを元のままの多様な形式で保持し管理しするリポジトリです。多数の人が自分のニーズに合わせて自在に検索・加工・編集するのを支援することが目的です。
 この用途には、以前からデータウェアハウスがありましたが、データウェアハウスでは2次元あるいは多次元の構造的データに限定されていました。それを多様な形式のデータに広げようという考え方です。

しかし、ただ放り込んだだけのデータでは検索や加工に手間がかかったり、データの精度や信頼性もあいまいです。そうした状態をデータスワンプ(データの沼地)といいます。沼地を湖にするために、次のような手段が必要になります。