Web教材一覧システムの活用

ビッグデータとテキストマイニング


ビッグデータとは

ビッグデータ(big Data)とは、大量データを収集・保管して、分析することにより価値のある情報を入手する技術や活用分野です。
 主に数値情報を対象としたデータウェアハウスやデータマイニングなどを含むこともありますが、むしろ、文章データのような非定型的なデータや音声・画像などを含むデータの分析、個々には定型的データではあるが多様な形式のデータを組み合わせる分析を対象にしています。

「大量」データの大きさの定義はありません。その大きさの定義はなく、企業環境によりまちまちです。巨大なものでは数百TB(テラバイト、1兆バイト)のものを指すこともありますし、用途によってはギガバイト程度のものも対象にすることがあります。

ビッグデータシステムに求められる技術

データ分析技術

データ処理技術

テキストマイニング

大量の文章データ(テキストデータ)を分析して、価値のある情報を取り出すことをテキストマイニングといいます。定型化した数値データを対象としたデータマイニングと区別したものです。
 ビッグデータシステムの最も基本的な技術です。

通常の検索エンジン(キーワード検索)では、大量のテキストデータを特定の語句(キーワード)で検索します。テキストマイニングも検索エンジンと同じ機能をベースにしていますが、それよりも複雑な機能が必要になります。