自然言語処理（Natural Language Processing）

キーワード

自然言語処理、機械可読辞書、コーパス、形態素解析、構文解析、意味解析、文脈解析

自然言語処理の概要とその周辺

自然言語処理とは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことです。
　その代表的な応用分野には、次のようなものがあります。
　　・漢字変換
　　・情報抽出
　　・自動要約
　　・情報検索
　　・機械翻訳

人工知能との関係: 自然言語処理は人工知能の大きな一分野です。人工知能の分野には、キーボードでのかな（ローマ字）漢字変換や、音声認識と組み合わせて自動返答、大量の文献を分析して問題への解答探索など、自然言語の処理をベースにした分野が多くあります。
テキストマイニングとの関係: テキストマイニングとは、大量の文章データ（非構造化・定性データ）から、有益な情報を取り出す技術の総称です。テキストマイニングが応用分野を主とする用語なのに対して、自然言語処理は、その基礎的な技術を主とした用語です。

自然言語処理

自然言語処理は、
　１．形態素解析
　２．構文解析
　３．意味分析
　４．文脈解析
の順序で行われます。

これらの処理において、中核的な言語資源となるのが機械可読辞書とコーパスです。

機械可読辞書（ＭＲＤ：Machine Readable Dictionary）: コンピュータが語彙を理解するときに必要な辞書のことで、人間の用いる辞書と似ていますが、言語処理に用いることを前提として編集されています。名詞辞書、動詞辞書、形容詞辞書などが作成されています。
コーパス（Corpus）: 言語の使用方法を記録・蓄積した文書集合のことで「用例」のようなものです。自然言語の文章などの使用方法を構造化して大規模に集め、記録したものです。

形態素解析（Morphological Analysis）

形態素とは、文字で表記された自然言語の文において、意味を持つ最小の言語単位のことです。
　次の順序で解析します。
　　１　形態素で分割（わかち書き）
　　２　形態素ごとに品詞を付与
　　３　形態素ごとに語形変化の解析

「大きなきれいな瞳の少女にときどき会った」を例にします。

　　大きな　きれいな　瞳　　の　　少女　に　　ときどき　会った
　　形容詞　形容詞　　名詞　助詞　名詞　助詞　副詞　　　動詞

構文解析（Parsing）

単語同士の関係性を解析する作業です。主に二つの表現方法があります。文法的に考えられる構造をすべて挙げていきます。

依存構造解析（係り受け解析）: 例１：「大きな」は瞳にかかる
　　　　┌───────┐
　　　　│　　　┌───┤
　　　　│　　　│　　　↓
　　　大きな　きれいな　瞳　の　少女
　　　　　　　　　　　　│　│　↑
　　　　　　　　　　　　└─┴─┘
句構造解析: 構文木と呼ばれる表現方法を用います。
例２：「大きな」は少女にかかる。

例３：「大きな」も「きれいな」も少女にかかる　もあり得ます。

意味解析（Semantic Analysis）

構文解析の段階では、一つの文に対して解釈の仕方が複数存在することになります。意味解析では、機械可読辞書とコーパスを参照して正しい解釈を選択します。
　上の例での例３は、形容詞がない「瞳の少女」がコーパスと矛盾するならば、例３は廃棄されますが、おそらく例１と例２は残るでしょう（例１のほうが合致度が大？）。

文脈解析（Context Analysis）

このように、同じ文章でも文脈によって異なる意味を持つことがあります。文脈解析では、この文の前後も対象にします。これに続いて、「その後、彼女は目薬のモデルに採用された。」があれば「大きい瞳」のほうが「大きい少女」よりも確率が高くなるでしょうし、「小柄なことがむしろかわいさを増した。」があれば例１が決定的になります。
しかし、この処理はかなり複雑になり、精度の高い意味解析を実現するためには、大量のデータでディープラーニングさせる必要があるかもしれません。

人工知能（ＡＩ）へ