Web教材一覧ハードウェアとソフトウェア人工知能(AI)

自然言語処理(Natural Language Processing)

キーワード

自然言語処理、機械可読辞書、コーパス、形態素解析、構文解析、意味解析、文脈解析


自然言語処理の概要とその周辺

自然言語処理とは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことです。
 その代表的な応用分野には、次のようなものがあります。
  ・漢字変換
  ・情報抽出
  ・自動要約
  ・情報検索
  ・機械翻訳

人工知能との関係
自然言語処理は人工知能の大きな一分野です。人工知能の分野には、キーボードでのかな(ローマ字)漢字変換や、音声認識と組み合わせて自動返答、大量の文献を分析して問題への解答探索など、自然言語の処理をベースにした分野が多くあります。
テキストマイニングとの関係
テキストマイニングとは、大量の文章データ(非構造化・定性データ)から、有益な情報を取り出す技術の総称です。テキストマイニングが応用分野を主とする用語なのに対して、自然言語処理は、その基礎的な技術を主とした用語です。

自然言語処理

自然言語処理は、
 1.形態素解析
 2.構文解析
 3.意味分析
 4.文脈解析
の順序で行われます。

これらの処理において、中核的な言語資源となるのが機械可読辞書とコーパスです。

機械可読辞書(MRD:Machine Readable Dictionary)
コンピュータが語彙を理解するときに必要な辞書のことで、人間の用いる辞書と似ていますが、言語処理に用いることを前提として編集されています。名詞辞書、動詞辞書、形容詞辞書などが作成されています。
コーパス(Corpus)
言語の使用方法を記録・蓄積した文書集合のことで「用例」のようなものです。自然言語の文章などの使用方法を構造化して大規模に集め、記録したものです。

形態素解析(Morphological Analysis)

形態素とは、文字で表記された自然言語の文において、意味を持つ最小の言語単位のことです。
 次の順序で解析します。
  1 形態素で分割(わかち書き)
  2 形態素ごとに品詞を付与
  3 形態素ごとに語形変化の解析

「大きなきれいな瞳の少女にときどき会った」を例にします。

  大きな きれいな 瞳  の  少女 に  ときどき 会った
  形容詞 形容詞  名詞 助詞 名詞 助詞 副詞   動詞

構文解析(Parsing)

単語同士の関係性を解析する作業です。主に二つの表現方法があります。文法的に考えられる構造をすべて挙げていきます。

依存構造解析(係り受け解析)
例1:「大きな」は瞳にかかる
    ┌───────┐
    │   ┌───┤
    │   │   ↓
   大きな きれいな 瞳 の 少女
            │ │ ↑
            └─┴─┘
句構造解析
構文木と呼ばれる表現方法を用います。
例2:「大きな」は少女にかかる。

例3:「大きな」も「きれいな」も少女にかかる もあり得ます。

意味解析(Semantic Analysis)

構文解析の段階では、一つの文に対して解釈の仕方が複数存在することになります。意味解析では、機械可読辞書とコーパスを参照して正しい解釈を選択します。
 上の例での例3は、形容詞がない「瞳の少女」がコーパスと矛盾するならば、例3は廃棄されますが、おそらく例1と例2は残るでしょう(例1のほうが合致度が大?)。

文脈解析(Context Analysis)

このように、同じ文章でも文脈によって異なる意味を持つことがあります。文脈解析では、この文の前後も対象にします。 これに続いて、「その後、彼女は目薬のモデルに採用された。」があれば「大きい瞳」のほうが「大きい少女」よりも確率が高くなるでしょうし、「小柄なことがむしろかわいさを増した。」があれば例1が決定的になります。
しかし、この処理はかなり複雑になり、精度の高い意味解析を実現するためには、大量のデータでディープラーニングさせる必要があるかもしれません。


人工知能(AI)へ