自然言語処理、機械可読辞書、コーパス、形態素解析、構文解析、意味解析、文脈解析
自然言語処理とは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことです。
その代表的な応用分野には、次のようなものがあります。
・漢字変換
・情報抽出
・自動要約
・情報検索
・機械翻訳
自然言語処理は、
1.形態素解析
2.構文解析
3.意味分析
4.文脈解析
の順序で行われます。
これらの処理において、中核的な言語資源となるのが機械可読辞書とコーパスです。
形態素とは、文字で表記された自然言語の文において、意味を持つ最小の言語単位のことです。
次の順序で解析します。
1 形態素で分割(わかち書き)
2 形態素ごとに品詞を付与
3 形態素ごとに語形変化の解析
「大きなきれいな瞳の少女にときどき会った」を例にします。
大きな きれいな 瞳 の 少女 に ときどき 会った
形容詞 形容詞 名詞 助詞 名詞 助詞 副詞 動詞
単語同士の関係性を解析する作業です。主に二つの表現方法があります。文法的に考えられる構造をすべて挙げていきます。
例3:「大きな」も「きれいな」も少女にかかる もあり得ます。
構文解析の段階では、一つの文に対して解釈の仕方が複数存在することになります。意味解析では、機械可読辞書とコーパスを参照して正しい解釈を選択します。
上の例での例3は、形容詞がない「瞳の少女」がコーパスと矛盾するならば、例3は廃棄されますが、おそらく例1と例2は残るでしょう(例1のほうが合致度が大?)。
このように、同じ文章でも文脈によって異なる意味を持つことがあります。文脈解析では、この文の前後も対象にします。
これに続いて、「その後、彼女は目薬のモデルに採用された。」があれば「大きい瞳」のほうが「大きい少女」よりも確率が高くなるでしょうし、「小柄なことがむしろかわいさを増した。」があれば例1が決定的になります。
しかし、この処理はかなり複雑になり、精度の高い意味解析を実現するためには、大量のデータでディープラーニングさせる必要があるかもしれません。