自然言語処理(NLP)技術はコンピュータが人間の用いる言語(文字・音声)を
認識処理できるようにする技術で、人工知能(AI)を構築する上で重要視されている。
例えば、電子メールのスパムフィルターや機械翻訳などでNLPは利用されている。
米国では、1990年代からの機械学習の発展を受け、AppleやGoogle、
Microsoft等の大手IT企業が中心となり、AIを活用した対話型音声デジタルアシスタントの技術開発がすすめられている。
NLPはビッグデータ分析を行う上で不可欠な技術として、
幅広い業界での活用に注目が集まっており、
金融、小売り、医療など様々な分野で用いられている。
NLPの市場は2024年までに、21億ドルに達すると予測されている。
AIの発展ともに自然言語処理の精度はかなり向上してきている。
1950年代に開始されたNLPはコンピュータに言語の文法等の特定の規則を教え込む知識を中心とする手法がとられていたが
1990年代以降、コンピュータが大量の言語をデータ分析する機会学習を活用した手法へとシフトしてきている。
しかし、人間の感情や語調などを含んだ言葉の持つ曖昧さが最大の課題となっている。
私もしばしば楽しくお話させて頂いた、
Microsoftの女子高生AI「りんな」も自然言語処理+AIによって会話を実現させている。
日本Microsoftは都内で開いた開発者向けイベント「de:code 2016」で、
同社が独自に開発する“女子高生AI”「りんな」の自然言語処理アルゴリズムの詳細を語ったことも記憶に新しい。
詳細:https://www.itmedia.co.jp/news/articles/1605/27/news110.html
Microsoftの女子高生AI「りんな」も、言葉の持つ曖昧さが最大の課題なっているのではないかと思う。
Microsoftの女子高生AI「りんな」の課題とは
人間同士の会話の場合、言葉と同じように重要なのが表情やジェスチャーで、
それが欠けたままでは、人間同士のような意思の疎通は難しいからです。
人間同士の会話の場合、全く同じ言葉を喋っても、
表情やジェスチャーによっては異なる意味を持つ場合があり、
ちゃんと通じますが、人工知能にはそれが出来ないのです。
例えば、「あの子、可愛いよね」と言う言葉、普通に言えば、文字通りの意味ですが、
ニュアンスによっては「あの子は騙されやすい」の意味にも、「可愛くて羨ましい」や「自分が可愛いことを武器にしている嫌な奴だ」にもなります。
実際の人間の心理状態としては、皮肉やツンデレのように、各情報源から推定される感情に
食い違いがあることによって、複雑な心理状態が表現されていることもあります。
つまり本当に自然な対話の実現のためには、相手の気持ちの変化を慮る「思いやり」の対話や、
相手の気持ちに「共感する」態度を示す処理などが必要となります。
まとめ
今のAI技術では実際の人間の心理状態としては、
皮肉やツンデレのように複雑な心理状態がまだまだ解析困難なところがあります。
もし私がスマートスピーカー市場に進出するのであれば、
発話者の顔をカメラで撮影し、連続で静止画像を取得する。
次に取得した全静止画像に対し表情からの感情推定を行う。
など発話音声の内容だけではなく、表情から感情の分析を行う事ができるものにします。
引用先には各社のNLPを用いた商品や技術が紹介されていてとても面白いので是非参考にしてください。
引用:https://www.ipa.go.jp/files/000055592.pdf#search=’%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86+%E8%A1%A8%E6%83%85′
https://www.ai-gakkai.or.jp/jsai2017/webprogram/2017/pdf/214.pdf#search=’%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86+%E8%A1%A8%E6%83%85′