【音声による感情認識】深層学習を用いたアレクサの感情認識について解説

今回は、アマゾンエコーに搭載されているAlexaの開発チームによる、Speech Emotion Recgnitionについて書きます。リンク先のニュースでも紹介されているようにアレクサは今後さらに感情表現や認識ができるようになっていくだろうと思います。

https://forbesjapan.com/articles/detail/30999

そこで、2019年6月に開催された、「Amazon Re: MARS」というワークショップにてプレゼンされていたSpeech Emotion Recgnitionについて、以下のyoutube動画をもとに勉強しましたので、解説してみようと思います。図はリンク動画から引用させていただきました。

https://www.youtube.com/watch?v=26_qiXEa8lw

なぜ感情認識が必要なのか？

この動画では具体的には語られていませんでしたが、人間はAI対して、かなり自分の感情を表現するようです。たしかに、ソニーのAiboのようなコミュニケーションができるロボット近年売れていると聞いたことがあります。したがって、よりよいコミュニケーションを実現するために、AIは感情を認識できるようにならなければならないとのことです。

また、いわゆるコミュニケーションとまではいきませんが、運転中の疲労検知も感情認識に関連する重要な技術で、一部導入されていますね。

感情認識の定義

では、感情認識をするといっても、AIのような機械がそれを行うためには、ちゃんとした定義が必要ですが、どういった形で出力すれば適切に感情を認識できたといえるのでしょうか。

よく使われているのが以下の図左側のように、怒り・幸せ、悲しみなどのようにいくつかのクラスに分類する手法があるそうです。しかし、この手法の問題点は、Anger(怒り）とDisgust(嫌悪）のように非常に似た感情があり、必ずしもきれいに分類できる場合ばかりではない点です。

図右はそれをValence、Activation、Dominanceという3次元空間で感情を定義しようというものです。3つの軸が何を表しているのか、抽象的で理解が難しいですが、この感情次元という手法を使うことで、図左のような感情に対し、程度も表現することが可能になります。

以下の図は、感情次元で表現された感情の例です。AngerとDisgustといった似た感情も適切に表現できています。また、同じHappinessであったとしても、その感情がどの程度強いのかといったことも表現することができます。デメリットとしては、AIに学習させようと思った際に、これらの教師データを作成する手間が非常にかかる点だそうです。