【深層学習】アレクサによる音を使った防犯機能解説（Alexa Guard）～CNNとRNNを組み合わせたCRNNによる音響イベント検出～

以前の記事で、アレクサにも使われていると思われる、音響イベント検出というディープラーニング技術について解説しました。

ys0510.hatenablog.com

当時は、アレクサの中身を知っているわけではなかったので、具体的にどのようなアルゴリズムが使われているかまではわかりませんでしたが、2019年6月に開催された、「Amazon Re: MARS」というワークショップの講演動画がyoutubeに上がっていました。

今回は、リンクの動画を参考に、調査した内容を以下にまとめます。図は動画から引用させていただきました。

こちらの動画では、Alexa Guardに使われている音響イベント検出についての説明されています。

Alexa Guardとは

アマゾンエコーに搭載されているアプリケーションの名前で、ユーザーが外出中に、家の中の見守りを行ってくれます。

具体的には、ガラス破損音や火災報知機のアラームなどの異常音を検知し、スマホにお知らせしてくれたりします。検出された音データは10秒間録音されており、スマホから実際に聞くことでき、実際に何が起こったのか、自分の耳で確かめることができます。

この機能を実現するために使われている技術が音響イベント検出です。ここから、音響イベント検出とは何か、どういったAI技術なのか説明していきます。

音響イベント検出とは

音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。

図の下側のように、「○○秒～○○秒にギターの音が鳴っている」といったことが、自動で分かるようになります。

近年はディープラーニングを用いた手法が主流となっており、中でも、CNNとRNNを組み合わせたCRNNというネットワークが高い性能を示すことが報告されています。CRNNの詳細は以下のリンクを参照ください。

ys0510.hatenablog.com

Alexa Guardのシステム構成

では、Alexa Guardはどのような構成になっているでしょうか。全体の構成は以下の図の通りで、大きく3つの構成からなっております。

①エッジデバイス（アマゾンエコー）

常時音データを監視し、疑わしい音響イベントの検知を行います。エッジデバイスは、最低限のメモリや計算能力しか持っていないので、計算負荷の高い深層学習は使うことができません。またメモリ節約のため、検知されたイベント区間のみクラウドに送信し、それ以外の音データは破棄します。

②クラウドコンピュータ

エッジデバイスで検出されたイベント区間の音データを受信します。ガラス破損音のような重大な事象を誤検知することは好ましくないので、音響イベント検出の精度は高い必要がありますが、エッジデバイスに高精度な計算負荷の高い深層学習モデルは実装できません。そこで、クラウド上で、再度、高精度な音響イベント検出を実行し、エッジデバイスで検出されたイベントが正しいかどうかを判定します。

クラウドコンピュータにおいても、音響イベントが検出された場合、ユーザのスマートフォンに通知されます。

③ユーザのスマートフォン

検出された音響イベントとともに、録音された音データを聞くことができます。ユーザの耳で実際に何が起こったかを最終判断します。