はじめに
本記事では、「環境音セグメンテーション」というタスク・手法を紹介します。
簡単にいうと画像のセマンティックセグメンテーションを音に適用したものと考えるとイメージしやすいかと思います。
もちろん、ただ単にセマンティックセグメンテーション手法を流用しただけというわけではなく、問題意識なども異なりますので、それらにも触れつつ環境音セグメンテーションについて説明します。
環境音セグメンテーション概要
論文であれば、現状の課題や問題意識から入りますが、イメージを掴んでいただくために、環境音セグメンテーションの概要を説明します。
以下の図は環境音セグメンテーションの概要を示しています。短時間フーリエ変換によって得られるスペクトログラムを画像と見立て、クラスごとにセグメンテーションを行うというタスクです。
背景・目的
論文と順番が前後しますが、なぜ環境音セグメンテーションのようなフレームワークが必要なのか説明します。
環境音を使う必要性
近年、以下の図左に示すように、画像やポイントクラウドを用いた環境認識技術が多数提案され、自動運転やロボットに適用されてきています。
これらの手法は実用化が進んできていますが、陰に隠れている物体や動きのないイベント(銃声、話し声など)を認識することができません。
図右のように、家庭内の環視ロボット等のアプリケーションを想定すると、音データを使うことで、画像では認識することのできないイベントを認識することが可能となります。
音を使った環境認識の課題
では、音を使った環境認識の課題は何でしょうか。
実環境では、周囲のノイズが大きいため、ノイズ抑圧等の処理を複数行う必要があります。代表的な処理フローを以下の図に示します。
実環境では、四方八方からノイズが到来するので、目的音の音源方向を定位し、目的音だけを分離した後、認識アルゴリズムを実行する必要があります。
このように、従来のフレームワークでは、各機能ブロックがカスケードに接続されているため、各ブロックで発生した誤差が蓄積してしまうということが課題としてあります。
例えば、仮に各ブロックの性能が90%であったとしても、全体としての性能は、
90%×90%×90% = 72%
となってしまいます。
そこで、従来個別に評価・開発が行われてきたフレームワークに対し、以下の図のように、これらのブロックを統合して扱う「環境音をセグメンテーション」というタスクを定義し、研究を行っております。
提案手法および結果
詳細は省略しますが、深層学習を用いた環境音をセグメンテーション手法を提案しました。深層学習モデルも既存のものに改良を加えました。
一番右が提案手法の結果を示していますが、従来のカスケード手法や既存の深層学習モデルに比べ、高精度にセグメントできていることがわかります。
すなわち、提案した統合フレームワークである「環境音をセグメンテーション」手法は、誤差の蓄積を防ぐことができ、また、従来の深層学習モデルよりも高精度に環境認識を行うことができたといえます。
まとめ
本記事では、「環境音をセグメンテーション」というタスクの紹介を行いました。