社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【論文紹介】重なり合う音響イベントの方向と近接度の同時分類 Joint Direction and Proximity Classification of Overlapping Sound Events from Binaural Audio

本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。

 

arxiv.org 

 

論文概要

 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近接性と方向性の共同推定を実行するいくつかの方法を調べることを目的としています。

バイノーラルオーディオの限界を考慮して、方向クラスのセットを得るために、球を角度領域に分割する2つの方法を提案する。

それぞれの方法について、到来方向(DoA)に関する情報を取得するための異なるモデルタイプを検討する。

最後に,近接度推定と方向推定の問題を,出現する音源のオンセットとオフセットに関する時間的な情報を提供する共同タスクにまとめるための様々な方法を提案する.

 

Introduction

音源距離と到来方向は,ともにマイクロホン間の空間情報から推定されますが,前者はアレイサイズの数倍の距離では推定が困難なため,あまり研究されていません.両耳定位の場合、この領域はリスナーから1メートル程度までの範囲であり、音源がリスナーに近接しているかどうかを理解することは、多くのアプリケーションで依然として関心事となっています。

 

両耳定位や距離推定に関する初期の研究では,両耳の手がかりを用いた統計的手法に焦点が当てられてきた.しかし,チャネル間のバイノーラル手がかりには,混信効果のために仰角に固有の曖昧さがあるため,定位と距離推定の共同研究のほとんどは,方位面のみに焦点を当てている.

 

本論文では,バイノーラル音声から近接情報と方向情報を同時に得るための手法を提案する.

ここでは,両問題を粗い分類タスクとして扱い,近接性は,近いか遠いかの二値で記述する.方向に関しては,左,右,前,後,上,下という大まかなクラスを得るために,球体を角度のある領域に分割する2つの方法を提案する.

 

本研究の第1部では,シングルラベルとマルチラベルのアプローチを用いて,方向分類を行ういくつかの方法を調査する.

第2部では、近接分類と方向分類のタスクを組み合わせるためのさまざまな手法を検討します。

 

Method

音源の空間的な情報処理と時間的な検出を同時に行うために,畳み込み型リカレント・ニューラル・ネットワーク(CRNN)アーキテクチャを利用しています。

 

モデルの学習には、3種類の特徴表現を用います。まず,40msの長さのハミング窓と50%のオーバーラップで短時間フーリエ変換を行い,複素スペクトログラムを計算します。次に,両耳のチャンネル間の位相差を表現するために,両耳間の位相差のサインとコサインの値(sin&cos)を計算します。さらに,我々は耳間レベル差(ILD) を利用する。

2 番目の主要な両耳定位の手がかりである到着時間差は、1kHz 以下の周波数で主に支配的であり、特徴ではそれに関連する位相差で表される。耳の中のレベル差は、音源に関連したマグニチュードパターンを平坦にしてしまう可能性があります。そのため,この欠点を補うために,1つのマグニチュード・スペクトログラムが追加され,合計4つの特徴チャンネルとなっています。

 

arXiv:2107.12033v1 [cs.SD] 26 Jul 2021

Experiment

近接性は,近距離と遠距離の2つのクラスで表されます。初期の実験では、2つのクラスの境界に現れる音源の問題を避けるために、1mのバッファゾーンを追加しました。したがって,遠いクラスは3mから上の距離をカバーしています.方向タスクは、DoAの6つの基本的な範囲(左、右、上、下、前、後ろ)に対応する、粗いクラスのセットに対して定義されます。

 

 

実験では、近接性と方向性の分類の共同モデリングを調査しました。この2つのタスクのうち、方向の分類は、そのより複雑な性質とバイノーラル録音の空間的制限のために、より難しいと思われます。そこで、実験を2つの連続したステージに分けました。


1. 方向の分類。この段階では,方向の分類について個別に検討します.この段階では、両方の球体分割を利用し、シングルラベルとマルチラベルのアプローチでタスクを実行するいくつかの方法の性能を比較します。


2. 近接と方向の合同分類。ここでは、前のステップで分析されたソリューションを近接分類と組み合わせます。この共同タスクは、不均等な球体分割ではシングルタスクとして実行され、両方の分割バリエーションではマルチタスクアプローチを使用して実行されます。

Conclusion

本論文では,重複する音イベントの時間的なオンセットとオフセットの検出に合わせて,近接と方向の合同分類を行うシナリオを検討する.我々は、全球を方向クラスの粗いセットに分割する2つの方法を提案し、そのために分類を実行するシングルラベルとマルチラベルのアプローチを提案する。最後に、近接分類と方向分類のタスクを共同で実行するためのいくつかの方法を提示する。

方向分類問題に取り組む際の主な課題は、混乱の円錐の影響を最も受けやすい上/下、前/後の平面に現れます。我々の実験では、提案されたマルチラベルアプローチとクラスの半球分割により、これらの方向のF1スコアを大幅に向上させることができました。この場合、独立した出力シーケンスを分離した領域に結合することは別の問題になる可能性があり、今後の研究課題となる。最後に,近接分類と方向分類を同時に行うことで,両方の問題で性能を大きく低下させることなく実現でき,マルチタスクアプローチが最も効率的であることを示した.