【論文紹介】何がSELDを難しくさせるのか？　What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis

本記事では、音響イベントの定位と検出（SELD）というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。

SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。

f:id:ys0510:20200316153857p:plain

ys0510.hatenablog.com

論文概要

SELDはSEDとDOAEの両方のタスクから構成されているため、音源のノイズ、残響、干渉、ポリフォニー、非定常性など、SEDとDOAEの両方から多くの課題を受け継いでいます。また、複数の音が重なっている場合、SEDとDOAEの出力を正しく関連付けるという課題もあります。

SELDが直面している課題をさらに理解するために，2020年と2021年のDCASEチャレンジでチーム部門2位となった2つのSELDシステムを用いて，ポリフォニー，移動音源，クラスとロケーションの相互依存性，クラスごとのパフォーマンス，DOAエラーに焦点を当てて，SELD出力の詳細なエラー分析を行いました．

実験の結果、ポリフォニーがすべての評価指標においてSELDの性能を低下させる主な要因であることがわかり、未知の干渉がSELDの性能を最も低下させる理由が説明できました。

興味深いことに，SELDシステムは，ポリフォニーの場合よりも容易なシングルソースのシナリオを必ずしも好まないことも分かった．むしろ、SELDシステムは、学習データセットの大半を占めるポリフォニックなケースで低いエラーレートを達成した。

Polyphony（複数音源の重なり）の影響

DOAEメトリクスは、ポリフォニーが性能低下の主な原因であることを明確に示しています。

NTU'20とNTU'21の両システムでは、オーバーラップするソースの数が増えるにつれて、LECDincreaseとLRCDが減少しています。

興味深いのは、ポリフォニーが必ずしもSEDの性能を低下させないことです。

この結果は、ポリフォニーに取り組むための1つの可能な解決策は、困難なケースに対してより多くのデータサンプルを導入することであることを示唆しています。

2020年と2021年のセットアップの間でSELDの性能を比較すると、2021年のシングルソースの結果は、すべての指標において2020年の結果よりも著しく悪い。これらの結果は、2021年のデータセットで導入された未知の干渉の有害な影響を示しています。

移動音源の影響

予想通り、動きのあるソースの場合のLECDは、静的なソースの場合のLECDよりも高い。

2020年のデータセットでは、LRCDは両方のケースで似ており、場所に依存しないSEDメトリクスを計算すると、SEDの性能差はなくなります。

これらの結果は、移動する音源はSEDの性能にほとんど影響を与えず、主にDOAEに影響を与えることを示唆しています。

2021年のデータセットでは、単一音源の場合と比較して、移動音源の場合はすべてのメトリクスが良好です。この矛盾した結果は、分布が歪んでいることに起因すると考えられ、評価用のグランドトゥルースが利用可能になった時点で、さらなる調査が必要です。

音源クラスとlocationの影響

場所に依存するSEDメトリクスが検出されたDOAの正しさに依存することを理解するために、異なるDOA閾値T°がER≤T °とF≤T °に与える影響を調査しました。

T = 20°のSEDメトリクスと場所に依存しないT = 180°のSEDメトリクスのギャップは大きくなく、多くの推定DOAが20°の閾値内にあることを示唆している。

しかし、DOAの閾値が10°になると位置依存のSEDメトリクスは急速に悪化し、かなりの数の推定DOAがグランドトゥルースから10°以上乖離していることを示唆している。

分類依存のDOAメトリクスが予測クラスの正しさに依存することを理解するために、分類依存および分類非依存のLEとLDを図3に示します。予測されたクラスを考慮しない場合、LRが大幅に増加し、LEの不要な上昇につながります。

音源クラスごとの性能比較

セグメントごとのクラス分布は非常に歪んでおり、足音クラスが21.2%と最も高く、女性のスピーチが1.3%と最も低い割合となっています。しかし、クラス別のF≤20°スコアはより均等であり、セグメント別の割合が最も高いクラスと最も高いF≤20°スコアは一致していません。

これは，不連続性，低帯域，低エネルギーのため，すべての足音を検出することが難しいためと考えられます。また，クラス別の性能は，SELDモデルと学習サンプルの質に大きく依存します。

興味深いことに，F≤20°のスコアが94.2%と最も高い女性の音声クラスは 94.2%と最も高いF≤20°スコアを持つ女性のスピーチクラスは、セグメント別の割合が最も低いという結果になりました。他のクラスノックや男性のスピーチなどの他のクラスも、セグメントごとの割合が低いにもかかわらず、高いF≤20°のスコアを持っています。セグメント別の割合が低いにもかかわらず、高いF≤20°スコアを示しています。