本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。
概要
ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する場合、DFTサイズは入力表現の固定次元を指定します。
そのため、ほとんどのオーディオ機械学習モデルは、固定サイズのベクトル入力を処理するように設計されており、異なるサンプリングレートや別の表現を持つオーディオに対して、学習したモデルを再利用することができない場合があります。
そこで、音声信号を特徴空間の点群として扱うという新しい処理方法を導入し、DFTサイズやサンプリングレートなどの表現パラメータの選択に影響されない点群機械学習モデルを使用しています。
さらに、これらの方法ではモデルが小さくなり、入力表現を大幅にサブサンプリングしても、学習したモデルの性能への影響は最小限に抑えられることが分かりました。
Introduction
従来の機械学習モデルは、固定次元の入力を受け取ります。オーディオでは、フーリエ領域から直接得られる表現が最も一般的です。例えば、STFTを得るためには、タスクに応じてDFTサイズやサンプリングレートなどのパラメータを事前に設定します。
従来のフィードフォワード型のニューラルネットワークでは、このようなサイズの異なるベクトルを直接処理することはできません。
このように、収集・学習するデータのDFTサイズやサンプリングレートをコントロールできないシステムを構築するという課題を考えてみましょう。現在の方法では、互換性のないデータを破棄するか、再サンプリングするしかなく、どちらも望ましくありません。
様々な表現方法でデータを処理できるモデルは、より多くの状況からデータを収集し、展開することができます。また、様々な制約を満たすために表現方法を動的に調整することも可能です(例:エッジデバイスのサンプリングレートを調整することでネットワークの帯域幅を縮小したり、特徴空間をサブサンプリングすることで計算量やメモリ使用量を削減したりする)。
本稿では、オーディオの点群の不変的な構造を利用して、点群を直接操作するネットワーク・アーキテクチャを設計しました。
Method (Pointcloud processing)
ネットワーク(Set Transformers)
セットトランスフォーマーの主な構成要素は、2つの入力点群XとYの間のアテンションを計算するマルチヘッドアテンションブロック(MAB)です。アテンションは、softmax(Q - K>) - Vとして計算され、ここでQ、K、Vは学習された変換を介して利用可能な点の投影を表します。これは、位置エンコーダと正則化を省略しています。
続いて、セットアテンションブロック(SAB)は、MABを使用して、入力セットの自己注目度を計算します。
Set Transformerの最後のブロックは、中間表現からの情報を集約する(順列不変性を確保する)ためのプーリングブロックです。セット・トランスフォーマーは、自己注意を使用してすべての点からの情報を集約するマルチヘッド・アテンション・ブロック(PMA)によるプーリングでこれを行います。
Set TransformerのAudio信号への適用
Set Transformerでは、入力を、入力スペクトルの周波数fi(Hz)とそれに対応する大きさmiを含む2次元ベクトルxi = [fi, mi]の点群として表現しますが、ベースラインモデルでは、大きさのDFTベクトルを直接処理します。
学習後、Set Transformerは、特定の周波数帯域内のポイントに注目することを学習し、その情報を上流に渡していることがわかります。
ベースラインでは、固定次元のテンプレートとの内積を計算しているため、入力ベクトルのサイズを柔軟に変更することができません。
その代わり、Set Transformerは、使用するポイントの数やサンプリング方法に関わらず、重要な周波数を「出席」するように学習します。
Experiment
実験方法
本モデルの有効性を検証するために,10クラスの音声分類セットであるESC-10データセットを検討する.
フレームワイズベースライン(FB)モデルとフレームワイズセットトランスフォーマー(FST)モデルの分類器を訓練した.
FSTがFBよりも優れていることを実証するために,次のような実験を行った:
1)入力ウィンドウサイズとサンプリングレートの変化,
2)入力スペクトルのサブサンプリング
実験結果 1)入力ウィンドウサイズとサンプリングレートの変化
各サンプリングレートにおいて、FSTモデルがFBモデルよりも一貫して優れた性能を発揮していることです。
さらに,サンプリングレートを変化させたときの精度の低下はFBモデルの方が大きく,ベースライン表現がサンプリングレートの変化に対してそれほどロバストではないことを示している.
また,FBモデルは窓長を減らすことしかできず増やせないのに比べて,FSTモデルは窓長の増減に対してロバストであることがわかります。
この結果から、入力を点群として扱うことで、学習データとの窓サイズやサンプリングレートの違いを許容できる表現をモデルに学習させることができるという確信を得ることができました。
実験結果 2)入力スペクトルのサブサンプリング
FSTモデルとFBモデルの両方において,ランダムサンプリングは,対応するtop-Kサンプリングよりも優れた性能を示すことがわかる.
さらに,異なる試行間の標準偏差が非常に小さいことから,ランダムサンプリングは,精度の低下を予測しながらスペクトルをダウンサンプリングするのに適した戦略であることが示唆されています.
また、FSTモデルでは非常に興味深い結果が得られました。30%のポイントを維持するだけで、精度の低下はほとんど見られず、入力を分類するために必要なデータを大幅に減らすことができます。
Conclusion
本研究では,オーディオを固定次元の配列ではなく,点の集合として扱うことにより,スペクトル・時空間領域でオーディオを処理する新しい方式を紹介する。
実験により,DFTウィンドウサイズやサンプリングレートなどの処理パラメータの選択に対して相対的に不変であることを実証した。
また,学習可能なパラメータの観点から,より小さなモデルの利点を示し,性能をほとんど落とすことなく入力表現を大幅にサブサンプリングすることができることを示した.
最後に,学習時間を短縮するために,学習中のサブサンプリング戦略を紹介する.このようなモデルでは、サンプリングや分析の設定を一律にしなくても、様々なオーディオソースから推論や学習を行うことができ、これは実世界での展開において大きな利点となると考えています。