本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。
概要
会議の自動採録には,オーバーラップした音声を処理する必要があり,連続音声分離(CSS)システムが求められている。
ニューラルネットワークによる音源分離のために提案されたuPITでは、話者の総数が出力チャンネル数を超えてはならないという制約がある。
本論文では、出力チャンネルへの発話の割り当てを、グラフ着色問題に置き換える手法を提案する。
このシステムは任意の数の話者と任意の長さのセグメントを処理することができ、より多様なシナリオに対応できるようになった。
会議形式のWSJデータを用いた実験では、uPIT基準を用いた場合よりも認識性能が向上した。
Introduction
会議は任意の長さ、任意の数の話者を含むことができるため、連続音声分離(CSS)、すなわち、任意の長さの音声ストリームを処理することが必要となる。
CSSは、入力をセグメント化し、そのセグメントを独立して処理することで実現できる。隣接するセグメントは,類似性尺度を用いて整列され,いわゆるスティッチング処理が行われる.
会議に参加する話者の総数Kはもっと多いかもしれないが,ソースセパレータの出力チャンネル数は,例えばN=2に固定できることが示された.これは、十分に小さいセグメントを選択すれば、通常はKに関係なく、その短いセグメントに登場する話者の数はNと同等かそれ以下になると考えられるからである。
逆に言えば、UPITという制約がセグメントサイズを実質的に制限していることになる。CHiME-5[14]の評価データセットでは、2.4秒という比較的短いセグメントサイズの例でも、22%以上のセグメントに2人以上の話者が含まれている。さらに、会議全体に適用したり、訓練したりすると、UPITの制約を満たすことができない。
本論文では,上記の制約を緩和したuPITの一般化(K ≤ N)を提案する.この一般化は,異なる話者が重ならない限り,同じ出力チャネルに配置することができるという考えを取り入れることで達成される.我々は、発話を出力チャンネルに割り当てる問題を、グラフ着色問題として再定式化し、Graph-based Permutation Invariant Training (GraphPIT)と名付けた。
GraphPITでは、同時発話者の数が出力チャンネルの数を超えないようにすればよい。CHiME-5の評価データセットを見ると、N = 2の場合にこの制約が破られたのは、uPITの制約が22%であったのに対し、9%にとどまっている。
スティッチングベースのCSSシナリオでは、提案されたGraphPITは、一度にN人以上の話者が話さない限り、任意の長さのセグメントと、セグメント内の任意の数の話者を可能にするものである。さらに、セグメンテーションやスティッチングを伴わない一般的なCSSシナリオでは、Graph-PITは理論的に、あらゆる文脈情報を利用できるセパレータで会議全体をモデル化することができる。
Graph-based meeting-level PIT
対象となる発話を出力チャンネルにマッピングすることで,重なり合った発話を分離することができる.このようなマッピングを見つけることは,グラフの彩色問題と同等である.
各発話を頂点としてモデル化し,重なり合う発話の間にエッジを描く場合,このグラフのすべての適切なN-頂点彩色のセットは,発話から出力チャンネルへのマッピングのセットと等しい.N-vertexcoloringは,各頂点にN個の色の集合から色を割り当て,連結された頂点が異なる色になるようにするものである.
図では,ある話者の活動パターンを想定して,グラフGとターゲット発話の出力チャンネルへの可能なマッピング,すなわちカラーリングの例を描いている.
Graph-PITは、話者が2人だけの連結グラフであれば、uPITと等価である(図(a))。
グラフが複数の連結成分で構成されている場合(K≦Nと仮定)、uPITは1人の話者の発話をすべて同じ出力チャネルに配置するので、モデルはグローバルな情報を利用するように強制される。
Graph-PITでは、個々の連結成分が別々に扱われるため、配置の自由度が高い。1つの連結成分にN人以上の話者がいる場合、Graph-PITは割り当て問題の解を提供できるが、uPITはできない。
Experiment
下の表は、約120秒の長さのミーティングでの評価結果を示している。提案手法はWER、SDRともに、uPITよりも性能が高かった。
The effect of stitching
下の図は、stitchingの影響を示している。横軸がセグメントの時間、縦軸にWERとセグメントに含まれる話者数の割合を示している。
uPITでは、セグメント時間が長くなるほど含まれる話者数は多くなり、WERも大きくなるが、Graph-PITでは、WERの劣化が抑えられている。
すなわち、セグメント時間を長く取ることができる。
Conclusion
本論文では,長い録音のCSSスタイル処理のためのuPITの一般化であるGraph-PITを提案した。
GraphPITでは,1つのセグメントに含まれる話者の数が出力チャネルの数よりも少ないという制約を,同時発話者の数が出力チャネルの数よりも少ないという制約に緩和している.
これにより、より多様な会議の処理や、より大きなセグメントの使用が可能になると同時に、スティッチングによる計算オーバーヘッドを削減することができる。
また、Graph-PITの目的を利用して、スティッチングを全く必要としない分離ネットワークを構築できることを示した。