2021-08-01から1ヶ月間の記事一覧
本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…
本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…
本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…
本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。 arxiv.org 論文概要 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…