社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

2021-08-01から1ヶ月間の記事一覧

【論文紹介】Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers

本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…

【論文紹介】Transitional Adaptation of Pretrained Models for Visual Storytelling

本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…

【論文紹介】Point Cloud Audio Processing

本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…

【論文紹介】重なり合う音響イベントの方向と近接度の同時分類 Joint Direction and Proximity Classification of Overlapping Sound Events from Binaural Audio

本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。 arxiv.org 論文概要 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近…

【論文紹介】SELDにおける学習された特徴に対するself-attentionの評価 Assessment of Self-Attention on Learned Features For Sound Event Localization and Detection

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…

【論文紹介】何がSELDを難しくさせるのか? What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…