本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…
本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…
本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。 arxiv.org 論文概要 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…
念願の博士号を取得してから早3ヶ月が経過しました。本記事では、実際に博士号を取得してみて、博士号のメリット・デメリットについて考えてみようと思います。 本記事では、迷っている方の参考になるよう、私が感じたメリット・デメリットをまとめます。 …
本記事では、深層学習以外の手法を想定した、特徴量の分析方法について述べます。 深層学習を用いることで、圧倒的に高い性能を達成できる可能性がありますが、データ収集コストやブラックボックス性、計算量の増加といった欠点も存在します。 深層学習でな…
はじめに 皆さんは、自分の好きなアーティストの楽曲のカラオケ版がほしいと思ったことや、オリジナル音源でカラオケを歌いたいと思ったことはないでしょうか? あるいは、楽器を練習するために、あるパートの音源だけを聞きたいと思ったことはないでしょう…
はじめに 先日、VERSANTという英語スピーキングテストを受験しました。 今まで、TOEICは受験したことがあったのですが、スピーキングのテストははじめてだったので、記録に残しておこうと思います。 参考までに、私自身の英語経歴を簡単に書いておきます。 …