社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【論文紹介】Transitional Adaptation of Pretrained Models for Visual Storytelling

本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…

【論文紹介】Point Cloud Audio Processing

本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…

【論文紹介】重なり合う音響イベントの方向と近接度の同時分類 Joint Direction and Proximity Classification of Overlapping Sound Events from Binaural Audio

本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。 arxiv.org 論文概要 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近…

【論文紹介】SELDにおける学習された特徴に対するself-attentionの評価 Assessment of Self-Attention on Learned Features For Sound Event Localization and Detection

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…

【論文紹介】何がSELDを難しくさせるのか? What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…

【社会人博士】博士号のメリット・デメリット

念願の博士号を取得してから早3ヶ月が経過しました。本記事では、実際に博士号を取得してみて、博士号のメリット・デメリットについて考えてみようと思います。 本記事では、迷っている方の参考になるよう、私が感じたメリット・デメリットをまとめます。 …

【データサイエンス】非深層学習手法におけるT検定を用いた特徴量の分析 〜データが少ない場合や判定根拠が必要な場合の分類タスク〜

本記事では、深層学習以外の手法を想定した、特徴量の分析方法について述べます。 深層学習を用いることで、圧倒的に高い性能を達成できる可能性がありますが、データ収集コストやブラックボックス性、計算量の増加といった欠点も存在します。 深層学習でな…

【深層学習】無料で歌声分離や楽器分離を行う方法

はじめに 皆さんは、自分の好きなアーティストの楽曲のカラオケ版がほしいと思ったことや、オリジナル音源でカラオケを歌いたいと思ったことはないでしょうか? あるいは、楽器を練習するために、あるパートの音源だけを聞きたいと思ったことはないでしょう…

【英会話】英語スピーキングテストVERSANTとは

はじめに 先日、VERSANTという英語スピーキングテストを受験しました。 今まで、TOEICは受験したことがあったのですが、スピーキングのテストははじめてだったので、記録に残しておこうと思います。 参考までに、私自身の英語経歴を簡単に書いておきます。 …