社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【社会人博士】学位を取得して意味があったのか?

博士号に興味はあるけど、お金もかかるし休日も犠牲になるし、そもそも取ったところで意味があるのか?など、いろいろ不安に思うかと思います。 私は幸運なことに博士号を取得することができ、それから数年が経ちましたので、博士号を取得して何か変化があっ…

End-to-end手話認識の概要

手話認識の必要性 以下の図は、深層学習を活用した健聴者と手話話者とのコミュニケーション例を示しています。 上図に示すように、健聴者→手話話者には、音声認識モデルを使用することができます。 深層学習と学習データの拡充にともない、近年は非常に高い…

複数話者の音声認識におけるSpeaker diarizationの役割

本記事では、複数話者の音声認識における音声認識の難しさについて簡単に述べた後、そのようなユースケースでの必須技術であるSpeaker diarizationの概要をまとめます。 複数話者の音声認識の難しさ 以前の記事で、End-to-end音声認識モデルについてまとめま…

End-to-End音声認識サーベイ オフラインモデルの概要とオンライン化

本記事では、End-to-End音声認識において、オフラインモデルの代表的な手法とそのオンライン化について述べます。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、…

【論文執筆】執筆途中の原稿をgitで管理し、Pocket gitで効率的にタブレットで推敲する方法

本記事では、githubを使って論文執筆を行い、タブレットを使って推敲を行う方法を紹介します。 この記事は以下のような方を想定しています。 ① 論文やドキュメントを「2021_1224_〇〇仕様書_最終版_ver2」等の名前を付けてしまい、管理が煩雑になってしまう…

ESPnetを用いたEnd-to-End音声認識モデル学習のステージ構成、オプション

ESPnetというEnd-to-End音声認識のオープンソースについて、Referenceに示す資料を調べので、本記事にまとめます。 レシピのステージ構成 ●データセットの前処理Stage 1: trainセット、validセット、evalセットに対応するデータディレクトリを生成するlocal/…

End-to-End音声認識手法サーベイ ネットワーク構造による3分類

本記事では、End-to-End音声認識手法の概要をサーベイします。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、各手法の詳細を調べていただければと思います。 End-…

【論文紹介】Deep context: end-to-end contextual speech recognition

本記事では、ユーザ特有のコンテキストに応じたバイアシング手法を提案した論文を紹介する。 arxiv.org Abstract 自動音声認識(ASR)では、ユーザーが何を話すかは、ユーザーが置かれている特定のコンテキストに依存します。一般的に、このコンテキストは、…

【論文紹介】Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers

本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…

【論文紹介】Transitional Adaptation of Pretrained Models for Visual Storytelling

本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…

【論文紹介】Point Cloud Audio Processing

本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…

【論文紹介】重なり合う音響イベントの方向と近接度の同時分類 Joint Direction and Proximity Classification of Overlapping Sound Events from Binaural Audio

本記事では、バイノーラル音源を用いた、音源距離と音源到来方向の同時推定をクラス分類アプローチで解いた論文を紹介します。 arxiv.org 論文概要 本論文では、DNN(Deep Neural Networks)に基づく粗い分類問題として定義される、バイノーラル録音からの近…

【論文紹介】SELDにおける学習された特徴に対するself-attentionの評価 Assessment of Self-Attention on Learned Features For Sound Event Localization and Detection

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…

【論文紹介】何がSELDを難しくさせるのか? What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…

【社会人博士】博士号のメリット・デメリット

念願の博士号を取得してから早3ヶ月が経過しました。本記事では、実際に博士号を取得してみて、博士号のメリット・デメリットについて考えてみようと思います。 本記事では、迷っている方の参考になるよう、私が感じたメリット・デメリットをまとめます。 …

【データサイエンス】非深層学習手法におけるT検定を用いた特徴量の分析 〜データが少ない場合や判定根拠が必要な場合の分類タスク〜

本記事では、深層学習以外の手法を想定した、特徴量の分析方法について述べます。 深層学習を用いることで、圧倒的に高い性能を達成できる可能性がありますが、データ収集コストやブラックボックス性、計算量の増加といった欠点も存在します。 深層学習でな…

【深層学習】無料で歌声分離や楽器分離を行う方法

はじめに 皆さんは、自分の好きなアーティストの楽曲のカラオケ版がほしいと思ったことや、オリジナル音源でカラオケを歌いたいと思ったことはないでしょうか? あるいは、楽器を練習するために、あるパートの音源だけを聞きたいと思ったことはないでしょう…

【英会話】英語スピーキングテストVERSANTとは

はじめに 先日、VERSANTという英語スピーキングテストを受験しました。 今まで、TOEICは受験したことがあったのですが、スピーキングのテストははじめてだったので、記録に残しておこうと思います。 参考までに、私自身の英語経歴を簡単に書いておきます。 …

【社会人博士】入学前に読んでおいてよかった参考書15選

働きながら博士号の取得を目指すとなると、一番ネックになるのが時間です。 最小限の時間で効率よく、実験・評価・論文執筆を行わなければなりませんので、 ・従来手法がわからない ・実装方法がわからない ・何が新しいかがわからない という時間を減らすこ…

【音環境認識】環境音セグメンテーション〜深層学習を用いた音源定位、音源分離、クラス分類の統合アプローチ〜

はじめに 本記事では、「環境音セグメンテーション」というタスク・手法を紹介します。 簡単にいうと画像のセマンティックセグメンテーションを音に適用したものと考えるとイメージしやすいかと思います。 もちろん、ただ単にセマンティックセグメンテーショ…

【簿記3級】1週間(約15時間)の独学で合格した方法

今まで、お金に関する基礎的な知識を身につけるため、簿記3級とFP3級の内容くらいは知っておいたほうがいいのでは?と思っていましたが、時間を理由になかなか手を そこで、今年のGWもあまり遊びには行きづらいということもあり、ずっと気になっていた簿記3…

【サーベイ】深層学習を用いた音源分離手法のまとめ

はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。 音源分離手法は、マイクロフォンの数やベースとなっている手法に応じて、大きく4つに分類することができます。 以下の表は、マイクロフォ…

【サーベイ】信号処理および深層学習を用いた音源分離手法のまとめ

はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。その一方で、深層学習ベースの手法は大量のデータで学習を行う必要があるため、従来の信号処理ベースの手法を使用するべき場面も多々ある…

【社会人博士】研究室を選び、指導教授に許可をもらうまでの具体的な方法

本記事では、社会人博士に進学するにあたり、 より具体的なステップについて書きます。 最近、これから社会人博士を検討している方とお話する機会が何度かあったのですが、以下のような共通の困っていることがあることがわかりました。 ・具体的な研究室の見…

【初心者向け】python音響信号処理の試し方

4年ぐらい前に実装した、pythonを使った音響信号処理ツールのご紹介です。 ●対象の方 ・音響信号処理を試してみたい ・けど、フーリエ変換やその他信号処理のことはよくわからない ・1つずつ動作を見ながら実装していくのは億劫 ※とりあえず動かしてみたいと…

【社会人博士】働きながら3年で博士号を取得しました〜3年間の論文投稿ペース〜

ほぼほぼ初心者の状態から、社会人博士課程に入学し、早いもので3年が経ちました。 結論から申し上げますと、ありがたいことに働きながら3年で博士号を取得することができました。(正確には、最終試験に合格し、学位授与式を待っている状態ですが。) 最後…

【タスク管理ツール】TrelloとPlanywayをGoogleカレンダーと連携したタスク管理

今回は、私が利用しているタスク管理ツールをご紹介しようと思います。 紹介するようなツールを使って、やるべきことリストを視覚化し、各タスクを時間割のように割り当てておくことで、何となくやらずに放置してしまうリスクを下げることができます。 結論…

【プロジェクト運営】目的、目標と手段を間違えてはいけない

仕事で新しいプロジェクトをはじめるとき、基礎研究よりの部署だからなのかわかりませんが、プロジェクト自体の目的がわからなくなるときがあります。 某創業者の方が「理念なき行動は凶器であり、行動なき理念は無価値である」とおっしゃっていました。 管…

【社会人博士】博士課程は勉強するところではなく、研究するところ

博士課程に進学して2年半が経ちました。実際に研究活動を進めるにつれて、進学前に思っていた博士課程の認識との相違がわかってきました。 結論から言うと、以下の3点です。 ・博士課程は、勉強するところではなく、研究するところ ・研究とは、未開の地を…

【社会人博士】入学金や学費、長期履修制度について

博士号取得に必要な費用 結論からいうと、3年間で最低限必要な金額は以下の通りです。 検定料:30,000円 入学料:282,000円 授業料(国立):520,800円/年×3年=1,562,400円 PC:135,926円(論文執筆のため) タブレット:34,181円(論文調査のため) 交通費…