社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【社会人博士】学位を取得して意味があったのか?

博士号に興味はあるけど、お金もかかるし休日も犠牲になるし、そもそも取ったところで意味があるのか?など、いろいろ不安に思うかと思います。 私は幸運なことに博士号を取得することができ、それから数年が経ちましたので、博士号を取得して何か変化があっ…

End-to-end手話認識の概要

手話認識の必要性 以下の図は、深層学習を活用した健聴者と手話話者とのコミュニケーション例を示しています。 上図に示すように、健聴者→手話話者には、音声認識モデルを使用することができます。 深層学習と学習データの拡充にともない、近年は非常に高い…

複数話者の音声認識におけるSpeaker diarizationの役割

本記事では、複数話者の音声認識における音声認識の難しさについて簡単に述べた後、そのようなユースケースでの必須技術であるSpeaker diarizationの概要をまとめます。 複数話者の音声認識の難しさ 以前の記事で、End-to-end音声認識モデルについてまとめま…

End-to-End音声認識サーベイ オフラインモデルの概要とオンライン化

本記事では、End-to-End音声認識において、オフラインモデルの代表的な手法とそのオンライン化について述べます。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、…

【論文執筆】執筆途中の原稿をgitで管理し、Pocket gitで効率的にタブレットで推敲する方法

本記事では、githubを使って論文執筆を行い、タブレットを使って推敲を行う方法を紹介します。 この記事は以下のような方を想定しています。 ① 論文やドキュメントを「2021_1224_〇〇仕様書_最終版_ver2」等の名前を付けてしまい、管理が煩雑になってしまう…

ESPnetを用いたEnd-to-End音声認識モデル学習のステージ構成、オプション

ESPnetというEnd-to-End音声認識のオープンソースについて、Referenceに示す資料を調べので、本記事にまとめます。 レシピのステージ構成 ●データセットの前処理Stage 1: trainセット、validセット、evalセットに対応するデータディレクトリを生成するlocal/…

End-to-End音声認識手法サーベイ ネットワーク構造による3分類

本記事では、End-to-End音声認識手法の概要をサーベイします。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、各手法の詳細を調べていただければと思います。 End-…

【論文紹介】Deep context: end-to-end contextual speech recognition

本記事では、ユーザ特有のコンテキストに応じたバイアシング手法を提案した論文を紹介する。 arxiv.org Abstract 自動音声認識(ASR)では、ユーザーが何を話すかは、ユーザーが置かれている特定のコンテキストに依存します。一般的に、このコンテキストは、…

【論文紹介】Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers

本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…