社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

人工知能

End-to-end手話認識の概要

手話認識の必要性 以下の図は、深層学習を活用した健聴者と手話話者とのコミュニケーション例を示しています。 上図に示すように、健聴者→手話話者には、音声認識モデルを使用することができます。 深層学習と学習データの拡充にともない、近年は非常に高い…

複数話者の音声認識におけるSpeaker diarizationの役割

本記事では、複数話者の音声認識における音声認識の難しさについて簡単に述べた後、そのようなユースケースでの必須技術であるSpeaker diarizationの概要をまとめます。 複数話者の音声認識の難しさ 以前の記事で、End-to-end音声認識モデルについてまとめま…

End-to-End音声認識サーベイ オフラインモデルの概要とオンライン化

本記事では、End-to-End音声認識において、オフラインモデルの代表的な手法とそのオンライン化について述べます。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、…

ESPnetを用いたEnd-to-End音声認識モデル学習のステージ構成、オプション

ESPnetというEnd-to-End音声認識のオープンソースについて、Referenceに示す資料を調べので、本記事にまとめます。 レシピのステージ構成 ●データセットの前処理Stage 1: trainセット、validセット、evalセットに対応するデータディレクトリを生成するlocal/…

End-to-End音声認識手法サーベイ ネットワーク構造による3分類

本記事では、End-to-End音声認識手法の概要をサーベイします。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、各手法の詳細を調べていただければと思います。 End-…

【論文紹介】Deep context: end-to-end contextual speech recognition

本記事では、ユーザ特有のコンテキストに応じたバイアシング手法を提案した論文を紹介する。 arxiv.org Abstract 自動音声認識(ASR)では、ユーザーが何を話すかは、ユーザーが置かれている特定のコンテキストに依存します。一般的に、このコンテキストは、…

【論文紹介】Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers

本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…

【論文紹介】Transitional Adaptation of Pretrained Models for Visual Storytelling

本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…

【論文紹介】Point Cloud Audio Processing

本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…

【論文紹介】SELDにおける学習された特徴に対するself-attentionの評価 Assessment of Self-Attention on Learned Features For Sound Event Localization and Detection

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…

【論文紹介】何がSELDを難しくさせるのか? What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis

本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…

【データサイエンス】非深層学習手法におけるT検定を用いた特徴量の分析 〜データが少ない場合や判定根拠が必要な場合の分類タスク〜

本記事では、深層学習以外の手法を想定した、特徴量の分析方法について述べます。 深層学習を用いることで、圧倒的に高い性能を達成できる可能性がありますが、データ収集コストやブラックボックス性、計算量の増加といった欠点も存在します。 深層学習でな…

【深層学習】無料で歌声分離や楽器分離を行う方法

はじめに 皆さんは、自分の好きなアーティストの楽曲のカラオケ版がほしいと思ったことや、オリジナル音源でカラオケを歌いたいと思ったことはないでしょうか? あるいは、楽器を練習するために、あるパートの音源だけを聞きたいと思ったことはないでしょう…

【社会人博士】入学前に読んでおいてよかった参考書15選

働きながら博士号の取得を目指すとなると、一番ネックになるのが時間です。 最小限の時間で効率よく、実験・評価・論文執筆を行わなければなりませんので、 ・従来手法がわからない ・実装方法がわからない ・何が新しいかがわからない という時間を減らすこ…

【音環境認識】環境音セグメンテーション〜深層学習を用いた音源定位、音源分離、クラス分類の統合アプローチ〜

はじめに 本記事では、「環境音セグメンテーション」というタスク・手法を紹介します。 簡単にいうと画像のセマンティックセグメンテーションを音に適用したものと考えるとイメージしやすいかと思います。 もちろん、ただ単にセマンティックセグメンテーショ…

【サーベイ】深層学習を用いた音源分離手法のまとめ

はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。 音源分離手法は、マイクロフォンの数やベースとなっている手法に応じて、大きく4つに分類することができます。 以下の表は、マイクロフォ…

【サーベイ】信号処理および深層学習を用いた音源分離手法のまとめ

はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。その一方で、深層学習ベースの手法は大量のデータで学習を行う必要があるため、従来の信号処理ベースの手法を使用するべき場面も多々ある…

【深層学習】音源分離に関する研究の歴史と現状の課題

音声に関連した研究は電話品質向上がルーツ 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。そうした背景からか、音に関連した研究は、NTTの研究所がとても強い印象があります。 近年のAIブームのおかげで当たり前の技術となっている音…

【深層学習】画像と音のデータセット作成方法の違い解説

以前、画像と音を使ったディープラーニングタスクには類似性があるということを書きました。 ys0510.hatenablog.com 今回は、学習データの集め方について、画像と音について比較してみようと思います。 結論から述べてしまうと、画像と音では、学習データの…

【深層学習】CNNとRNNを組み合わせたCRNNを用いた音響イベント検出と音源方向定位(SELD)について解説

以前、アレクサにも使われている、音響イベント検出について解説しました。 音響イベント検出とは、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で分かるようになります。 今回は、その機能に加え、音源方向を特定する人工知能について、解…

【音声による感情認識】深層学習を用いたアレクサの感情認識について解説

今回は、アマゾンエコーに搭載されているAlexaの開発チームによる、Speech Emotion Recgnitionについて書きます。リンク先のニュースでも紹介されているようにアレクサは今後さらに感情表現や認識ができるようになっていくだろうと思います。 https://forbes…

【深層学習】アレクサによる音を使った防犯機能解説(Alexa Guard) ~CNNとRNNを組み合わせたCRNNによる音響イベント検出~

以前の記事で、アレクサにも使われていると思われる、音響イベント検出というディープラーニング技術について解説しました。 ys0510.hatenablog.com 当時は、アレクサの中身を知っているわけではなかったので、具体的にどのようなアルゴリズムが使われている…

【ロボティクス技術】カメラ画像から自己位置推定を行う深層学習Posenetについて解説

今回はディープラーニングを使った、ロボットの自己位置認識技術について考えます。個人的な見解なので、これがスタンダードではないことをご了承ください。 自己位置認識に使われるセンサー 以下の図は、ロボットの自己位置認識によく使われるセンサの一例…

【深層学習】Deeplabv3+を用いたセマンティックセグメンテーション 〜Googleが発表した最先端のディープラーニング技術〜

今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。 上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…

【歌声分離】U-NetでCD音源から好きなアーティストのカラオケ音源を作る

今回は、画像のセマンティックセグメンテーション手法の1つであるU-Netを用いた歌声分離を紹介します。参考文献は以下の2つの論文です。 Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, Singing Voic…

【深層学習】アレクサでも使われている!? CNNとRNNを組み合わせたCRNNによる音響イベント検出

音響イベント検出とは 音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。 図の下側のように、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で…

【ロボット関連学会】IROS2019 in Macau 深層学習を用いたロボット技術レポート

2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…

【深層学習】ディープラーニングを使った音声認識と画像認識の違いと類似性について解説!

インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。 音声に関連した研究とは? 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談…

【深層学習】セマンティックセグメンテーションとは?〜FCN, U-Net, Segnet, PSPNet, Deeplabv3+手法まとめ〜

社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…

ロボットのナビゲーション機能を人間の脳と比較 〜自己位置推定、経路計画、地図について〜

今回は自律移動ロボットと人間のナビゲーション能力の違いについてです。 自律移動ロボットって? 日常生活では、あまり見ることはないかもしれませんが、工場や一部の限定エリアでは、ロボットによる自動搬送が行われ始めています。 どうやって自動で目的地…