人工知能
手話認識の必要性 以下の図は、深層学習を活用した健聴者と手話話者とのコミュニケーション例を示しています。 上図に示すように、健聴者→手話話者には、音声認識モデルを使用することができます。 深層学習と学習データの拡充にともない、近年は非常に高い…
本記事では、複数話者の音声認識における音声認識の難しさについて簡単に述べた後、そのようなユースケースでの必須技術であるSpeaker diarizationの概要をまとめます。 複数話者の音声認識の難しさ 以前の記事で、End-to-end音声認識モデルについてまとめま…
本記事では、End-to-End音声認識において、オフラインモデルの代表的な手法とそのオンライン化について述べます。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、…
ESPnetというEnd-to-End音声認識のオープンソースについて、Referenceに示す資料を調べので、本記事にまとめます。 レシピのステージ構成 ●データセットの前処理Stage 1: trainセット、validセット、evalセットに対応するデータディレクトリを生成するlocal/…
本記事では、End-to-End音声認識手法の概要をサーベイします。 各手法の詳細には触れませんが、そもそもEnd-to-End音声認識とは何かよくわからない方のための記事です。 大体の概要を掴んでいただいた後、各手法の詳細を調べていただければと思います。 End-…
本記事では、ユーザ特有のコンテキストに応じたバイアシング手法を提案した論文を紹介する。 arxiv.org Abstract 自動音声認識(ASR)では、ユーザーが何を話すかは、ユーザーが置かれている特定のコンテキストに依存します。一般的に、このコンテキストは、…
本記事では、話者数を事前に決定することが難しい連続音声分離において、従来のuPITの制約を大きく緩和することのできるGraph-PITという手法を提案した論文を紹介する。 arxiv.org 概要 会議の自動採録には,オーバーラップした音声を処理する必要があり,連…
本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…
本記事では、音声信号を特徴空間の「点群」として扱うという新しい処理方法を提案した論文を紹介します。 arxiv.org 概要 ほとんどのオーディオ処理では、固定次元の入力音声表現に作用する変換が行われます。例えば、短時間フーリエ変換(STFT)を使用する…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、Self-attentionの検討を行った論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.hatenablog.com 論文概要 SE…
本記事では、音響イベントの定位と検出(SELD)というタスクにおいて、何がタスクを難しくしているのかを詳細に検討した、以下の論文を紹介します。 arxiv.org SELDタスクについては、以下の記事で紹介していますので、よければ参考にしてください。 ys0510.…
本記事では、深層学習以外の手法を想定した、特徴量の分析方法について述べます。 深層学習を用いることで、圧倒的に高い性能を達成できる可能性がありますが、データ収集コストやブラックボックス性、計算量の増加といった欠点も存在します。 深層学習でな…
はじめに 皆さんは、自分の好きなアーティストの楽曲のカラオケ版がほしいと思ったことや、オリジナル音源でカラオケを歌いたいと思ったことはないでしょうか? あるいは、楽器を練習するために、あるパートの音源だけを聞きたいと思ったことはないでしょう…
働きながら博士号の取得を目指すとなると、一番ネックになるのが時間です。 最小限の時間で効率よく、実験・評価・論文執筆を行わなければなりませんので、 ・従来手法がわからない ・実装方法がわからない ・何が新しいかがわからない という時間を減らすこ…
はじめに 本記事では、「環境音セグメンテーション」というタスク・手法を紹介します。 簡単にいうと画像のセマンティックセグメンテーションを音に適用したものと考えるとイメージしやすいかと思います。 もちろん、ただ単にセマンティックセグメンテーショ…
はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。 音源分離手法は、マイクロフォンの数やベースとなっている手法に応じて、大きく4つに分類することができます。 以下の表は、マイクロフォ…
はじめに 近年、深層学習を用いた様々な音源分離手法が提案されており、性能が向上することが 多数報告されています。その一方で、深層学習ベースの手法は大量のデータで学習を行う必要があるため、従来の信号処理ベースの手法を使用するべき場面も多々ある…
音声に関連した研究は電話品質向上がルーツ 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。そうした背景からか、音に関連した研究は、NTTの研究所がとても強い印象があります。 近年のAIブームのおかげで当たり前の技術となっている音…
以前、画像と音を使ったディープラーニングタスクには類似性があるということを書きました。 ys0510.hatenablog.com 今回は、学習データの集め方について、画像と音について比較してみようと思います。 結論から述べてしまうと、画像と音では、学習データの…
以前、アレクサにも使われている、音響イベント検出について解説しました。 音響イベント検出とは、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で分かるようになります。 今回は、その機能に加え、音源方向を特定する人工知能について、解…
今回は、アマゾンエコーに搭載されているAlexaの開発チームによる、Speech Emotion Recgnitionについて書きます。リンク先のニュースでも紹介されているようにアレクサは今後さらに感情表現や認識ができるようになっていくだろうと思います。 https://forbes…
以前の記事で、アレクサにも使われていると思われる、音響イベント検出というディープラーニング技術について解説しました。 ys0510.hatenablog.com 当時は、アレクサの中身を知っているわけではなかったので、具体的にどのようなアルゴリズムが使われている…
今回はディープラーニングを使った、ロボットの自己位置認識技術について考えます。個人的な見解なので、これがスタンダードではないことをご了承ください。 自己位置認識に使われるセンサー 以下の図は、ロボットの自己位置認識によく使われるセンサの一例…
今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。 上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…
今回は、画像のセマンティックセグメンテーション手法の1つであるU-Netを用いた歌声分離を紹介します。参考文献は以下の2つの論文です。 Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, Singing Voic…
音響イベント検出とは 音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。 図の下側のように、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で…
2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…
インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。 音声に関連した研究とは? 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談…
社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…
今回は自律移動ロボットと人間のナビゲーション能力の違いについてです。 自律移動ロボットって? 日常生活では、あまり見ることはないかもしれませんが、工場や一部の限定エリアでは、ロボットによる自動搬送が行われ始めています。 どうやって自動で目的地…