社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

2019-11-01から1ヶ月間の記事一覧

【深層学習】アレクサでも使われている!? CNNとRNNを組み合わせたCRNNによる音響イベント検出

音響イベント検出とは 音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。 図の下側のように、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で…

【ロボット関連学会】IROS2019 in Macau 深層学習を用いたロボット技術レポート

2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…

【深層学習】ディープラーニングを使った音声認識と画像認識の違いと類似性について解説!

インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。 音声に関連した研究とは? 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談…

【深層学習】セマンティックセグメンテーションとは?〜FCN, U-Net, Segnet, PSPNet, Deeplabv3+手法まとめ〜

社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…

ロボットのナビゲーション機能を人間の脳と比較 〜自己位置推定、経路計画、地図について〜

今回は自律移動ロボットと人間のナビゲーション能力の違いについてです。 自律移動ロボットって? 日常生活では、あまり見ることはないかもしれませんが、工場や一部の限定エリアでは、ロボットによる自動搬送が行われ始めています。 どうやって自動で目的地…

【信号処理】フーリエ変換、短時間フーリエ変換のイメージ

教科書には厳密な定義や説明がなされていますが、直感的によくわからないという人は意外と多いのではないかと思います。実際に自分も大学でちゃんと単位も取りましたが、仕事で使おうとするといまいちイメージがわいていませんでした。 なので、ここでは、厳…

【深層学習】環境音認識に関する国際学会DCASE2019参加レポート 〜ディープラーニングを用いた環境音認識(音響イベント検出)の最新技術動向〜

社会人博士初めてになりますが、DCASE(Workshop on Detection and Classification of Acoustic Scenes and Events)という国際学会に参加してきました。 この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理…