社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

2019-01-01から1年間の記事一覧

【ロボティクス技術】カメラ画像から自己位置推定を行う深層学習Posenetについて解説

今回はディープラーニングを使った、ロボットの自己位置認識技術について考えます。個人的な見解なので、これがスタンダードではないことをご了承ください。 自己位置認識に使われるセンサー 以下の図は、ロボットの自己位置認識によく使われるセンサの一例…

【深層学習】Deeplabv3+を用いたセマンティックセグメンテーション 〜Googleが発表した最先端のディープラーニング技術〜

今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。 上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…

【歌声分離】U-NetでCD音源から好きなアーティストのカラオケ音源を作る

今回は、画像のセマンティックセグメンテーション手法の1つであるU-Netを用いた歌声分離を紹介します。参考文献は以下の2つの論文です。 Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, Singing Voic…

【深層学習】アレクサでも使われている!? CNNとRNNを組み合わせたCRNNによる音響イベント検出

音響イベント検出とは 音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。 図の下側のように、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で…

【ロボット関連学会】IROS2019 in Macau 深層学習を用いたロボット技術レポート

2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…

【深層学習】ディープラーニングを使った音声認識と画像認識の違いと類似性について解説!

インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。 音声に関連した研究とは? 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談…

【深層学習】セマンティックセグメンテーションとは?〜FCN, U-Net, Segnet, PSPNet, Deeplabv3+手法まとめ〜

社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…

ロボットのナビゲーション機能を人間の脳と比較 〜自己位置推定、経路計画、地図について〜

今回は自律移動ロボットと人間のナビゲーション能力の違いについてです。 自律移動ロボットって? 日常生活では、あまり見ることはないかもしれませんが、工場や一部の限定エリアでは、ロボットによる自動搬送が行われ始めています。 どうやって自動で目的地…

【信号処理】フーリエ変換、短時間フーリエ変換のイメージ

教科書には厳密な定義や説明がなされていますが、直感的によくわからないという人は意外と多いのではないかと思います。実際に自分も大学でちゃんと単位も取りましたが、仕事で使おうとするといまいちイメージがわいていませんでした。 なので、ここでは、厳…

【深層学習】環境音認識に関する国際学会DCASE2019参加レポート 〜ディープラーニングを用いた環境音認識(音響イベント検出)の最新技術動向〜

社会人博士初めてになりますが、DCASE(Workshop on Detection and Classification of Acoustic Scenes and Events)という国際学会に参加してきました。 この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理…

Githubとタブレットで論文管理

皆さんは論文の管理はどのように行っているでしょうか? 私は、先行文献調査や勉強のために論文を読むことがそれなりにあるのですが、いつも管理に困っていました。 今までの論文管理の問題点 ・印刷してメモしながら読みたいのですが、なくしたり破れたり、…

【深層学習】CNNを用いた画像分類手法まとめ(VGG, ResNet, Inceptionなど)

社会人博士を始めるにあたり、CNNの様々なモデルやテクニックについて勉強したので、忘れないようまとめておきます。 体験談も書いていますので、よければそちらもご覧ください。 ys0510.hatenablog.com 参考文献は以下のサーベイ論文です。図もこちらから引…

【社会人博士】体験談②〜1年目の3月でようやく国際学会へ投稿、まさかの採択〜

ほぼほぼ初心者の状態から、社会人博士課程に入学し、1年ちょっとがたったので、今までをまとめてみます。 入学を決めるまでの2年間や入学直後の感想も書いてありますので、よかったら読んでみてください。 (ただの日記になってしまっていますが) ys0510.h…

【深層学習】ディープラーニングで音楽を認識する手法 〜CNNでミスチルらしさが識別できるか!?〜

今までイベント検出やセマンティックセグメンテーションについての記事を書いてきましたので、今さらですがシンプルにCNNでクラス分類をやってみようと思います。 とは言っても、さすがに犬猫や数字の認識をやってもしょうがないので、 今回は、CD音源を聴い…

【深層学習】GAN(pix2pix)でモノクロ画像のカラー変換や欠けた画像の修復

pix2pixとは pix2pixとは、対応する画像から所望の画像を生成する手法で、Image translationとも言われます。 具体例として、以下のような変換を行うことができます。 ・グレースケールからカラー画像への変換 ・一部のかけた画像の補完 ・レンダリング画像…