社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

人工知能

【深層学習】環境音認識に関する国際学会DCASE2019参加レポート 〜ディープラーニングを用いた環境音認識(音響イベント検出)の最新技術動向〜

社会人博士初めてになりますが、DCASE(Workshop on Detection and Classification of Acoustic Scenes and Events)という国際学会に参加してきました。 この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理…

【深層学習】CNNを用いた画像分類手法まとめ(VGG, ResNet, Inceptionなど)

社会人博士を始めるにあたり、CNNの様々なモデルやテクニックについて勉強したので、忘れないようまとめておきます。 体験談も書いていますので、よければそちらもご覧ください。 ys0510.hatenablog.com 参考文献は以下のサーベイ論文です。図もこちらから引…

【深層学習】ディープラーニングで音楽を認識する手法 〜CNNでミスチルらしさが識別できるか!?〜

今までイベント検出やセマンティックセグメンテーションについての記事を書いてきましたので、今さらですがシンプルにCNNでクラス分類をやってみようと思います。 とは言っても、さすがに犬猫や数字の認識をやってもしょうがないので、 今回は、CD音源を聴い…

【深層学習】GAN(pix2pix)でモノクロ画像のカラー変換や欠けた画像の修復

pix2pixとは pix2pixとは、対応する画像から所望の画像を生成する手法で、Image translationとも言われます。 具体例として、以下のような変換を行うことができます。 ・グレースケールからカラー画像への変換 ・一部のかけた画像の補完 ・レンダリング画像…

【セマンティックセグメンテーション手法】Segnetのネットワーク構造や性能をU-Netと比較

今回はSegnetを使って、自動運転にも使われているセマンティックセグメンテーションを試してみました。 Segnetとは 前回紹介したU-Netと同様、セマンティックセグメンテーション手法の一つで、以下の図のようなEncoder-Decoder構造を持ちます。 簡単に言うと…

【深層学習】VGG16でfine tuningしたFCNでセマンティックセグメンテーション 〜ネットワークの解説とCityscapesデータセットで実験〜

今回は、VGG16をFine tuningしたFCNを試してみました。 そもそもセマンティックセグメンテーションは何か?他の手法との比較に関しては、以下の記事をご覧ください。 本記事では、FCNに関連する事項について書いていきます。 ys0510.hatenablog.com VGG16と…

【深層学習】U-Netでセマンティックセグメンテーション 〜ネットワーク解説とCityscapesデータセットで実験〜

今日はU-Netでセグメンテーションをやってみた結果を載せてみます。 セグメンテーションとは、以下の例のように、画像のピクセル単位で車や歩行者などを認識するAIの技術で、自動運転などに使われていたりします。 ys0510.hatenablog.com 学習に使ったデータ…

【機械学習】ディープラーニング以外の機械学習は古い?

今回は、ディープラーニング以外の機械学習手法などについて。 ディープラーニングを用いれば、人間が特徴量抽出を行わなくて済むため、大変便利なのですが、その分デ ータ数が必要になったり、パラメータチューニングが大変になってしまうのというのが、私…