社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

人工知能

【深層学習】環境音認識に関する国際学会DCASE2019参加レポート　〜ディープラーニングを用いた環境音認識（音響イベント検出）の最新技術動向〜

人工知能社会人博士音響信号処理

社会人博士初めてになりますが、DCASE（Workshop on Detection and Classification of Acoustic Scenes and Events）という国際学会に参加してきました。この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理…

【深層学習】CNNを用いた画像分類手法まとめ（VGG, ResNet, Inceptionなど）

人工知能画像認識

社会人博士を始めるにあたり、CNNの様々なモデルやテクニックについて勉強したので、忘れないようまとめておきます。体験談も書いていますので、よければそちらもご覧ください。 ys0510.hatenablog.com 参考文献は以下のサーベイ論文です。図もこちらから引…

【深層学習】ディープラーニングで音楽を認識する手法　〜CNNでミスチルらしさが識別できるか！？〜

人工知能音響信号処理

今までイベント検出やセマンティックセグメンテーションについての記事を書いてきましたので、今さらですがシンプルにCNNでクラス分類をやってみようと思います。とは言っても、さすがに犬猫や数字の認識をやってもしょうがないので、今回は、CD音源を聴い…

【深層学習】GAN(pix2pix)でモノクロ画像のカラー変換や欠けた画像の修復

人工知能画像認識

pix2pixとは pix2pixとは、対応する画像から所望の画像を生成する手法で、Image translationとも言われます。具体例として、以下のような変換を行うことができます。・グレースケールからカラー画像への変換・一部のかけた画像の補完・レンダリング画像…

【セマンティックセグメンテーション手法】Segnetのネットワーク構造や性能をU-Netと比較

人工知能セグメンテーション画像認識

今回はSegnetを使って、自動運転にも使われているセマンティックセグメンテーションを試してみました。 Segnetとは前回紹介したU-Netと同様、セマンティックセグメンテーション手法の一つで、以下の図のようなEncoder-Decoder構造を持ちます。簡単に言うと…

【深層学習】VGG16でfine tuningしたFCNでセマンティックセグメンテーション　〜ネットワークの解説とCityscapesデータセットで実験〜

人工知能セグメンテーション画像認識

今回は、VGG16をFine tuningしたFCNを試してみました。そもそもセマンティックセグメンテーションは何か？他の手法との比較に関しては、以下の記事をご覧ください。本記事では、FCNに関連する事項について書いていきます。 ys0510.hatenablog.com VGG16と…

【深層学習】U-Netでセマンティックセグメンテーション　〜ネットワーク解説とCityscapesデータセットで実験〜

人工知能画像認識セグメンテーション

今日はU-Netでセグメンテーションをやってみた結果を載せてみます。セグメンテーションとは、以下の例のように、画像のピクセル単位で車や歩行者などを認識するAIの技術で、自動運転などに使われていたりします。 ys0510.hatenablog.com 学習に使ったデータ…

【機械学習】ディープラーニング以外の機械学習は古い？

人工知能

今回は、ディープラーニング以外の機械学習手法などについて。ディープラーニングを用いれば、人間が特徴量抽出を行わなくて済むため、大変便利なのですが、その分データ数が必要になったり、パラメータチューニングが大変になってしまうのというのが、私…