社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

セグメンテーション

【深層学習】Deeplabv3+を用いたセマンティックセグメンテーション　〜Googleが発表した最先端のディープラーニング技術〜

人工知能セグメンテーション画像認識

今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…

【歌声分離】U-NetでCD音源から好きなアーティストのカラオケ音源を作る

人工知能セグメンテーション音響信号処理

今回は、画像のセマンティックセグメンテーション手法の1つであるU-Netを用いた歌声分離を紹介します。参考文献は以下の2つの論文です。 Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, Singing Voic…

【深層学習】セマンティックセグメンテーションとは？〜FCN, U-Net, Segnet, PSPNet, Deeplabv3+手法まとめ〜

人工知能セグメンテーション画像認識

社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク下の図は代表的な画像認識のタスクを表しています。…

【セマンティックセグメンテーション手法】Segnetのネットワーク構造や性能をU-Netと比較

人工知能セグメンテーション画像認識

今回はSegnetを使って、自動運転にも使われているセマンティックセグメンテーションを試してみました。 Segnetとは前回紹介したU-Netと同様、セマンティックセグメンテーション手法の一つで、以下の図のようなEncoder-Decoder構造を持ちます。簡単に言うと…

【深層学習】VGG16でfine tuningしたFCNでセマンティックセグメンテーション　〜ネットワークの解説とCityscapesデータセットで実験〜

人工知能セグメンテーション画像認識

今回は、VGG16をFine tuningしたFCNを試してみました。そもそもセマンティックセグメンテーションは何か？他の手法との比較に関しては、以下の記事をご覧ください。本記事では、FCNに関連する事項について書いていきます。 ys0510.hatenablog.com VGG16と…

【深層学習】U-Netでセマンティックセグメンテーション　〜ネットワーク解説とCityscapesデータセットで実験〜

人工知能画像認識セグメンテーション

今日はU-Netでセグメンテーションをやってみた結果を載せてみます。セグメンテーションとは、以下の例のように、画像のピクセル単位で車や歩行者などを認識するAIの技術で、自動運転などに使われていたりします。 ys0510.hatenablog.com 学習に使ったデータ…