社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【深層学習】Deeplabv3+を用いたセマンティックセグメンテーション 〜Googleが発表した最先端のディープラーニング技術〜

今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。

上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダー構造を備えています。エンコーダーブロックは、高レベルの特徴を抽出するたたみ込みニューラルネットワークです。 Deeplabv3 +は、特徴抽出にXceptionモジュールを使用し、元のスペクトログラムの1/16のサイズの特徴マップを出力します。 U-Netとの最大の違いは、Xceptionモジュールの後に実行されるAtrous Spatial Pyramid Pooling(ASPP)と呼ばれる異なるレートの拡張畳み込み層を持つピラミッド構造です。拡張畳み込みは、定義されたギャップを持つ入力に適用される一種の畳み込みです。拡張率kは、kピクセルをスキップすることを意味します。 k = 1は通常の畳み込みです。この手法により、下図に示すように、パラメーターの数を増やすことなく、より広い範囲のコンテキストを抽出できます。したがって、マルチスケールスペクトルの特徴が効率的に学習されます。この論文では、カーネルサイズ3 x 3、6、12、18の膨張率がASPPモジュールで使用されました。エンコーダー機能は、最初に係数4で双線形にアップサンプリングされ、同じ空間解像度を持つネットワークバックボーンの対応する低レベル機能と連結されます。連結後、3×3の畳み込みが適用されて特徴が調整され、その後4倍の別の単純な双線形アップサンプリングが行われます。Decoderブロックは、入力スペクトログラムと同じサイズのマスクスペクトログラムを取得します。第3層の接続をスキップすることにより、高解像度の機能マップが簡単に送信されます。

実験結果

以下に、Cityscapes datasetを用いた実験結果の一例を示します。他の手法と比べて高解像度な予測ができているといえます。

参考文献

[1]     L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for semantic image segmentation”, The European Conference on Computer Vision (ECCV), 2018, pp. 801-818

[2]     F. Chollet, “Xception: Deep learning with depthwise separable convolutions”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1251-1258.

[3]     F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions”, arXiv:1511.07122, 2015.

[4]     L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and Alan L. Yuille, “DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, Issue 4, pp. 834-848, April 2017.

[5]     L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation”, arXiv:1706.05587, 2017.