画像認識
本記事では、別々のコーパスで学習されたモーダルの異なるモデルを接続する際のAdaptation方法を提案した論文を紹介する。 本論文は、Visual encoderと言語モデルから構成されるvisual story tellingを題材にしているが、音声認識モデルにおける音響モデルと…
今回はディープラーニングを使った、ロボットの自己位置認識技術について考えます。個人的な見解なので、これがスタンダードではないことをご了承ください。 自己位置認識に使われるセンサー 以下の図は、ロボットの自己位置認識によく使われるセンサの一例…
今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。 上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…
2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…
社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…
社会人博士を始めるにあたり、CNNの様々なモデルやテクニックについて勉強したので、忘れないようまとめておきます。 体験談も書いていますので、よければそちらもご覧ください。 ys0510.hatenablog.com 参考文献は以下のサーベイ論文です。図もこちらから引…
pix2pixとは pix2pixとは、対応する画像から所望の画像を生成する手法で、Image translationとも言われます。 具体例として、以下のような変換を行うことができます。 ・グレースケールからカラー画像への変換 ・一部のかけた画像の補完 ・レンダリング画像…
今回はSegnetを使って、自動運転にも使われているセマンティックセグメンテーションを試してみました。 Segnetとは 前回紹介したU-Netと同様、セマンティックセグメンテーション手法の一つで、以下の図のようなEncoder-Decoder構造を持ちます。 簡単に言うと…
今回は、VGG16をFine tuningしたFCNを試してみました。 そもそもセマンティックセグメンテーションは何か?他の手法との比較に関しては、以下の記事をご覧ください。 本記事では、FCNに関連する事項について書いていきます。 ys0510.hatenablog.com VGG16と…
今日はU-Netでセグメンテーションをやってみた結果を載せてみます。 セグメンテーションとは、以下の例のように、画像のピクセル単位で車や歩行者などを認識するAIの技術で、自動運転などに使われていたりします。 ys0510.hatenablog.com 学習に使ったデータ…