社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【論文管理】MendeleyとGoogle Driveとタブレットを同期した便利な論文管理方法

社会人博士や研究職の方は論文を読む必要があるかと思います。 google scholarを使って検索・ダウンロードしたりすることができますが、ファイル名の管理が面倒だったり、PC画面だと読みづらかったり、かといって印刷するとかさばるので管理が面倒です。 私…

【自己啓発】集中できる環境整備のために購入したガジェット7選

先日、集中力を高めるために読んだ本をご紹介しましたが、それらの情報も含めて、作業効率を高めるために必要なグッズを購入しました。 購入してよかったものをいくつかご紹介します。 作業効率を高めるために購入したもの ①ノートPC(ASUS Zenbook14) ASUS…

【アレイ信号処理】ビームフォーマを用いた音源分離の基本原理

過去の記事で、聞きたい音だけを分離する技術について、電話品質向上の歴史と深層学習を用いた最新の手法について書きました。 深層学習を用いることで性能の向上は期待できるものの、大量のデータが必要になってしまうなど、デメリットも多数存在します。 …

【自己啓発】集中力とやる気を高めるために読んだ本5選

私が社会人博士を始める前に、頭が良くなりたいと思って、集中力や脳の鍛え方、モチベーションアップのために読んだ本を紹介します。 気になった本があれば、読んでみてください。 集中力、やる気を高めるために役に立った本5選 ①自分を操る 超集中力 / DaiG…

【深層学習】音源分離に関する研究の歴史と現状の課題

音声に関連した研究は電話品質向上がルーツ 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。そうした背景からか、音に関連した研究は、NTTの研究所がとても強い印象があります。 近年のAIブームのおかげで当たり前の技術となっている音…

【社会人博士】論文が採択されるまでのステップ〜投稿や修正など〜

ほぼほぼ初心者の状態から、社会人博士課程に入学し、早いもので3年目に突入してしまいました。さてさて、私はいつ卒業できるのやら。。 入学を決めるまでの2年間や入学直後の感想も書いてありますので、よかったら読んでみてください。 ys0510.hatenablog.…

【社会人博士】博士号取得に必要な英語力はTOEICスコア800ぐらい?

博士号取得に必要な英語力 結論から言うと、博士号取得には避けて通れない、以下の3つのシーンを乗り切れるだけの英語力が必要になります。 ①研究テーマのオリジナリティを検討するために、英語論文を読めること(Reading) ②国際学会やジャーナルに投稿す…

【社会人博士】博士号にメリットや希少性はあるのか

博士号取得者の割合 私は社会人博士の学生として、工学博士を目指しているわけですが、はたして博士号を取得できたとして、貴重な人材になれるのか?と思い、サラリーマン経歴と博士号を持つ人材がどの程度いるのかを調べてみました。結論からいうと、 ・人…

【社会人博士】学生時代の研究や仕事内容と関係なくても博士号は取れる? 〜進学前の業務や持っていた専門性体験談〜

このブログを見つけてくださった方の中には、社会人博士に興味はあるけど、卒業するだけの能力があるのか不安な方もいるのではないでしょうか。 参考までに、私が社会人博士をはじめるまでの経歴を書いてみようと思います。 結論から言えば、修士での研究と…

【自己投資】社会人博士によって異動や転職、収入面でのメリットはあるのか

よく、「あらゆる投資の中で自己投資こそ一番ハイリターンである!」と言われますが、正直、話だけ聞いていても、イマイチ実感がありません。 読書を1冊すれば、将来いくらリターンがあるのか? 運動したら、いつどこからリターンがあるのか? 今でこそ、少な…

【深層学習】画像と音のデータセット作成方法の違い解説

以前、画像と音を使ったディープラーニングタスクには類似性があるということを書きました。 ys0510.hatenablog.com 今回は、学習データの集め方について、画像と音について比較してみようと思います。 結論から述べてしまうと、画像と音では、学習データの…

【自己啓発】社会人は何を勉強したら意味があるの?「センスは知識からはじまる」を読んで考える

なぜ「社会人は何を勉強したらいいの?」と思ったか 社会人になって、自分自身のスキルや価値を高めるために、何か勉強しなきゃと思っていても、何を勉強したら意味があるんだかよくわからない!と思った経験はないでしょうか? そもそも、運動のセンス、勉…

【深層学習】CNNとRNNを組み合わせたCRNNを用いた音響イベント検出と音源方向定位(SELD)について解説

以前、アレクサにも使われている、音響イベント検出について解説しました。 音響イベント検出とは、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で分かるようになります。 今回は、その機能に加え、音源方向を特定する人工知能について、解…

【断食健康法】断食、水風呂で増やして健康になる方法と科学的根拠〜体が若くなる技術を読んで

今回は、「体が若くなる技術」という非常に怪しいタイトルの本です。サブタイトルは、ミトコンドリアを増やして健康になる。です。 ミドリムシダイエット的な、いわゆる眉唾ものの怪しいアンチエイジング本ではなく、ちゃんと科学的な話(だと私は思っていま…

【マネージメント方法】ToMo指数で社員のモチベーションと生産性を上げる方法〜マッキンゼー流最高の社風の作り方を読んで

この本は、モチベーションや生産性が高い組織(社風)を作るための方法について書かれています。具体的には、紹介されているToMo指数でモチベーションは定量的に評価することが可能であり、しかもその指数で業績まで予測できるようです。 自身がチーム運営を…

【生産性を上げる方法】仕事の精度と速度を脳科学的にあげる方法〜脳を最適化すれば能力は2倍になるを読んで考える

この本は、仕事や勉強において、脳のパフォーマンスを最大限発揮するための方法について、いくつかの脳内物質にフォーカスを当てて、科学的に解説されています。 私自身も、仕事でのマネジメントや自身の業務、社会人博士課程の勉強をするに当たって非常に参…

【マネージメント方法】仕事や部下の管理とモチベーション、創造性について〜Appleのデジタル教育を読んで考える

教育の歴史とテクノロジーを用いたこれからの教育背景 ・従来の教育は、フォード生産方式の拡大のため、標準化をめざした教育・フレデリック・テイラーの科学的管理の原理で述べられている・標準化された無駄(とスキル)のない大多数の労働者を育てるための教…

【読書法】Google Keepを使った電車通勤におすすめ忘れない読書法

今回は、最近私が始めた本の読み方を紹介します。 といっても、私も30歳ぐらいまで一切本は読まない人生を送ってきており、今も週に1冊ぐらい読む程度で、読書が得意かというわけではありません。もっといい方法やベテラン勢の知恵があれば教えていただけれ…

【社会人博士】体験談③〜2年目にしてようやく国際学会へ〜

ほぼほぼ初心者の状態から社会人博士課程に入学し、1年半ちょっとがたちました。 うまくいけば半分が過ぎたことになりますが、こんなペースでちゃんと学位が取得できるのでしょうか。。 入学を決めるまでの2年間や入学直後の感想も書いてありますので、よか…

【音声による感情認識】深層学習を用いたアレクサの感情認識について解説

今回は、アマゾンエコーに搭載されているAlexaの開発チームによる、Speech Emotion Recgnitionについて書きます。リンク先のニュースでも紹介されているようにアレクサは今後さらに感情表現や認識ができるようになっていくだろうと思います。 https://forbes…

【深層学習】アレクサによる音を使った防犯機能解説(Alexa Guard) ~CNNとRNNを組み合わせたCRNNによる音響イベント検出~

以前の記事で、アレクサにも使われていると思われる、音響イベント検出というディープラーニング技術について解説しました。 ys0510.hatenablog.com 当時は、アレクサの中身を知っているわけではなかったので、具体的にどのようなアルゴリズムが使われている…

【ロボティクス技術】カメラ画像から自己位置推定を行う深層学習Posenetについて解説

今回はディープラーニングを使った、ロボットの自己位置認識技術について考えます。個人的な見解なので、これがスタンダードではないことをご了承ください。 自己位置認識に使われるセンサー 以下の図は、ロボットの自己位置認識によく使われるセンサの一例…

【深層学習】Deeplabv3+を用いたセマンティックセグメンテーション 〜Googleが発表した最先端のディープラーニング技術〜

今回は、セマンティックセグメンテーションで最も性能が高い手法の1つであるDeeplabv3+を、基本的な手法であるU-Netと比較しながら紹介します。 上の図にDeeplabv3+の構造を示します。従来のモデルとしてよく使用されるU-Netと同様に、エンコーダー/デコーダ…

【歌声分離】U-NetでCD音源から好きなアーティストのカラオケ音源を作る

今回は、画像のセマンティックセグメンテーション手法の1つであるU-Netを用いた歌声分離を紹介します。参考文献は以下の2つの論文です。 Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, Singing Voic…

【深層学習】アレクサでも使われている!? CNNとRNNを組み合わせたCRNNによる音響イベント検出

音響イベント検出とは 音響イベント検出とは、環境音認識のためのタスクで、以下の図のように、音データの中から特定の音響イベントの発生区間を検出するというものです。 図の下側のように、「○○秒~○○秒にギターの音が鳴っている」といったことが、自動で…

【ロボット関連学会】IROS2019 in Macau 深層学習を用いたロボット技術レポート

2019/11/4-8で開催されたIROSという学会に参加してきたので、自分のまとめも兼ねてまとめていこうと思います。 IROSとは、International Conference on Intelligent Robots and Systemsの略で、ロボットに関する国際会議です。 参加者の推移 年々参加者が増…

【深層学習】ディープラーニングを使った音声認識と画像認識の違いと類似性について解説!

インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。 音声に関連した研究とは? 音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談…

【深層学習】セマンティックセグメンテーションとは?〜FCN, U-Net, Segnet, PSPNet, Deeplabv3+手法まとめ〜

社会人博士を始めるにあたり、画像のセマンティックセグメンテーションについてまとめました。 体験談も書いているので、よければそちらもご覧ください。 ys0510.hatenablog.com 画像認識の代表的なタスク 下の図は代表的な画像認識のタスクを表しています。…

ロボットのナビゲーション機能を人間の脳と比較 〜自己位置推定、経路計画、地図について〜

今回は自律移動ロボットと人間のナビゲーション能力の違いについてです。 自律移動ロボットって? 日常生活では、あまり見ることはないかもしれませんが、工場や一部の限定エリアでは、ロボットによる自動搬送が行われ始めています。 どうやって自動で目的地…

【信号処理】フーリエ変換、短時間フーリエ変換のイメージ

教科書には厳密な定義や説明がなされていますが、直感的によくわからないという人は意外と多いのではないかと思います。実際に自分も大学でちゃんと単位も取りましたが、仕事で使おうとするといまいちイメージがわいていませんでした。 なので、ここでは、厳…