社会人博士の深層学習ブログ

深層学習を使った環境音認識研究で、働きながら博士号を取得しました

【深層学習】環境音認識に関する国際学会DCASE2019参加レポート 〜ディープラーニングを用いた環境音認識(音響イベント検出)の最新技術動向〜

社会人博士初めてになりますが、DCASE(Workshop on Detection and Classification of Acoustic Scenes and Events)という国際学会に参加してきました。

この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理解するという目的のもと行われております。

具体的には、「いつどの方向から何の音がなっているか?」といったことがAIでわかるようになります。

http://dcase.community/challenge2019/task-sound-event-localization-and-detectionより引用

 

 

参加者は、企業100人、大学100人ほどの規模ですが、年々規模は大きくなっているようです。

40件ほどのポスター発表がありましたが、採択率は66%だったようです。

 

 


 

ここからは専門的な話になりますが、技術動向としては以下の通りでした。

・アンサンブル学習に支配されている。ほとんどがCNNベースのネットワーク。

・augumentation mixup が一般的になった

・Logmel energy waveform QCTが主に特徴量として使われている

 

科学としての新規性というよりかは、性能を上げるためには、アンサンブル学習やデータオーギュメンテーションといった手法がMUSTになっているようでした。この傾向はkaggleというオープンなデータサイエンスコンペでも同様なようです。