【深層学習】環境音認識に関する国際学会DCASE2019参加レポート　〜ディープラーニングを用いた環境音認識（音響イベント検出）の最新技術動向〜

社会人博士初めてになりますが、DCASE（Workshop on Detection and Classification of Acoustic Scenes and Events）という国際学会に参加してきました。

この学会は、今はやりのAIやディープラーニングといった技術を使って、音のデータから周囲の環境を理解するという目的のもと行われております。

具体的には、「いつどの方向から何の音がなっているか？」といったことがAIでわかるようになります。

参加者は、企業100人、大学100人ほどの規模ですが、年々規模は大きくなっているようです。

40件ほどのポスター発表がありましたが、採択率は66%だったようです。

ここからは専門的な話になりますが、技術動向としては以下の通りでした。

・アンサンブル学習に支配されている。ほとんどがCNNベースのネットワーク。

・augumentation mixup が一般的になった

・Logmel energy waveform QCTが主に特徴量として使われている

科学としての新規性というよりかは、性能を上げるためには、アンサンブル学習やデータオーギュメンテーションといった手法がMUSTになっているようでした。この傾向はkaggleというオープンなデータサイエンスコンペでも同様なようです。

社会人博士の深層学習ブログ