【深層学習】ディープラーニングを使った音声認識と画像認識の違いと類似性について解説！

インターネットでディープラーニングについて調べてみても、ほとんど画像についてのページしか見ないので、今回は音に関連した研究テーマを紹介します。

音声に関連した研究とは？

音に関連した研究は、電話の品質向上の歴史とともに進化してきました。余談ですが、そうした背景からか、音に関連した研究は、NTTの研究所がとても強い印象があります。

近年のAIブームのおかげで当たり前の技術となっている音声認識ですが、それ以外にもたくさんあります。昔は携帯に近づいて話しかけないとほとんど聞き取ってもらえなかったように、雑音抑圧やエコーキャンセラなど、信号処理の研究テーマが盛んに行われてきました。

それまでは、電話品質の向上を主な目的としてきましたが、ロボットへの適用が研究され始めました。ロボットが実際の環境で音声を認識するためには、誰に話しかけられているかを認識し（音源定位）、聞きたい音だけを取り出す必要（音源分離）があります。

もともとは電話にルーツを持つため、音声を対象とした研究が多いですが、近年の深層学習の進歩によって、環境音を対象とした研究も増えてきています。

具体的には、数秒の音を聞いて、どういったシーンであるか、ガラスの破損を検知するなどといった技術が開発されています。

さて、タイトルにも書いた通り、画像領認識の研究と類似性があります。画像認識の主なタスクは以下の3つに分けられます。

Classification: 1枚の写真を見て、それが犬なのか猫なのか、1つのラベルを付与するタスクです。

Object detection：日本語では物体検出といいます。各物体がその画像の中で、どこにあるのかをBounding boxという四角で検出し、同時にクラスも分類します。

Semantic segmentation：写真の各ピクセルが、どのクラスにどのクラスに属しているかというのを分類するタスクです。

環境音認識に関するタスクも同様に以下のように分類することができます。

多くの研究では、前処理として時系列波形を短時間フーリエ変換することで、2次元の「画像」と見立てて、画像認識同様、Convolutional Neural Network（CNN）に入力します。

短時間フーリエ変換は以下のリンクに詳しく書いているので、参考にしてください。

Classification: 数秒の音を1枚の写真を見て、それがどこのシーンなのか、1つのラベルを付与するタスクです。

Detection：音響イベント検出ともいわれます。画像の物体検出で、対象の物体がどこにあるかをBounding boxで検出するのと同様に、いつその音が鳴っていたかを検出します。

Segmentation：画像のセマンティックセグメンテーションと同様に、特定の音のピクセルだけを取り出すタスクです。音楽ファイルに適用することで、歌声だけを取り出す研究などが提案されています。

音の研究のルーツはやはり音声。特に電話の品質改善のために盛んに研究が行われてきた。

近年では、音を使ったAIというと音声認識が一番有名ですが、環境音の認識に対するニーズも高まっている。

周囲の環境を認識する深層学習には、以下の類似性がある。

　画像　　　　　　　ー　　音声

クラス分類　　　　　ー　シーン分類

物体検出　　　　　　ー　音響イベント検出

セグメンテーション　ー　音源分離（クラス識別を含む）