<< 前のエントリ合通ロジのトップページへ
2019年06月24日

【流 通】NTT 音を言葉で説明する技術を開発


NTTは様々な音に対して、それがどんな音かを説明するテキスト(擬音語や説明文)を生成する技術を開発した。

この技術は、マイクロホンで収録した音や録音物に対して、その音を描写した擬音語や説明文を自動生成する。これまでは、音声認識システムを用いても、人の話し声以外の音を的確にテキストに変換することは難しかったが、今回開発された技術によれば、様々な音を文字にすることができ、見ただけでどのような音かを把握できるようになる。これにより、効果音や異常音など音に基づいたメディアコンテンツの検索がこれまで以上に便利になると期待される。また、今後、AIが人間に近い音の感覚を身につけることにも役立つと考えられる。

近年、音声認識技術の研究が進み、人の話し声を高い精度で認識し文字にすることが可能になってきた。しかし、これまでの音声認識システムでは、話し声以外の様々な音を文字にすることには限界があった。また、ある音が「何の音か」を認識することを目的とした音響イベント認識の研究が近年盛んになってきているが、それらの音が「どのような音」で、どのように変化しているかといった情報を擬音語や文章の形で書き出すことはできなかった。

NTTコミュニケーション科学基礎研究所は、多層ニューラルネットワーク(※)に、音の特徴の時系列と文字列(擬音語)や単語列(説明文)との対応を学習させることで、音からテキストへの変換を実現した。この技術は音響信号から文字列や単語列への変換し、人手による擬音語付与よりも受容度の高い擬音語を生成する。説明文作成時には説明の仕方(詳しさ)を指定することで適切な詳細度での説明文生成を実現する。また技術の応用として「聞こえ方」の近さに基づく音の検索などが想定される。

※ 多層ニューラルネットワーク
神経回路網をモデルとした問題解決装置

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通