<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2010年11月26日

【流通】話し言葉音声認識技術を応用した字幕生成・配信システムを開発

KDDI研究所と京都大学学術情報メディアセンター河原研究室は、遠隔地でのイベント映像の視聴を想定した字幕生成・配信システムを共同開発した。同システムは、最新の話し言葉音声認識技術の導入により、従来システムの課題であった字幕付与に必要な人員確保の問題を解決する。また、映像と字幕を同期させるアルゴリズムの導入により、映像配信の遅延時間を最小限に抑えつつ、従来システムの課題であった映像と字幕のズレをなくし、字幕による映像の効率的な理解を実現する。

近年、放送業界では、ユニバーサル・アクセスを指向し生放送を含む可能な全てのテレビ番組への字幕付与が求められており、高度な字幕付与技術を持つ専門業者に注文が集中するなど、字幕付与の需要が高まっている。また、ブロードバンドの普及に伴い、講演や講義などのイベントを遠隔地で聴講する機会が増加しているが、特殊技術である字幕生成のため人員の確保が難しく、字幕を付与した映像が提供できる機会が限られていた。

同システムは、講演や講義の映像を収録、並行して自動音声認識および編集者による簡易な修正により短時間で字幕を生成、これらをオンラインで同期させ配信する構成となっている。

(1)最新の話し言葉音声認識技術の導入により、従来の音声認識技術では難しかった話し言葉音声や専門性の高い話題を、高精度で認識することが可能となった。高精度の音声認識結果を字幕生成の補助情報として用いることで、特殊技術を持たない人でもパソコンを使って短時間で字幕を生成できる。

(2)映像と字幕をオンラインで同期させるアルゴリズムの導入により、従来技術では映像と字幕の同期に必要だった人手による字幕挿入のタイミング調整や特殊な再生装置が不要となり、生成した字幕と映像の自動的な同期、パソコンで再生できる形式での配信が可能となった。また、映像の収録途中でも、字幕を生成し映像との同期が完了し次第、配信できるようになった。(※)

今後、京都大学での講演や講義を中心に各種イベントで実証実験を進めた後、大学外のイベントにもシステムの適用先を広げていく。将来、同システムが普及することにより、多くのイベントで映画のように同期した字幕が付与された映像を容易に配信できるようになる。


※ 1時間の講演の場合、配信開始までに30分程度を要すると想定

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通