<< 前のエントリ合通のトップページへ次のエントリ >>
2018年05月17日

【流 通】JSTと京大 高精度な日中・中日機械翻訳システムの提供を開始


JST情報企画部の中澤敏明研究員らと京都大学大学院情報学研究科の黒橋禎夫教授らは、ニューラルネットワーク(※1)を用いた日中・中日科学技術論文機械翻訳システムを開発した。

近年、中国から発表される科学技術論文数が米国に次ぐ世界2位となり、中国語で書かれた科学技術文献などを日本語で検索、閲覧したいといった需要が高まってきている。人手による翻訳に比べ迅速かつ安価に処理が可能な機械翻訳の普及が期待される一方、科学技術情報の翻訳ではさまざまな専門用語や最新技術を表す新語が存在するため、技術内容を正しく伝達する必要があり、機械翻訳の高精度化が望まれていた。

JSTと京都大学は中国科学技術信息研究所(ISTIC)と連携し、科学技術論文などを基にした400万件以上の中国語・日本語の対訳コーパス(※2)を整備した。これらを、今回開発したニューラル機械翻訳エンジンで学習させるとともに、対訳辞書の整備によって誤訳、訳抜けを低減し、翻訳精度の向上を図った。その結果、開発で定めた評価基準において「ほとんどの重要情報が含まれる」が97%、また「情報に過不足がなく容易に理解可能」が約6割の翻訳精度を達成した。

このニューラル機械翻訳エンジンは、2016年12月に開催されたアジア言語を対象とした国際的な機械翻訳のワークショップ「WAT2016」(Workshop on Asian Translation 2016)での評価において、科学技術情報の機械翻訳タスクで1位の精度を達成している。

JSTはこれまで長年にわたる文献情報提供事業において、大量の中日対訳抄録を蓄積してきた。「日中・中日機械翻訳実用化プロジェクト」では、この大量の対訳抄録データを用いて一文ごとでの対応を高精度に推定する手法を開発し、対訳文を自動抽出することにより、大規模かつ高品質な対訳コーパスを構築した。

また、近年盛んに研究が行われている「注意機構(Attention Mechanism)に基づくニューラル機械翻訳」を基にしたエンジンも同プロジェクトで独自に開発した。この翻訳手法は、入力する文の長さに関係なく効率良く処理する手法で、特に長文の翻訳精度の向上が期待される。さらに、大規模で高品質な対訳コーパスと、最先端のニューラル機械翻訳エンジンを組み合わせることで、世界最高性能の日中・中日科学技術論文翻訳システムを構築した。その結果、同翻訳システムはプロジェクトで行った中国語から日本語の翻訳の評価では、翻訳率(※3)97%を達成した。

今回提供する日中・中日機械翻訳システムでは、対訳コーパスや対訳辞書の整備を通して最先端の技術情報に対しても精度の高い翻訳を提供できると期待される。


※1 ニューラルネットワーク
人間の脳細胞における情報伝達の仕組みを模して考案された計算モデル。コンピューターが複雑な物事を理解する「深層学習」に用いられる。機械翻訳に限らず、近年、高度な画像認識や囲碁、将棋など非常に多くの分野で活用されている。

※2 対訳コーパス
機械翻訳の訓練に用いられる教師データ。同じ内容について複数の言語で書かれた文(=対訳文)を大量に集めたもの。

※3 翻訳率
ほとんどの重要情報(75%以上)が含まれる翻訳分の割合を示す。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通