京都大学 大学院情報学研究科の黒橋禎夫教授と科学技術振興機構 情報企画部の中澤敏明研究員らは、ニューラルネットワーク※を用いた日中・中日科学技術論文機械翻訳システムを開発。2018年5月8日から科学技術振興機構のHPでシステムの提供を開始した。
近年、中国から発表される科学技術論文数が米国に次ぐ世界2位となり、中国語で書かれた科学技術文献などを日本語で検索、閲覧したいといった需要が高まっている。迅速かつ安価に処理が可能な機械翻訳の普及が期待される一方、科学技術情報の翻訳ではさまざまな専門用語や最新技術を表す新語が存在するため、機械翻訳の高精度化が望まれている。
このような現状を背景に、2013年から、京都大学大学院情報学研究科、科学技術振興機構情報企画部、中国科学技術信息研究所が連携し、科学技術論文を対象とした高精度のニューラル機械翻訳システムの実用化を推進する「日中・中日機械翻訳実用化プロジェクト」に取り組んできた。
プロジェクトでは、科学技術論文などを基にした400万件以上の中国語・日本語の対訳コーパス(=機械翻訳の訓練に用いられる教師データ)を整備。これらを、今回開発したニューラル機械翻訳エンジンで学習させ、対訳辞書の整備によって誤訳、訳抜けを低減させた。その結果、開発で定めた評価基準において「ほとんどの重要情報が含まれる」が97%、また「情報に過不足がなく容易に理解可能」が約6割の翻訳精度を達成。また、2016年12月に開催されたアジア言語を対象とした国際的な機械翻訳のワークショップ「WAT2016」での評価において、科学技術情報の機械翻訳タスクで1位の精度を示した。
日中・中日機械翻訳システムは、今後、対訳コーパスや対訳辞書の整備を通して、最先端の技術情報に対しても精度の高い翻訳を提供できると期待されている。
※ニューラルネットワークとは、人間の脳細胞における情報伝達の仕組みを模して考案された計算モデル。コンピューターが複雑な物事を理解する「深層学習」に用いられ、機械翻訳に限らず、近年、高度な画像認識や囲碁、将棋など非常に多くの分野で活用されている。