米Googleは9月27日(現地時間)、ディープラーニング技術を活用した新しい翻訳システム「Google Neural Machine Translation (GNMT)」の開発を公表した。いくつかの言語ペアでは人間の翻訳に近い自然な表現で正確な翻訳を実現する。同社はすでにGoogle翻訳の中国語-英語でGNMTを用いたサービスの提供を開始しており、数カ月をかけて他の言語にも拡大していく。

Google翻訳にはサービス開始からフレーズベースのマシン翻訳(PBMT)技術が用いられてきたが、PBMTでは入力されるセンテンスが単語とフレーズに分けられてバラバラに訳される。Googleの研究者は2014年から、リカレントニューラルネットワーク(RNN)を用いて入力言語のセンテンスと出力される翻訳された言語のセンテンスを直接マッピングする研究を進めてきた。NMTは入力センテンス全体を1つのユニットとして翻訳する。中国語から英語の場合、漢字を要素として文章全体を読み込み、英語の文章を組み立てる。翻訳文を作る際には、中国語の漢字の要素に最も関連する英単語の生成よりも重み分布に留意する。

英語とスペイン語、フランス語、中国語の言語ペアで、PBMT、GNMT、人の翻訳の翻訳品質を比較

Wikipediaやニュースサイトの記事をサンプルに、PBMTシステムとGNMTシステムが訳した文章を評価したところ、複数の言語ペアで翻訳エラーが55~85%も減少した。Googleの研究者が公開した論文「Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation」によると、PBMTシステム、GNMTシステム、人間の翻訳家が訳した500個のサンプル文章をバイリンガルの人に6ポイント満点で評価をしてもらったところ、英語-スペイン語ではPBMT:平均4.885ポイント、GNMT:同5.428ポイント、人間の翻訳家:同5.550ポイントだった。

GNMTはテストを行った全ての言語ペアでPBMTを上回り、言語の組み合わせによっては人に迫る数値を出しており、「GNMTは大きなマイルストーンである」と研究チームは断言する。ただし、人の名前やものの名称、めずらしい言葉などを間違えたり、単語を抜かすなど、GNMTシステムは人の翻訳では起こらないようなミスを犯す。人との差を大きく縮めたとはいえ、最後のわずかなポイント差を埋めていくには、まだ数多くの改善を積み重ねていかなければならないという。