Facebookの研究チームがAIの翻訳能力を大幅に向上!データが少なくても翻訳可能に

最近も精度が上がり続けているニューラル機械翻訳だが、弱点は希少言語の翻訳が難しいこと。
ニューラル機械翻訳では、学習の際に「I like to eat/私は食べるのが好き」のようなセンテンスのペアが必要だった。ところがウルドゥー語のような希少言語の翻訳では、センテンスのペアが少ないため、ニューラルネットワークはうまく学習できないのだ。
こうしたなか、Facebook AI Research(FAIR)が、多くの翻訳例がなくても、言語間の翻訳が可能なシステムを発表した。
・人間によるタグ付けなしでの学習

今回、FAIRが発表した論文の内容は、人間によるタグ付けなしでの学習から希少言語の翻訳を可能にし、機械翻訳の精度を表す指標「BLEUポイント」が10ポイント以上改善されたようだ。
ちなみに、FAIRによるソースコードはすでに公開されていて、誰もが利用可能になっている。
・希少なデータから多くの単語を学習

単語を細切れにして与えることで、これに含まれる新しい単語を学ぶ手法「Byte-pair encodings」および、他のニューラルネットワークのトレーニングモデルから学ぶことで、いい感じの文章を生成する手法「Language model」、日本語から英語への翻訳を学習する際に、同時に英語から日本語への翻訳の合成データも生成するような「Back-translation」がそれだ。
上記3つの手法を、ニューラル機械翻訳と統計的機械翻訳(PBSMT)に組み込むことで、効率よい学習システムを構築した。
FAIRのシステムは、失われた言語で書かれた文書の翻訳や、スワヒリ語などの希少言語間をリアルタイム翻訳できるデバイスの開発に貢献するだろう。
参照元:Facebook’s AI Just Set A New Record In Translation And Why It Matters/Forbs

ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。