機械翻訳はどうやって評価するの?評価方法のメリット・デメリット解説

機械翻訳の性能評価

機械翻訳エンジンはどうやって評価して選ぶか、ご存知ですか?

個人的な印象だけで、どの機械翻訳エンジンが「良い」「悪い」をきめてしまっては、期待したような効果が得られない可能性が高いです。間違った評価に基づいて機械翻訳エンジンを開発したり、導入すれば、生産性が大きくおちてしまいます。

そこで、大規模に機械翻訳エンジンを開発したり、導入する場合には、客観的な方法に基づいて評価を行います。評価方法には、人手評価と自動評価、と大きく分けて2つあります。

今回は、この機械翻訳の一般的な評価方法について、ご紹介しますね。

自動評価は、ある程度のコーパス(対訳データ=過去の翻訳資産)がなければ、適切な結果がでないので、評価方法を知っても、そのままは活用できないかもしれません。

ですが、もしあなたが機械翻訳の活用を検討する場合には、現在の機械翻訳エンジンがどういった評価の元で開発されてきたのか、そして他社がどういった評価方法で機械翻訳エンジンを選択したのかを知っておくことは、今後の戦略を考える上で、有益です。

人手評価による方法

人手評価は人が見て行う方法です。

原文と機械翻訳の翻訳を見比べるという方法と、人が行った翻訳を参考として使い機械が行った翻訳を評価する、という方法があります。

原文と機械翻訳の訳を見比べる

人による翻訳を参考に機械翻訳の訳を評価する

 

後者の人による参考訳と機械翻訳の翻訳を比べる方法は、原文の言語が分からない人でも行うことができるというメリットがあります。

開発段階にある機械翻訳エンジンの性能を見ることが目的の場合には、流暢さ(Fluency)と適切性(Adequacy)の2点について、5段階評価を行います。適切さとは、原文の情報を過不足なく伝えているか、ということです。

 

ただ、この2つだけでは、機械翻訳エンジンを開発する際には良いかもしれませんが、「翻訳の品質を評価」するには不十分ですよね。

通常、翻訳の品質評価については、正確さ、流暢さに加え、用語、スタイルといった点も大事なポイントとなります。さらに機械翻訳の訳を評価する際には「ポストエディットが可能なレベルかどうか」という点を見ることも大事です。

翻訳業務に機械翻訳の導入を検討する際には、こういった評価項目も加える必要があります。

 

人手評価のメリットは、人が行うので、ぎこちない翻訳をすぐ見つけることができます。ですが、評価ができる人の時間を拘束することになるので、コストと時間がかかるというデメリットがあります。また、評価する人によって評価が変わってしまう危険性もあります。

自動評価による方法:BLEU

次に自動評価についてご紹介します。

機械翻訳導入を検討する場合には、自動評価を行って、ある程度候補を絞り込んでから人手評価を行う、といった形で進めると、評価にかかる「人」の労力を少なくすることができます。

 

自動評価で一番有名なのは、BLEUという方法です。この評価方法についての論文は、2002年にIBMワトソンリサーチセンターの開発者によって公表されました。今から15年以上前のことです。

実はBLEUの前には、「自動評価なんてあてにならない」と、自動評価への評価は低かったんです。

 

ところが、BLEUの効果が良かったために「自動評価」への評価そのものが変わり、その後、色々な自動評価方法が確立されていきました。

 

まずは自動評価の大御所である「BLEU」について、もう少し説明しますね。

BLEUの正式名称はBilingual Evaluation Understudyです。そのまま頭文字をとるとBEUとなると思うのですが、そうはならず BLEU と呼ばれています。

(実は本記事執筆中、何度もBLEUをBLUEと打ち間違えました^^;)

 

この評価方法は次のコンセプトに基づいています。

お手本となる翻訳と機械翻訳の翻訳結果の単語訳が一致する=良い品質の翻訳

 

原文に対して品質の高い翻訳を準備し、これを参照訳として、機械翻訳の訳と比較して評価をしていきます。

人による翻訳を参考に機械翻訳の訳を評価する

 

BLEUの評価は、次の計算式を使って算出されるスコアに基づいています。

 

 

とっても わかりにくい計算式ですね^^;

BLEUのスコアの例を出してみます。

たとえば、原文に対して、次のような翻訳文があるとします。

参照文: The NASA Opportunity rover is battling a massive dust storm on Mars .

 

この翻訳文をお手本=参照文として使用し、次の2つの機械翻訳の翻訳結果を、BLEUを使って評価します。

候補訳 1: The Opportunity rover is combating a big sandstorm on Mars .
候補訳 2: A NASA rover is fighting a massive storm on Mars .

 

候補訳1のBLEUスコアは0.0、候補訳2のBLEUスコアは0.27です。

BLEUのスコアは0~1で、1に近いほうが良いスコアといえます。つまり候補訳2のほうが良い翻訳として評価されたことになります。

(参照元:Google: AIと機械学習プロダクト:BLEUスコア

 

ただ、どうでしょうか?実際に人が見た印象から言うと、とくに候補約2が候補訳1よりも良いとはいえないですよね。

なぜBLEUが候補訳2の方を高く評価するかというと、BLEUは、参照文と候補訳の単語と、その並びが同じ割合の高いものを、高く評価するためです。

候補訳1は、候補訳2と比べると、参照訳と同じ単語の数が少ないです。

また候補訳1と参照訳を見比べてみると、まったく同じ単語が並んでいる部分が少ないです。BLEUは単語単位だけでなく、フレーズ単位でも、候補訳と参照訳が似ているかどうかを評価すします。この点でも、候補訳1のスコアは低くなります。

候補訳1では、参照訳とまったく同じ単語が4単語以上並んでいるところは1つもありません。そこで「候補訳1は基準を満たしていない」とBLEUと評価され、スコアが低くでました。

 

ただ、満点を1.0と考えると、候補2のスコア0.27もあまり良い点数とはいえません。理由は、参照訳と比較すると、文章の長さが短すぎるためです。

 

BLEUによる良くない評価の例をだしましたが、実際、自動評価と人が見た評価は、必ずしも一致しているわけではありません。またBLEUは日本語や中国語の翻訳については調査結果が少なく、欧米言語に比べて性能が良くないのでは、という指摘もあります。

ただ、色々な問題点はあるものの、BLEUという評価方法が広まってから、機械翻訳の評価は効率化がすすみました。今でも一番有名な評価方法であり、そのデメリットを補う研究もされています。

自動評価による方法:WER・TER

ではBLEU以外にどういった自動評価方法があるかというと、たとえば、WER(Word Error Rate)というのがあります。

単語誤り率、ワードエラー率、とも呼ばれます。音声認識の精度を図るためによく用いられています。GoogleやMicrosoftが開発した音声認識の製品の性能が良いと「すごいWERの数値がでたよ!」と、ニュースにも使われたりする指標です。

WERは、お手本となる参照文と評価する文(機械翻訳の訳)を比較します。評価する文の単語をどう挿入、置換、 削除すると、参照文になるかを数値化します。WERでは、BLEUと反対で、数値が少ないほうが良いスコアです。

 

これに少し手を加えたものが TER(Translation Error Rate)です。翻訳編集率ともいいます。挿入、 置換、 削除に加え、「シフト」という操作も計算式にいれます。

 

自動評価には、どれも一長一短あるため、組み合わせて行うことで、より正確な数字を出すことができます。

まとめ:機械翻訳の評価方法

今回は機械翻訳エンジンの評価についてご説明しました。

評価には大きく分けて、人手評価と自動評価の2種類あります。

 

人手翻訳は、翻訳において通常行う品質評価を使うことができます。さらに、「ポストエディットを行うことで目標の品質にすることができるか」という点も見ていく必要があります。

自動評価については、いくつか方法をご紹介しました。

一般的なのはBLEUという方法です。お手本となる参照文と評価する文を比較し、同じ単語やフレーズがちゃんと使われているかを評価します。

BLEUの他にも、色々な自動評価があります。よく使われるのは WER(Word Error Rate)、TER(Translation Error Rate) といった自動評価方法です。

どの自動評価方法にも一長一短あるので、単独で使うより、組み合わせて使うことで、高い効果が期待できます。

 

どの自動評価でも「人が見ると良い訳なのに自動評価でのスコアは低い」といったことは起こりえます。そのため、1文だけの自動評価で機械翻訳の性能を決めつけることはできません。

自動評価は、ある程度の数の品質の高いコーパス(対訳データ)がある場合に有効です。

 

ちなみに言語処理の研究では対訳データを「コーパス」と呼びますが、翻訳業界では、コーパスを翻訳メモリと呼びます。

翻訳メモリとは、過去の翻訳資産ですね。

翻訳メモリがあれば、機械翻訳導入の際に機械翻訳エンジンをトレーニングすることもできますし、自動評価の際にも利用することができます。

翻訳メモリは翻訳支援ツールを使って翻訳をしていれば自然と蓄積されていきますが、この言語資産は、機械翻訳の時代になっても役立てられるんです。

 

機械翻訳の評価、いかがでしょうか。

機械翻訳と同様、自動評価にも強みと弱みがありますよね。機械の長所と短所、両方理解したうえで上手に使いこなしていきましょう。