ニューラルネット翻訳が実用化される時代にできる事を考える

日本国内の機械学習クラスタ※では昨日から大きく話題になっていますが、Google翻訳における日本語・英語翻訳にニューラルネットワークが導入されたようです。

ニューラルネットワークを用いた機械翻訳自体が新しい (私の記憶違いでなければ初出は2014年) ので実装と実運用だけでも十分に話題性がありますが、そうした研究者、開発者の視点を排すると、翻訳先言語の出力文が従来の翻訳方式と比較して格段に流暢になっている事が注目の理由です。




ニューラルネット翻訳以前の (統計的) 機械翻訳は、翻訳元言語の1センテンスを単語または単語列の要素に分解してから翻訳先言語の単語 (列) に個別に変換する処理を行うものです。

従って部分的には正しい訳文を出力する事があっても、センテンス全体としては不自然な訳文が得られる事が少なくないのは皆さんのよく知られるところです。

今回、新しく導入されたニューラルネット翻訳は、翻訳元言語の文を入力として翻訳先言語で新しく出力文を生成するので、1センテンス単位で見た際に翻訳先言語の文として破綻が少ない事が特徴です。

その出力結果を見て、機械翻訳は数年以内に完成すると言った意見や翻訳者が不要になると言った趣旨の発言が散見された事が、今回の記事を書く事に至った直接的な動機となっています。

結論から述べると、今後の数年のうちに機械翻訳が完成する事はありませんし、翻訳者が不要になる事もありません。いくらニューラルネット翻訳の訳出が優れているとは言え、その原理上、既に過去に翻訳されて対訳文が整備された分野と言語対の組み合わせでなければ正確な翻訳は期待できませんし、現在の機械翻訳で新しい訳語を一から作り出す事はできません。

また (再現性とのトレードオフになるので微妙なところですが) 原文のニュアンスを伝えるための訳者のセンスは (その原著者と訳者の専用対訳コーパスなどを整備でもしない限り) 反映されませんので、訳文も常に画一的になります。

そして一般的には余り認知されていない事なのですが、機械翻訳に用いられる対訳文という特殊な翻訳文は量自体が限られている上に、分野と言語対の組み合わせに著しい偏りがあります。

機械翻訳は対訳文という過去の翻訳例を参照して再現するものですので、英語・フランス語間の法律文の翻訳など十分な対訳文が得られる分野と言語対では威力を発揮する事が期待されますが、日本語・ヘブライ語間での日常会話の翻訳には余り期待はできません。



機械翻訳と翻訳者の関係はここで終わりにしますが、この2者の関係は自動化が進む他の分野に於いても人ができる事を示唆する事例になると私自身は考えています。

自動運転でも光学文字認識 (OCR) でも音声認識でも新規性と同時に有用性を謳う以上、潜在的に既存の仕事を置き換える可能性を意識せざるを得ない場面はある訳ですが、一方で全ての運転手や議事録作成者が不要になる事は現実的ではないと思われます。

恒常的に反復されマニュアル化され得る部分については自動化が進む事が予想されますし、積極的に推し進めるべきでさえありますが、ルーチンでは処理できない判断や推測が必要となる部分ではどうしても専門家の知見が必要となります。


※ 人工知能という単語はアレルギー反応の原因となるので使いません

Leave a Reply

Your email address will not be published. Required fields are marked *

Contact Us