ニューラルネット翻訳が実用化される時代にできる事を考える

日本国内の機械学習クラスタ※では昨日から大きく話題になっていますが、Google翻訳における日本語・英語翻訳にニューラルネットワークが導入されたようです。

ニューラルネットワークを用いた機械翻訳自体が新しい (私の記憶違いでなければ初出は2014年) ので実装と実運用だけでも十分に話題性がありますが、そうした研究者、開発者の視点を排すると、翻訳先言語の出力文が従来の翻訳方式と比較して格段に流暢になっている事が注目の理由です。




ニューラルネット翻訳以前の (統計的) 機械翻訳は、翻訳元言語の1センテンスを単語または単語列の要素に分解してから翻訳先言語の単語 (列) に個別に変換する処理を行うものです。

従って部分的には正しい訳文を出力する事があっても、センテンス全体としては不自然な訳文が得られる事が少なくないのは皆さんのよく知られるところです。

今回、新しく導入されたニューラルネット翻訳は、翻訳元言語の文を入力として翻訳先言語で新しく出力文を生成するので、1センテンス単位で見た際に翻訳先言語の文として破綻が少ない事が特徴です。

その出力結果を見て、機械翻訳は数年以内に完成すると言った意見や翻訳者が不要になると言った趣旨の発言が散見された事が、今回の記事を書く事に至った直接的な動機となっています。

結論から述べると、今後の数年のうちに機械翻訳が完成する事はありませんし、翻訳者が不要になる事もありません。いくらニューラルネット翻訳の訳出が優れているとは言え、その原理上、既に過去に翻訳されて対訳文が整備された分野と言語対の組み合わせでなければ正確な翻訳は期待できませんし、現在の機械翻訳で新しい訳語を一から作り出す事はできません。

また (再現性とのトレードオフになるので微妙なところですが) 原文のニュアンスを伝えるための訳者のセンスは (その原著者と訳者の専用対訳コーパスなどを整備でもしない限り) 反映されませんので、訳文も常に画一的になります。

そして一般的には余り認知されていない事なのですが、機械翻訳に用いられる対訳文という特殊な翻訳文は量自体が限られている上に、分野と言語対の組み合わせに著しい偏りがあります。

機械翻訳は対訳文という過去の翻訳例を参照して再現するものですので、英語・フランス語間の法律文の翻訳など十分な対訳文が得られる分野と言語対では威力を発揮する事が期待されますが、日本語・ヘブライ語間での日常会話の翻訳には余り期待はできません。



機械翻訳と翻訳者の関係はここで終わりにしますが、この2者の関係は自動化が進む他の分野に於いても人ができる事を示唆する事例になると私自身は考えています。

自動運転でも光学文字認識 (OCR) でも音声認識でも新規性と同時に有用性を謳う以上、潜在的に既存の仕事を置き換える可能性を意識せざるを得ない場面はある訳ですが、一方で全ての運転手や議事録作成者が不要になる事は現実的ではないと思われます。

恒常的に反復されマニュアル化され得る部分については自動化が進む事が予想されますし、積極的に推し進めるべきでさえありますが、ルーチンでは処理できない判断や推測が必要となる部分ではどうしても専門家の知見が必要となります。


※ 人工知能という単語はアレルギー反応の原因となるので使いません

再び都民の森へ

ホームグラウンドと言いながら、3ヶ月ほどご無沙汰していた檜原村の都民の森へ再訪しました。

ヒルクライムレースを前に事故や故障を予防する目的で、外出を避けて専ら3本ローラーを用いた練習を行っていた事から、自ずと奥多摩とも疎遠になっていました。

レースも無事に終了したところで、再び気軽に奥多摩ライドに出かけられるように新しい経路を開拓するのが今回の目的です。




しかし、長らく実走を怠っていた為、ローラー台を回すばかりの練習で無自覚に身についた悪癖が、図らずもこのソロライドで露呈する事になります。

渋谷から246号線、多摩川サイクリングロード、睦橋通りを経由して檜原街道に入るのが今回のルートです。

夏の早朝とは打って変わって、日の出も遅くなっている事が長距離走行には辛い季節です。快晴でも気温も低く、あきる野市から檜原村に入った際には、気温計は14℃を示していました。

自走で村役場まで辿り着くと、そのまま都民の森へ向けてのヒルクライムルートに入ります。

走り慣れた道ではありますが、3ヶ月ぶりに来てみると意外と傾斜のきつい坂も多く、コースの長さと過酷さに改めて驚かされます。

それに加えての今回の寒さです。夏の間は暑さと水分不足が最大の問題でしたが、登りの途中から悴んで、力の入らない指先がブレーキコントロールを難しくします。指先を頬に当て、温めながらクランクを回して坂を登ります。

都民の森では奥多摩周遊道路に近づく後半の方に斜度10%、9%の注意を促す看板が連続して現れるので、後半になればなるほど厳しくなる印象がありましたが、久し振りに実走してみると中盤あたりの急勾配の方が厳しいと感じます。

特に上川乗交差点の先、人里の手前、数馬ヘリポート付近の登り坂では、悴む手を押さえ付けてダンシングしたくなる程に傾斜が激しいと感じられます。

もしかすると後半部分でのみ勾配を示す道路標識が建てられているのは、そこが経路中で最も傾斜が激しい場所だからではなく、自動車が通る事を想定して後天的に整備された事の名残に過ぎないのかもしれません。

厳しい檜原街道を抜けて旧料金所を跨ぐと、いよいよ奥多摩周遊道路に入ります。

ここまで来てしまえば、残りは9%の坂が延々と3km近く続いているだけなので気が楽になるところです。

いつもであれば、そう感じているところなのですが、今日ばかりは無事に帰れるかどうかが不安で仕方がありません。

長らくローラー台ばかり回していた事と、手が悴む程の寒さにより80kmほど走ってもドリンクが全く減らなかった事から、今日も一度も補給や休憩を入れずにここまで来てしまいました。

東京は郊外でも交通量が多過ぎるので、朝4時、5時から長々と信号を待って道を横断してコンビニによってなんてしたくはありません。しかし、いざ、補給が欲しいと感じたときには最寄りの店舗から 40km も離れてしまっています。

元よりソロライドでは休憩頻度が極端に低くなる傾向がありましたが、練習を止めた途端にいつでも補給できるローラー台に慣れ過ぎていて、補給のタイミングをすっかり失念していました。それも朝食もろくに摂らずに。

今から補給を行うには手遅れですが、レストランや売店のある都民の森に到着するにはエネルギー不足の状態で標高1000mまで登らなければなりません。

しかし、ここまで来てしまったからには、最寄りの売店まで無事に辿り着くのが最も現実的です。ハンガーノックの恐怖と戦いながら、省エネルギーを心掛けてペースを落とし、安全に辿り着く事だけを考えて淡々と登ります。こうしてみると、とても長い坂に感じられます。

ようやくゲートに辿り着いた際には、達成感よりも安心感を覚えます。


疲労困憊した体にコーラを流し込み、都民の森・とちの実売店さんでカレーライスを頂きます。
名物のカレーパンにあやかっての選択です。カレーうどんも美味しかった思い出がありますが、ここでカレーライスが頂けるのも贅沢ですね。

休憩の後は風張峠を越えたいところですが、出発が遅い事と午後から用事があるので名残惜しいですが引き返してライドを終えます。

これから Linux を始めるなら

好むと好まざるとに関わらず、これから初めて Linux に触れようとする人には『新しいLinuxの教科書』がオススメです。

この書籍の凄いところは、記載内容に無駄なところが一つもない点で、書かれている内容は Linux を使用していく上で実際に役に立つものばかりです。

本書の内容を 100% 理解していれば、今後の Linux を使用した研究、開発、システム運用などがスムーズに行えるようになることは容易に想像できます。


新しいLinuxの教科書

もっと早いうちから、この本に出会いたかったなというのが正直な感想です。

特に大学の学部4年、大学院の修士1年ぐらいの時に読了していれば、その後の研究生活は随分と楽になっただろうなと思えます。

私と Linux との出会いは、ちょうど2000年代の終わり、2010年代の始まり頃で、大学の研究室に入ったら、いきなり CentOS を使用することになりました。

私の研究室は学部レベルでは電気電子に所属していたので、新入生はほぼ全員が初めて Linux に触れる素人ばかりでした。

当然、研究生活に必要な知識を身につけるための勉強会が毎日のようにあったのですが、その内容がまさに本書の内容とほとんど同じだったので驚きました。

相違点があるとすれば、グリッド・コンピューティングや独自ライブラリの使い方、ドキュメントの書き方も勉強会には含まれていたことぐらいです。

それぐらい実践的で、直ぐにでも役に立つ内容ばかりです。




日本で広く使われている CentOS を対象としている点も実用的で好感が持てます。

いくら Ubuntu の方がハードウェア認識率が高くても、Gentoo の方がシンプルで使いやすくても、研究組織や企業で最も使われていることを考えると、日本語環境から自由にならない限りは CentOS との付き合いは避けては通れません。

これだけ実用的な本書ですが、 (残念ながら) もちろん一冊で必要なことが全て学べる訳ではありません。

本書中にもある Vi(m) エディタの使い方やシェルスクリプトの書き方、頻繁に使うコマンドラインツール、 バージョン管理システム (Git) の使い方などは本書の断片的な情報に留まらず、別の書籍も用いて網羅的に学んだほうが良いです。

また、そのタイトルに反してカーネルやデバイスドライバについて書かれた書籍ではないので、Linux や OS について詳しく学ぼうとする用途には適していません。

実のところ、私はハードウェアに近い低レイヤの理解を深めたくて本書を手に取ったので、その点ではあまり役に立たなかったとも言えるのですが、勘違いという一面もあるので仕方ありません。

いまやネットワークサーバだけでなく、Android 端末やドローンや組み込みシステムに普遍的に用いられている Linux への理解を深めることは無駄にはなりません。

そのための第一歩として本書は間違いのない教科書です。

ただし、Linux を実際に使うのであれば、他にも読んでおくべき本はたくさんあるので、本書だけに留まらず、実現したい目的に応じて周辺知識も同時に学んでいくことが重要です。

以下は読んでおくべき本の一例


Advanced Programming in the UNIX Environment (3rd Edition) (Addison-Wesley Professional Computing Series)


Computer Networks: Pearson New International Edition


An Introduction to Database Systems