オンラインデータを複数の言語へ翻訳する需要は急速に高まっています。コンピュータ-ベースの翻訳は役に立ちますが、完璧というには程遠いものがあります。
2つのシリコンバレーチームは、機械翻訳を進展させているものの、複数の言語に通じた人間を機械で代替することは、口で言うほど簡単ではないことを痛感しています。
How are you today… Como estas hoy? Ky? wa dono y? ni aru… I’m an American.
シリコンバレーのグーグル本部では、チームが翻訳ソフトウエアの開発に従事しています。Senior Communications AssociateのRoya Soleimaniが開発状況を次のように説明しています。
「たった一回のクリックで70以上の言語でWebページにアクセスでき、スマートフォン上のテキストや音声、さらにはメニューや道路標識の画像を即座に翻訳します。ポケットの中で世界中の言葉にアクセスできるのよ。究極のStar Trelコンピュータにするのが目標よ」と彼女は言います。「ウェブページ翻訳は多言語コミュニティーとグローバルマーケットに参加するオンライン-ユーザーにとってますます重要なツールになっているわ」。
モバイル部門のグーグル翻訳チームを先導しているJosh Estelleは、「世界の情報を国際的にアクセス可能および利用可能にすることが自分らのミッションです」と述べています。
実際のところ、グーグルはそれをどうやって実現するのでしょう?
「人々が考えているほどbilingual elvesではありません。システムをサンプルデータなしで構築しており、我々はそれを統計的機械翻訳(statistical machine translation)と呼んでいます」。
なぜそれほど難しいことなのでしょうか? という問いに、グーグルのRoya Soleimaniはそれが深刻なコンピュータ科学の問題であると説明しました。
「慣用句やニュアンスは数えきれないほどあるわ」とのこと。
方言やアクセント、曖昧さなどは言うまでもありません。「clubby」を意味する「gordito」などのスペイン語は、「侮辱」から「愛情」までさまざまな意味合いをもちます。グーグルの翻訳チームはそのような課題に取り組んでいるのです。
「数学的アルゴリズムを用いて全データを処理し、「真実」の小さな塊、つまり良質な翻訳の一部分を引き出すのです」とEstelleは言います。
そのため、グーグルの翻訳文はオンライン上の翻訳済みデータ以上の品質にはなりません。
アップルのSIRIを発明したシリコンバレーのSRIインターナショナルで、翻訳チームのリーダーを務めるKristin Precodaは、米軍向けに開発したスマートフォン用アプリを紹介してくれました。これは英語とパシュトウ語(アフガニスタンの主要言語)を話す人々の間で通訳を行います。
コンピュータ自らが失敗から学び、明確な説明を要求できるようにするための研究をPrecodaらは行っています。