对于 “Machine Translation”, “机器翻译”可能是一个不太准确的译名,我想讨论的是我觉得最理想的由算法支持的自动同步翻译。
缘由是最近看到的对于机器翻译进展的宣传。毫不意外,深度学习在机器翻译领域也带来了突破性的进展。虽然最近看到 Michael Jordan 在批评翻译不应该被建模成一个序列到序列 (Seq-to-Seq) 的问题,但是这种简单到有些粗暴的方式确实很容易利用到深度学习的能力,在各种指标上看到明显的提高。可是对于这样的技术,感觉现在的展现方式太随意,甚至于有些草率。
两个说不同语言的人通过机器翻译对话是一个很棒的应用场景。但是实际演示中却是每个人都轮流对着一个设备或者程序说一句话,这实在是有些无趣。我觉得最理想的应用形式应该是两个人各自说着不同的语言,但是却是面对面的交谈。机器翻译只带来很短的停顿,不影响双方流畅的沟通。甚至于可以自然的让两个人就一些话题进行争论。对话的本质是信息的流动,流动越是顺畅,对话效率即越高,也更容易促进思考。
当然实现这样的效果并不容易。把场景简化到两人对面而坐,桌上放着翻译的设备。为了支持流畅的对话,这个设备需要可以同时接收双方的语音,定向的 (或者是通过耳机) 输出语音。在语音信号的处理上还需要可以分辨两人的声音。最关键的是,翻译的算法很难再简单的建模成序列到序列的形式。算法本身需要对接下来可能会听到的内容做一些预测,然后很快的根据听到的一两个词做出调整。虽然形式上不同语言的语法差异可以很大,习惯上组织语言的顺序可能相反,从而导致近同步的翻译比较困难。但是实际上,语言大都很灵活,同一个意思可以用不同的话来表达,顺序不同意思相同的情况完全可能存在。所以,我觉得达到近同步的机器翻译未必完全不可能。
希望有一天可以见到这样的演示甚至于产品,可以真的让说不同语言的人可以无障碍的自由灵活的沟通。