1.3.2 机器翻译
机器翻译源于对自然语言的处理,就是使用计算机把一种自然语言翻译为另一种自然语言,这种高度智能化的任务在计算机诞生之初就被列为一项重要的应用研究。1946年,世界上第一台现代电子计算机ENIAC诞生。随后不久,信息论的先驱、美国科学家沃伦韦弗于1947年提出了利用计算机进行语言自动翻译的想法。1949年,沃伦韦弗发表《翻译备忘录》,正式提出机器翻译的思想。
语言作为信息的载体,其本质可以被视为一套编码与解码系统,字/词是构成语言的基本元素,每一种语言都可以解构为字/词组成的集合。但是同一个词可能存在多种意义,在不同的语言环境下也具有不同的表达效果,逐字对应的翻译只适应于意义单一的专业术语,并不适应于复杂多变的日常生活语言。例如,同样是“花”这个词语,在汉语中可以表示多个含义:花朵、开花、眼花、花心等多重意思,不同语言之间有着不同的语法规则,因此,简单的逐字翻译不可能在两种不同语言的基本元素之间架起一座桥梁,实现准确的对应。
美国语言学家,转换—生成语法的创始人诺姆·乔姆斯基为机器翻译提供了全新的理论基础:他在经典著作《句法结构》(Syntactic Structures)中指出,语言的基本元素并非字词,而是句子,一种语言中无限的句子可以由有限的规则推导出来。机器翻译开始由逐字翻译转向基于句法规则的整句翻译,“规则”指的是句法结构与语序特点。这种翻译方法把句子视为整体,根据句子的逻辑关系进行处理,处理方式更为灵活,更符合语言表达的实际。
但是基于句法规则的机器翻译方法很快遇到了新的难题:生活中存在着看似没有语义联系,却约定俗成的个性化、多样化的表达,翻译软件很难把“你酱紫”翻译成“你这样”。基于句法规则翻译的窘境迫使研究者们从新思考机器翻译的原则转向基于语言实例的翻译方法。现在,从人类已有语言实例中提取规则,基于深度学习和海量数据挖掘的机器翻译已是业界主流,谷歌公司正是这个领域的领头羊与先行者。
在基于神经机器翻译(Google neural machine translation)的算法之前,谷歌翻译技术团队的主要力量是语言学家,主要从事语法规则的研究。当机器翻译的理念从句法结构与语序特点的规则转换为对大量语料的统计分析、数据挖掘、构建模型后,谷歌公司将技术团队中的主要力量从原本的语言学家替换为计算机科学家。机器翻译走向了一个神经机器翻译的新阶段。
2016年9月,谷歌公司研究团队宣布开发Google神经机器翻译系统,同年11月,Google翻译停止使用其自2007年10月以来一直使用的专有统计机器翻译(SMT)技术,开始使用神经机器翻译(NMT)。神经机器翻译最主要的特点是整体处理,也就是将整个句子视作翻译单元,对句子中的每一部分进行逻辑的关联翻译,翻译每个字词时都考虑到整句话的逻辑。
在结构上,谷歌公司的神经机器翻译建立了由长短期记忆层构成的分别用于编码和译码的递归神经网络,并引入了注意力机制和残差连接,让翻译的速度和准确度都能达到用户的要求。编码器和译码器都由8个长短期记忆层构成,两个网络中不同的长短期记忆层以残差连接。编码器网络的最底层和译码器网络的最顶层则通过注意力模块进行连接,其作用在于使译码器网络在译码过程中分别关注输入语句的不同部分。
出于效率的考虑,神经机器翻译同时使用了数据并行计算和模型并行计算。数据并行计算的作用在于并行训练模型的多个副本,模型并行计算的作用则在于提升每个副本中梯度计算的速度。此外,谷歌公司还在较精确性和速度之间做出了一些折中,利用量化推断技术降低算术计算的较精确性,以换取运行速度的大幅度提升[35]。
在提出神经机器翻译仅仅两个月后,谷歌公司又提出了“零知识翻译”的概念,即直接将一种语言翻译成另一种语言(例如中文到日文)。以前Google翻译会先将源语言翻译成英文,然后将英文翻译成目标语言,而不是直接从一种语言翻译成另一种语言。这一系统在前文系统的基础上更进一步,只用一套模型便可以实现103种不同语言间的互译。这一多语种互译系统是对原始系统改进的结果:它并未修改基础系统的模型架构,而是在输入语句之前人为地添加标志以确定翻译的目标语言。通过共享同一个词胞数据集,这一单个模型就能够在不添加额外参数的前提下实现多语种的高质量互译。
虽然在模型训练的过程中不可能将每种语言都纳入数据库,但互译系统可以通过特定的“桥接”操作实现对在训练过程中没有明确遇见过的语言对之间的互相翻译,这也就是“零知识翻译”的含义。
虽然谷歌公司在机器翻译领域取得了很大成就,但机器翻译的准确率仍然有待提高,更不用担心机器翻译取代人工翻译。机器翻译的文本类别有限,当前来看结果也不甚理想,远没有达到令人满意的程度。但是,以GNMT系统为代表的神经机器翻译的发展,为今后人机结合的翻译提供了必要的保障。GNMT系统的翻译结果可以作为英语专业学生提升翻译水平的一面镜子,查找自身的不足。在教学中要逐步增加中国文化的渗透,从而使当今学生在从事英语翻译的过程中,自然担当起祖国优秀文化传播者的角色,让世界了解中国,让中国走向世界。GNMT系统和英语专业学生的翻译水平的共同提高,必然会为译文质量的提高和翻译效率的提升打下坚实基础。