机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。目前的机器翻译软件通常可允许针对特定领域或是专业领域(例如天气预报)来加以定制化,目的在于将词汇的范围缩小至该特定领域的专有名词上,以借此改进翻译的结果。这样的技术适合针对一些使用较正规或是较制式化陈述方式的领域。例如政府机关公文或是法律相关文件,这类型的文句通常比一般的文句更加正式与制式化,其机器翻译的结果通常比日常对话等非正式场合所使用语言的翻译结果更加符合语法。 机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。 一般而言,RBMT分析一段文字,通常会先建立目标语言中介的、象征性的表义字词。再根据这中介的表义字词来决定使用人工国际语言(interlingual)化的机器翻译,或是使用转化原则法的机器翻译(transfer-based machine translation)。这些方法都必须拥有具备足够形态学的、语句学的、以及语义学的资讯以及大量的字词规则所建构的辞汇。常见机器翻译的难处在于无法给于适当且足够庞大的资讯,来满足不同领域或是不同法则的机器翻译法。举例来说,对于一个需要统计学法则的翻译法,给予它大量的多语言素材是必要的,但对于文法式法则的翻译法便显得没有太大意义。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。 统计机器翻译(SMT)的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,采用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。
神经机器翻译(NMT)基于深度神经网络,为机器翻译提供了端到端的解决方案,在研究社区中受到了越来越多的关注,且近几年已被逐渐应用到了产业中。NMT 使用基于 RNN 的编码器-解码器框架对整个翻译过程建模。在训练过程中,它会最大化目标语句对给定源语句的似然度。在测试的时候,给定一个源语句 x,它会寻找目标语言中的一个语句 y*,以最大化条件概率 P(y|x)。由于目标语句的可能数目是指数量级的,找到最优的 y*是 NP-hard 的。因此通常会使用束搜索(beam search)以找到合理的 y。束搜索是一种启发式搜索算法,会以从左向右的形式保留得分最高的部分序列扩展。特别是,它保存了一群候选的部分序列。在在每个时间步上,该算法将都会通过添加新词的方法扩展每一个候选部分语句,然后保留由 NMT 模型评分最高的新候选语句。当达到最大解码深度或者所有的语句都完全生成的时候(即所有的语句都包含 EOS 符号后缀的时候),算法就会终止。
发展历史 机器翻译是一个已经见证了大量发展历程的应用领域。1949年,Warren Weaver 提出了机器翻译的思想。1954年,Georgetown University MT研究团队在1954年进行了IBM-701系统的演示,该系统表现出了机器翻译的可能性。1956年,第一次MT会议在伦敦召开,1962年,机器翻译和计算语言学协会在美国成立,1964年,美国国家科学院成立了自动语言处理咨询委员会(ALPAC)来研究MT,许多研究人员加入了该领域。然而,真正的进展要慢得多,并且在ALPAC报告(1966)发现这项为期十年的研究未能达到预期后,资金大大减少了。在这期间,蒙特利尔大学于1965年成立了TAUM研究小组,它的大部分研究都是在1968年至1980年间完成的。其中他们于1976年开发出的TAUM-M?T?O 系统,在翻译上取得了好的成绩,成为了这一领域的一个里程碑,标志着机器翻译由复苏走向繁荣。 1993年,Peter F. Brown 和 Della Pietra 开始将统计方法应用于机器翻译。他们描述了一系列翻译过程的五个统计模型,并给出了给定一组相互翻译的句子对来估计这些模型参数的算法。他们给定的例子局限于法语和英语互译,但他们认为该模型也可以在其他语言对上运行良好。2003年,Philipp Koehn等学者提出了一种新的基于短语的翻译模型和解码算法,并评估和比较几种先前提出的基于短语的翻译模型。同年,Yoshua Bengio 等学者对SMT进行了批判:他们认为统计语言建模的一个目标是学习一种语言中单词序列的联合概率函数。由于维度的诅咒,这本质上是困难的:模型将被测试的单词序列可能与训练期间看到的所有单词序列不同。他们提建议通过学习单词的分布式表示来对抗维度的诅咒,并提出了一个基于神经网络的语言模型。2006年,谷歌推出谷歌翻译,当时使用的技术是统计机器翻译。2009年9月IBM正式推出了ViaVoice Translator机器翻译软件,为自动化翻译奠定了基础。 2014年Dzmitry Bahdanau和Yoshua Bengio等学者描述了神经机器翻译,与传统的统计机器翻译不同,当时神经机器翻译的目标是建立一个单一的神经网络,可以共同调整以最大化翻译性能。他们推测使用固定长度矢量是提高这种基本编码器 - 解码器架构性能的瓶颈,并且给出了相关解决建议。他们还在机器翻译中引入了将原始序列元素和输出序列元素相关联的注意力机制,进一步使得神经机器翻译得到大幅提高。 2017年Di He等学者针对神经机器翻译(NMT)常使用的束搜索(beam search)在解码时只向前计算一步,所以只能在每个时间步搜索局部最优,而通常不能输出全局最优的目标语句的问题提出了利用价值网络改进神经机器翻译的想法。他们提出了价值网络的循环结构,并使用双语数据训练其参数。在测试过程中,当需要解码词 w 的时候,需要同时考虑由 NMT 模型给定的条件概率和由价值网络预测的长期价值。实验证明,这种方法可以显著提高多种翻译任务的准确率。 目前机器翻译的方向主要在无监督翻译,Mikel Artetxe等学者提出了用完全无监督的方式训练 NMT 系统的新方法,该方法只需使用单语语料库。他们的模型包含经过少许修改的注意力编码器-解码器模型(attentional encoder-decoder model),该模型使用去噪和回译(backtranslation)结合的方式在单语语料库上进行训练。尽管该方法很简单,但在 WMT 2014 法语-英语和德语-英语翻译中分别取得了 15.56 和 10.21 的 BLEU 得分。 该模型还可以使用小型平行语料库,使用 10 万平行句对时,该模型分别取得了 21.81 和 15.24 的 BLEU 得分。这在无监督 NMT 方面是一个突破。
瓶颈 在某些情况下,俚语和行话等内容的翻译会比较困难(受限词表问题)。 专业领域的机器翻译(比如医疗领域)表现通常不好。 机器不易理解歧义和「良构性(formedness)」。
未来发展方向 神经机器翻译当前的发展很有前景,不仅是因为它实现了优良的表现,而且也有望实现 zero-shot 翻译/迁移学习。 类似于人类翻译的实时转译是大多数消费者和研究者着眼的未来发展方向。
|