机器翻译在语言服务行业发挥着越来越重要的作用,如何提高机器翻译的准确度是急需解决的问题。除机器翻译技术本身的改进之外,人工参与是提高机器翻译质量的重要途径,这也是典型的人机交互翻译。针对机器翻译的交互而言,主要可分为两种:译前编辑与译后编辑。译前编辑是指在机器翻译之前对需要翻译的文本或文档进行有针对性的修改编辑以提高机器翻译产出的质量,译后编辑则是指对机器翻译的原始产出进行修改编辑的过程,目的也是为了通过人机结合提高机器翻译的最终质量。有效的译前编辑可以在很大程度上减少译后编辑者的工作量,所以业界有时也把译前编辑视为(广义)译后编辑的有机组成部分。一般而言,译前编辑与机器翻译的充分译后编辑密切相关,两者都是为了有效地传播信息,需要保证较高或可出版(publishable)的翻译质量。然而,如何进行译前编辑,什么样的文本适合进行译前编辑?有没有一定的规则可供遵循?是否可以运用受控语言(controlled language)的写作规则对文档进行译前编辑,基于受控语言的译前编辑对机器翻译质量的影响到底如何?基于实验与实例,本文尝试对这些问题进行解答,以探索受控语言在机器翻译的译前编辑方面的应用潜力。 如果原语文档使用受控语言写作,机器翻译的准确度便会大幅提高,尤其适用于多语发布的文档。胡清平曾指出,“翻译软件的研发和受控语言的推广是改进机器翻译质量的两个方向”,受控语言加机器翻译便是受控翻译(controlled translation),并提出了受控汉英翻译的设想与十点建议,对基于受控语言的译前编辑不无启示。当然,译前编辑并不能解决所有问题,因为很多机器翻译的错误是很难预知的,如果要达到较高的质量,还需要对机器翻译的产出进行译后编辑,刘毅就认为“无论机器多智能,也无论译者花了多长时间做译前编辑工作,未成功翻译的文本还是占有一定比例,我们不能完全依赖机器翻译,还需进行机器翻译后的编辑”。所以本文也会适当地讨论译后编辑,探讨如何通过基于受控语言的译前编辑以及对编辑过原文的机译产出进行译后编辑,以产生更高质量的译文。翻译自动化用户协会(TAUS)提供的译后编辑线上课程包括六个实践模块,其中之一便是译前编辑,这也一定程度上说明了译前编辑与译后编辑密不可分的关系。目前机器翻译主要应用于以下三个方面:(1)产生粗略的翻译,不需对原文或译文进行任何编辑,可称之为概要式或浏览式翻译;(2)对机器翻译的原始产出进行译后编辑以提高译文的质量(也包括译前编辑);(3)在某具体领域使用受控语言以生成较高质量的译文。通过初步实验,笔者认为,也完全可以把受控语言的写作原则应用到机器翻译的译前编辑之中,基于受控语言的译前编辑可以有效降低原文本身的复杂性与歧义性,提高机器翻译的可识别度(原文本身的可翻译性),从而减少(充分)译后编辑的工作量。 基于受控语言的译前编辑 目前已经有一百多种受控语言,广泛运用在大公司的技术文档写作中。通过采用语法和词汇的限制,受控语言提供更为清楚与直接的写作,减少词汇句法方面的歧义,提高了文档的可读性和可译性,使其更适合进行机器翻译,在大公司的科技文本系统中被广泛使用。受控语言采用受控词汇和受控语法,其中单词量和每个单词的意义都被严格控制以避免词法的歧义性,应用于机器翻译系统时是非常有利的。受控语法旨在强化清晰的风格,避免省略结构以及多重复合句的出现,把句法歧义(如介词短语结构、形容词修饰、回指短语等)降到最低程度。Mitamura 等和Nyberg 等提出了实施受控翻译的有利条件:翻译目的是为了传播信息,作者经过高水平训练,受控语言需经过检测者(软件)检验,应用领域为技术领域或特定领域。值得说明的是,受控翻译主要指文本写作时就使用受控语言以提高文本本身可理解性与可翻译性(针对机器翻译而言),基于受控语言的译前编辑主要是针对未使用受控语言的文本而言的。 机器翻译的译前编辑也可基于受控语言的写作规则进行规范,或者说对科技文本进行译前编辑也是受控翻译环境的组成部分。译者需要调整不同行业的文本使其适应受控语言写作指南,用来实现原语写作的连贯性以及提高这些文本的可译性。当描述语法和词性限制时,写作指南可在相关文献中轻易找到。Mitamura 等解释道,KANT机译系统所用的受控英语的词汇限制包括以下几个方面:尽量使用限定词等功能性词语;避免使用代词和连词,因为其容易增加句子歧义;在连词后面或简化关系从句中应该限制或减少使用分词形式(包括现在分词与过去分词),因此上述两个例子应改为:While you are driving the vehicle...和The directional stability that is caused by the wheel lock-up...。Mitamura 等(同上)还指出短语和句子限制的不同,在短语限制层面,要用单个动词替代动词短语(turn on应改为start),重复联合结构中的介词以避免歧义,如短语recorded memory of radio and each control unit是歧义的,因为它可以被解释为{recorded memory of radio} and {each control unit} 或 recorded memory {of radio and each control unit}。在句子限制层面,Mitamura 等(同上)指出有关并列句式(两部分应该处于同种形式),关系从句(应该由关系代词引入)以及省略结构(应尽量避免出现)的规则。Wojcik(1998)提供了波音所使用的受控语言的写作规则,指出:(1)诸如the,a,an,this和these这样的限定词应当合理使用;(2)在描述性写作中应该避免使用被动语态;(3)句子长度应该限定在25个单词以内;(4)应该避免超过三个单词的名词群;(5)不应该有超过两个形容词修饰一个名词或一个名词群;(6)现在分词的形式应该尽量避免;(7)动词后面的关联词that不能省略;(8)关系从句必须由关系代词引入;(9)并列结构中鼓励出现平行结构。这些受控语言的写作原则对机器翻译的译前编辑(英汉方向)基本上同样适用。 关于机器翻译的译前编辑,国内也略有探讨,个别学者也提出了受控语言在译前编辑中的作用。魏长宏探讨了几种译前编辑的方法,包括格式转换、拼写检查、句子调整、建立翻译记忆库、使用受控语言以及选择体裁和专业领域。魏长宏(同上)指出,受控语言是对原语的无限集进行一定的限制,这种限制分为自然限制和人为限制,自然限制指把研究对象局限于某一特殊领域内的子语言,人为限制指机器翻译系统附加上一个受控语言写作环境,让写作环境来提示作者写出满足机器翻译系统要求的句子,从而限制句型与句子的复杂度,保证系统处理的正确率。在魏长宏的研究中,采取受控语言只是译前编辑非常小的一部分,此部分的探讨远非充分与深入。吴慧颖以英国诺里奇市城堡博物馆荷兰画作的简介为例,研究了译前编辑与译后编辑分别使用机器翻译的对比。吴慧颖(同上)认为译前编辑所花费的时间和精力相对于译后编辑来说更长、更多,但其翻译效果并没有优于译后编辑。然而,这种观点有待商榷,针对可出版的机译质量而言,译前编辑与译后编辑更多的是一个整体,合理的译前编辑可以节省译后编辑的工作量,两者结合会比单纯的译后编辑节约精力。总之,“受控语言不仅可以提高技术文献的可读性和标准化程度,而且可以提高技术文献的可译性,是一种改进机器翻译质量比较有效的方法”。如果原文没有用受控语言写作的话,基于受控语言的译前编辑无疑也是提高机器翻译质量的有效途径。 案例研究 1.实验设计 机器翻译比较适合技术文档的翻译,技术翻译与技术写作共同构成了技术传播,受控语言在技术传播领域大有用武之地。本文以技术传播领域用户手册的翻译为例来探讨基于受控语言的译前编辑对机器翻译的影响,选择苹果公司iPhone5系列的用户手册作为原文(英语)。用户手册比其他各种科技文本更简洁易懂,方便对应用与不应用译前编辑的机译产出进行对比。此外,苹果手机销售到全球各地,用户手册的使用非常广泛,势必会被译为多种语言,所以很容易找到苹果手机用户手册的不同语言版本作为参考译文。在中国,苹果公司及其官方用户手册都具有高知名度和权威性;每个语言版本的用户手册都是由专家团队设计,确保了准确性;英语原文和汉语标准译文都很容易从网上获取。所以笔者认为苹果手机的用户手册是测试基于受控语言的译前编辑对谷歌翻译影响的上乘选择之一。 在本研究中,为了将有无译前编辑的机译产出质量进行对比,原文样本被分为受控组(直接使用谷歌翻译)和实验组(译前编辑后再用谷歌翻译)进行测试。具体过程如图1所示。
首先,将原文输入到谷歌翻译引擎中,得到第一组译文。然后,使用AST评估标准,参照标准译文分析第一组译文的质量。接着,将经过译前编辑的英文原文输入到谷歌翻译中,得到第二组译文,同样依照AST评估标准与标准译文,评价第二组译文的质量。最后,将两组的评估得分进行对比,观察第二组译文质量是否有所提高。笔者邀请五位专业译员对于两组译文进行评估,并将对两组译文的得分进行回归分析,以说明译前编辑效果是否显著。此外,为了生成更好的译文,作者还对译文进行了译后编辑,以弥补译前编辑的不足。由于本文案例工作量不大,笔者没有采用机器自动评估方法。人工评估以其操作简便评价准确的优点更受青睐。在各种人工评估方法中,笔者选取了语言学数据联盟首先提出的Adequacy Scale Task(充分性目标)标准。AST使用了许多不同的指标评价机器翻译,其中常用的是从充分性(adequacy)和连贯性(fluency)两方面打分。充分性指的是译文传达原文信息的量,连贯性或流畅性则不考虑句义传达是否准确,注重的是翻译的结构与格式,读起来是否规范、流畅。AST评估标准与具体分值如图2所示。
译前编辑策略参考受控语言的写作原则,主要从词汇、词组和句子三个层面进行限制,如Cardey 等就是采用这种分类。仿照受控语言写作原则,结合汉英语言差异,通过反复调整和修改原文,观察相对应译文的改进,最终得出译前编辑的技巧与方法。 2.具体案例分析 大多数译文在进行译前编辑(基于受控语言的写作原则)之后都有显著地提高,本文仅选取涵盖不同种类的11个典型案例从受控词汇(前四例)与受控语法(后七例)两大方面进行简单分析,如有必要则对译文进行译后编辑,以产生更高质量的译文。 例1: ST1: Go to the first Home screen, press the Home button. View recently used apps,double-click it to reveal the multitasking bar. TT1(original Google translation):转到第一个主屏幕,按下主屏幕按钮。查看最近使用的应用程序,双击它以显示多任务栏。 ST2(after pre-editing): Go to the first Home screen, press the Home button. View recently used apps, double-click the Home button to reveal the multitasking bar. TT2(Google translation after pre-editing):转到第一个主屏幕,按下主屏幕按钮。查看最近使用的应用程序,双击Home键显示多任务栏。 TT3(after post-editing): 前往第一个主屏幕,按下主屏幕按钮。查看最近使用的应用程序,双击主屏幕按钮来显示多任务栏。 扩充功能词:涉及限定词、代词、反身代词、量词、连接词等功能词时必须对之做出清晰的限制和阐明。如果可能,尽量避免或限制使用代词和连词,因为它们增加了句法分析潜在的模糊性。扩充或还原前面提及的信息(词汇)是非常重要的。 仍需译后编辑解决的问题:一些动词(短语)(如go to)在不同的语境下可能会有不同的语义,所以需要译者进行译后编辑。一些名词(如home)在特定场合下有专有含义也需要进行译后编辑。此例经过译前编辑后出现了两次“Home button”,谷歌翻译未能体现出一致性,这是很难预知的,鉴于此,译后编辑也就显得十分必要了。 例2: ST1: The crash of APP caused by out of memory could be solved by clearing up some memory. TT1:造成内存不足的应用程序的崩溃可能通过清除一些内存来解决。 ST2: The crash of APP that is caused by out of memory could be solved by clearing up some memory. TT2: 由内存不足造成应用程序的崩溃可能通过清除一些内存来解决。 TT3: 由内存不足造成的应用程序崩溃可以通过清除一些内存来解决。 还原分词形式:根据受控语言的写作原则,应该控制和减少分词形式(现在分词与过去分词)的使用。此例中过去分词形式的简化关系从句应该被扩充成完整的定语从句。 仍需译后编辑解决的问题:汉语中表示所有格“的”字被放置到了前面,后面的两个并列结构“应用程序”和“崩溃”就可以表示所有格的关系,“的”字被省略,读起来更自然。 例3: ST1: Rearrange folders just as you do apps by dragging them around your Home screens or to the Dock. TT1: 重新排列文件夹,就像你通过拖动您的主屏幕或Dock中做应用程序。 ST2: Rearrange folders—just as you do apps—by dragging them around your Home screens or to the Dock. TT2: 重新排列文件夹,就像你做应用,通过拖动您的主屏幕或Dock中。 TT3: 重新排列文件夹,就像排列应用程序一样,通过在主屏幕上四周拖移它们或者将它们拖至Dock。 正确拼写与使用标点符号:对于拼写、大写字母、连字符、标点符号、斜线字符的使用都应该做出统一规定。此例用破折号把 “just as you do apps” 分开,以便于机器识别。 仍需译后编辑解决的问题:汉语中包括大量的重复用语而英语更倾向于用代词替换或直接省略。因此,在英译汉译后编辑时,译者需要添加一些信息予以还原或补偿,如该例中“就像排列应用程序一样”去阐述清楚“do”在具体语境中的意义。当然,也可以在译前编辑阶段把替代词还原为原来的“arrange”,其他替代词亦然。 例4: ST1: Press the Home button to save your arrangement. TT1:按Home按钮来保存你的安排。 ST2:Press the主屏幕 button to save your arrangement. TT2: 按主屏幕按钮来保存你的安排。 TT3: 按下主屏幕按钮以存储排列。 提前翻译:对于有不同含义的重要单词或术语可提前翻译以增强一致性。谷歌是基于统计的机器翻译,有时对同一短语(术语)的翻译不尽一致,如例1中的ST2出现了两个“Home button”,第一个被译为“主屏幕按钮”,第二个却被译成了“Home键”。此例中的“Home button”又被译为“Home按钮”,通过提前翻译,可以提高术语翻译的准确率。 仍需译后编辑解决的问题:与冠词、数词用法类似,为符合汉语表达习惯,原语中的形容词性物主代词“your”也应该省略不译;根据语境,把“安排”置换为“排列”。 受控句法层面,如果可以理清原语的语法限制,机器翻译系统就可以利用受控语言降低复杂性、减少歧义的优势,生成更高质量的译文。最好是遵循一套技术写作规则,规范并完善原文本的可读性。初级设计的重点是减少歧义,包括短语层面和句子层面。 例5: ST1: Bring about a new Home screen. TT1: 带来全新的主屏幕。 ST2: Create a new Home screen TT2: 创建一个新的主屏幕。 TT3: 创建新的主屏幕。 利用单个动词替换动词短语:英语中包含了许多固定的动词短语,其中动词与介词的结合最为常见。这样的动词短语经常会产生歧义,应该根据语境选择单个动词予以替代。 仍需译后编辑解决的问题:英语中的冠词(a,an, the)一般是不需要翻译的。 例6: ST1: Recorded memory of radio and each control unit need to be revised. TT1:无线电的记录存储器和各控制单元需要修订。 ST2:Recorded memory of radio and of each control unit need to be revised. TT2: 广播和各控制单元记录存储器需要加以修订。 重复并列介词短语中的介词:受控语言鼓励作者重复并列介词短语中的介词,以减少可能的歧义。对于许多目的语而言,这点改变对于生成更准确译文的作用非常明显。 例7: ST1: Manually reset and reopen the Home screen to its original layout. TT1:手动重置并重新打开主屏幕到原来的布局。 ST2: Manually reset and manually reopen the Home screen to its original layout. TT2:手动重置并手动重新打开主屏幕到原来的布局。 TT3:手动重置并重新手动打开,将主屏幕还原为其原始布局 重复并列动词的宾语或修饰词:衔接是构成文本的重要因素之一,为了更好地实现文本的衔接,英语常使用照应、替代、省略、连词和词汇衔接的办法。该例中,修饰第二个动词“reopen”的“manually”被省略。然而,在汉语中,更喜欢用重复的办法来提高话语的衔接性。在译前编辑中,将被省略的单词“manually”再现出来,便于机器识别,减少歧义。 仍需译后编辑解决的问题:在译后编辑中,调整下“手动”的位置,将TT2切分为两个小句,使其更符合汉语行文习惯。 例8: ST1: You can use folders to organize the apps on your Home screens and the folders can also be used to rearrange the apps. TT1:您可以使用文件夹来整理你的主屏幕上的应用程序和文件夹也可以用来重新排列应用程序。 ST2: You can use folders to organize the apps on your Home screens and you can also use folders to rearrange the apps. TT2:您可以使用文件夹来整理你的主屏幕上的应用程序,您还可以使用文件夹重新排列应用程序。 并列句子结构同质化:在受控英语中,建议并列句子的两个部分属于相同类型。如作者可能将一个主动句和一个主动句并列,但也可能会将一个主动句与被动句、祈使句等并列。日常英语的句子结构需要多样化,受控英语则倾向使用同种句型,以提高机器翻译的可识别度。 例9: ST1: While the icons are jiggling, you can use folders to arrange apps. In order to add an app to a folder, you can drag the app onto the folder. By opening the folder and dragging the app out, you can remove an app from a folder. Removing all apps out of the folder, then the folder is deleted. In order to rename a folder, you can tap to open the folder, then tap the name and enter a new one. TT1: 虽然图标轻摇,您可以使用文件夹来安排应用程序。为了将应用程序添加到文件夹,您可以拖动到应用程序的文件夹。通过打开该文件夹并拖动出应用程序,你可以从文件夹中删除的应用程序。删除所有应用程序出了文件夹,然后将文件夹删除。为了重命名文件夹,您可以点击打开文件夹,然后轻按名称并输入一个新的。 ST2: Organize with folders: while arranging apps (the icons are jiggling): Add an app to a folder: Drag the app onto the folder. Remove an app from a folder: Open the folder if necessary, then drag the app out. Delete a folder: Move all apps out of the folder. The folder is automatically deleted. Rename a folder: Tap to open the folder, then tap the name and enter a new name. TT2: 使用文件夹整理:虽然安排应用程序(图标都摇动): 应用程序添加到文件夹:应用程序拖到文件夹。 从文件夹中删除应用:如有必要,打开文件夹,然后将应用程序了。 删除文件夹:将所有的应用程序移出文件夹。该文件夹被自动删除。 重命名文件夹:点击可打开文件夹,然后轻按名称并输入一个新的名称。 TT3: 使用文件夹进行整理:排列应用程序(图标开始摆动时): 应用程序添加到文件夹:将应用程序拖入文件夹。 从文件夹中移除应用程序:根据需要打开文件夹,然后将应用程序拖出来。 删除文件夹:将文件夹中的所有应用程序都移出。文件夹将被自动删除。 文件夹重新命名:轻按以打开文件夹,然后轻按名称并输入新的名称。 拆分句子:机器翻译中应该减少使用复杂的句子,鼓励使用结构清晰的简单短句。 例10: ST1: The data show the screen of iPhone is clearer than that of any other brand. TT1: 数据显示的iPhone屏幕比任何其他品牌的更清楚。 ST2: The data show that the screen of iPhone is clearer than that of any other brand. TT2: 数据显示,iPhone的屏幕比任何其他品牌的更清楚。 添加关系从句的关系词:受控英语中的关系从句应由连接词引入,一般不能省略。如果省略可能会产生歧义,如该例谷歌就把原文中的“show the screen of iphone”视为一个语义单位,通过译前编辑,译文的准确性就有所提高。 例11: ST1: To save your arrangement, press the Home button. TT1:为了节省你的安排,按主页按钮。 ST2: Press the Home button to save your arrangement. TT2: 按Home按钮来保存你的安排。 TT3: 按下主屏幕按钮以保存排列。 调整语序:汉语中状语的位置是相对固定,英语中状语的位置相对灵活,或出现在句首或出现在句尾。因此,根据目标文本汉语的逻辑调整语序,可以节省译后编辑的工作量,使之更容易为目标语读者所理解。其他如条件状语从句、原因状语从句等,皆是如此。 仍需译后编辑解决的问题:省略物主代词,根据语境变换词语。 3.实验结果 以上为具体的案例分析,通过基于受控语言的译前编辑,谷歌翻译的效果有所提高,再加上译后编辑,基本上可达到“可出版”的质量。笔者随机抽取了另外15个句子进行AST评估以判断译前编辑的效果是否显著,具体结果如表1所示。
从表1可以看出,经过译前编辑,句子的AST评估分数有了比较显著的提升。笔者利用SPSS统计软件,对于充分性和连贯性这两方面有无译前编辑的得分进行了配对T检验。在充分性方面,t =-11.808,Sig.=0.000<0.05,也就是说译文是否经过译前编辑的差异是显著的。在连贯性方面,t=-19.022,Sig.=0.000<0.05,译文是否经过译前编辑的差异也是显著的。同样,对于充分性和连贯性得分进行交叉对比,发现无论是否经过译前编辑,充分性的得分都显著高于连贯性的得分。这表明,机器翻译在很大程度上会保留原文的信息量。作者同样对充分性和连贯性提升程度的差值进行单样本T检验。结果是,t=4.139,Sig.=0.001,该差值显著于0。换言之,译前编辑对于流畅度的提升程度明显大于对于充分性的提升程度。 结语 机器翻译在语言服务行业大有用武之地,译前编辑与译后编辑是提高机器翻译质量的重要途径。本文旨在讨论基于受控语言的译前编辑对机器翻译质量的影响,研究表明:(1)合适的译前编辑(包括词汇层面、短语层面、句子层面)在充分性和连贯性两个方面都有助于提升谷歌翻译的质量;(2)无论是否经过译前编辑,机器翻译产出的译文在充分性(信息的完整性)方面的表现都优于连贯性或流畅度;(3)译前编辑对于流畅度的改善程度明显大于对于充分性的改善程度;(4)要想生成高质量的译文,只有译前编辑还是不够的,还需要译后编辑的参与。本文还基于实验与实例提出了一些译前编辑的技巧,如词汇层面的代词还原、分词形式还原、提前翻译等,短语层面的替换动词短语、重复并列结构中的介词以及并列动词的宾语或修饰语等,句子层面的并列句子结构同质化、句子拆分、增添从句关系词、调整语序等。这些译前编辑技巧大多遵循受控语言的写作原则,完全可以付诸实践。不管进行译前编辑还是译后编辑,都要对英汉语之间的差异以及机器翻译的特征有所了解,以便有针对性地进行编辑修改。本文旨在强调基于受控语言的译前编辑对机器翻译的效果,并未涉及效率。笔者坚信,若能熟练掌握受控语言以及译前编辑技巧,熟悉具体机器翻译引擎的特征,针对诸如科技类实用性文本的翻译而言,译前编辑加译后编辑的机译模式效率会高于完全人工翻译的效率,胡琴琴也基本证实了这一论断。然而,两者结合具体的效率提高范围还有待进一步的实证研究。其他如基于受控语言的汉英机器翻译的译前编辑技巧(英语受控语言不同于汉语),如何平衡译前编辑与译后编辑所耗的精力,译前编辑如何与翻译记忆有机结合等论题也需要深入探索。 本文原文节选自《当代外语研究》2017年第2期 |