为使大数据生成的数字内容有效,需要针对不同渠道(如网络、移动设备和打印设备等)将其进行转换,以用于各种用途和其他市场的本地化。这是一个对于所有译员来说都充满机会的领域。
参加任何一个会议,你都能发现常见的行业术语流行语多了一些不一样的东西——“大数据”。你会听到数字化数据大规模增长的消息、某领域知识库增长速度惊人、公司如何来管理和诠释来势汹汹的数据等。迅速增长的内容包括结构化数据库、应用程序代码、图像、视频文件和文本。你可能还会听说机器学习和大数据如何使软件更灵敏、更能满足客户需求。 我们谈论的数据有多大?数字内容、代码和结构化数据已经非常庞大,但仍以惊人的速度24小时不停地增长着。天时间,世界上就能生成2.5兆字节的数据。这些数据来源很多,包括文件、社交媒体、电子采购交易记录和手机GPS信号。据估计,每日新增的数据将使全球信息资源库的信息从2015年的7.9泽字节(7.9×1021字节)增加到2025年的176泽字节。别忘了1泽字节等于1,000,000,000,000,000,000,000字节,这是一个令人难以置信的数字,并且这个总数还不包括每天交流的大量内容。 不论创建的内容是什么,其容量之大都给翻译和本地化带来巨大且未实现的潜能。这对语言行业来说意味着什么,对人工翻译和机器翻译又意味着什么?
何为大数据?其重要性何在? 我们谈论的大数据指的是获取大量数据和使用软件工具来识别以前未被发现的模式、趋势、相关性和关联性的新方法。如果你在网上买了一本书,是因为在线零售商告诉你,与你有类似浏览历史的顾客都喜欢这本书,那么你就已经是大数据分析的受益者了。 过去几十年里,商业、政府和日常生活的数字化使这种做法成为可能。这些信息存储在巨大的数据库中,数据库中有结构化数据,以及大大小小的文档资料。我们每天用更多的数据来喂养这只正在不断成长的“野兽”。虽然所有机构都依赖数据来运行,但只有少量机构能利用数据更好地理解其所在领域人们的行为、偏好和趋势,这种机构数量虽少,却呈现出增长态势。这些机构利用这些数据作出的分析,可以更好地决定如何推销产品、帮助客户、提高运营效率,或者作出其他伟大构想。 他们是怎么做的?使结构化数据和文本富有多样性并不容易。对于高度结构化的数据,可以使用专门处理大数据的软件从大型全网上的数据库中提取。然后,分析师采用新一代的商业智能和文本分析工具,将这些原始数据转换成可用的信息和可操作的内容。他们可能会把交易数据与服务器日志、点击流数据、社交媒体内容、客户电子邮件文本、传感器数据和电话记录结合起来,再提取出数据分析。他们提取分析数据时,也使用高级分析工具,包括统计分析、数据和内容挖掘、预测分析和文本分析。传统的商业智能和现代数据可视化软件可帮助分析师以人类可读的形式呈现出他们的发现。 语言行业实际上是首个对大数据应用表现出兴趣的领域之一。早期的主流应用就有谷歌和微软推出的统计机器翻译(SMT)。2011年卡门森斯顾问公司(CSA)在一份机器翻译(MT)发展趋势报告中指出,这些基于统计的方法都是大数据在机器翻译(MT)领域的应用,因为它们必须用到大量的双语数据。例如,它们会将英文源文件与人工翻译后的俄文文件进行比对。 简单来说,统计机器翻译(SMT)可以通过将源文件中的零和一与译文中的相关信息进行对比,找出其中的相关性和翻译模式。换句话说,计算机强大的处理能力可将源文件与其译文进行拆分,然后分析其中的翻译模式并预测未存储文本的译文。这种分析大大加快了语言支持的速度,而不是像从前机器翻译(MT)那样要依靠语言专家团队来创建语法,把它们整理成翻译规则,创建双语词典,之后还要不断地在发现问题后作出修改以及添加规则。 2011年卡门森斯顾问公司(CSA)在一份报告中预测专家在处理更多的语言种类和大量的多语言内容时,会使用这些基于数学的大数据算法来解决不同语言之间的沟通与营销问题,这已经成为事实。 过去几年里,基于大数据分析的机器翻译(MT)使用频率早已超过了第一代基于规则的解决方案。Google翻译吸引了大量的用户。这证明其操作简单、易于领会,从某种程度上说,也是机器翻译(MT)输出的质量得到了提高的结果。尽管学术研究表明BLEU7(双语评估替代技术)等流行的质量评估系统已经有了提高,但这种提高并不是简单的累加,在不同语言和不同可译内容类型(例如常规文本、音频、视频和社交媒体)之间,翻译结果也会出现较大的差异。因此,能提升翻译质量的数据很少,除非用户对翻译质量的期待不高。 像Amazon Web Services和Microsoft Azure这样基于云计算并能无限使用的算法能为这些大数据实践提供支持。随着数以亿计的设备(如传感器、嵌入式控制器、可穿戴设备、健康检查器以及尚未发明的小部件)接入互联网,这类获取和分析方式将会继续发展成为“物联网”。 为使大数据生成的数字内容有效,需要针对不同渠道(如网络、移动设备和打印设备等),将其进行转换,以用于各种用途和其他市场的本地化。企业和政府规划人员早已了解到只用一种语言提供所有数字化信息是不够的。他们的任务是尽可能多地使用数据来提高重要人群的用户体验。否则就不可能吸引并留住国内外的多元文化受众。 只需考虑翻译的必要要求,使其在转换成另一种语言时能够面向更广泛的受众。据估计,要提供14种语言才能满足世界上90%经济活跃人口的需求,但大多数网站最多只支持6种语言或文化地区。许多公司的产品和文件本地化工作甚至远远滞后于此。口译活动更是受到限制。 随着各机构产生的数据越来越多,人们也越来越渴望为更多受众提供产品和服务。近期卡门森斯顾问公司(CSA)对于客户方面受访者的调查报告显示,他们计划在未来三年内将翻译量增加67%,从平均每年的5.9亿字增至9.9亿字。这种增长是语言行业现有模式无法满足的,并且在CSA调查样本中,买家希望能结合供应商后期编辑内容和原始机器翻译(MT)来解决这种增长需求。
大数据在当代的应用,及其在未来的应用
各机构表示,要实现他们增加翻译量的计划,会耗尽所有现有译员和短期内会进入该领域的译员的精力。 为了满足日益增长的翻译需求,各机构纷纷采取措施提高译员和机器翻译的生产力,以解决翻译量和周转时间的挑战、多种目标语言处理以及预算有限的问题。公司对人工翻译和译后编辑进行投资,以应用于重要的业务内容,如相对固定的产品和营销材料。例如,采购人员要依靠大批数量不断增长的翻译提供商,使用机器翻译对源材料进行预处理,然后语言专家再对输出材料进行人工编辑。一小部分客户组织也将未经编辑的机器翻译输出材料直接用于商业领域,比如“常见问题”和“知识库”。 除了使用机器翻译一些有限的商务文本外,一些采购人员也开始使用机器翻译处理一些用户生成的内容,例如过去一些机构不愿翻译的产品评估、酒店评论和论坛讨论等。但CSA的研究显示,线上消费者和买家都喜欢翻译用户评论,即使这些评论都已经翻译过了。
为何大数据的数量与翻译购买者和提供商有关 大数据代表了大量的数字,但翻译行业的数据对于大数据来说简直是冰山一角。我们只需看看书面文字以及它们与每天生成的2.5兆字节数据有什么关系就知道了。 尽管当今的目标是使人类更加具有生产力,以节约时间和金钱,但全球的在线内容远远无法适用于所有语言。从多年的研究和咨询中可知,是否投资翻译、本地化和口译的讨论都必须先审查可用的数据。 CSA决定调查本地化行业面临的众多挑战,即如何翻译所有可以翻译的数据。。我们决定从指定某一天的数字内容输出开始,并决定如果我们让整个语言行业只处理这些内容,而没有积压的现有数据,那么我们实际上可以翻译什么。
图1:翻译与日常内容创建的相关性假设(注:“每日支出”=语言服务的每日支出) 来源:Common Sense Advisory,Inc.
什么是数据?数据就是每天数字化所创建的一切,包括从文档到SQL数据,从遥测技术到数字多媒体技术。我们先将这个假设应用于外包服务的支出。据估计,人工翻译、译后编辑、转录以及网站全球化和以文本为中心的本地化翻译等翻译服务在381亿美元的语言服务和技术市场中占264亿美元。 紧接着,我们按单词计算出每日花费的金额。我们将26.4亿美元平均分在365天里,得出翻译行业日值7200万美元。若假设每个字20美分,则预计专业译员每天得处理近3.62亿单词。然后,我们将每个词转换成9.71个字符,即相当于70亿字节的双字节字符。(请注意,某些语言较其他语言平均每个字的字符要少)。 最后,我们将其与日常创建的内容量进行比较。当我们将2.5兆字节除以语言服务提供商产生的目标语言内容的数量时,预计翻译公司每天只能处理全部创建内容的0.00000000009%。然而,我们可以保守估计,绝大多数的数据将永远不会被翻译——要么材料不可译,要么翻译此类材料没有意义。 但是今天有些没有翻译的材料(如用户评论和社交媒体帖子),随着企业努力提高客户体验,将来也会被翻译。即使排除那些极小比例的日常字节,外包内容的翻译量仍然远低于每天创建内容的1%。别忘了我们讨论的是仅仅一天内的翻译缺口。这并不包括尚未翻译的累积内容。 该假设的结果表明,若内容被完全翻译,通常在网上只会被翻译成六种语言(在其他地方则更少)。这远远低于国内外交流和商业中重要的网上语言总数。 当然,还有许多影响计算的其他变量和因素。例如,应该翻译却没有翻译的,以及现有内容的许多部分。但能确定的是有大量内容永远不会被翻译或本地化。这不仅对技术公司而言是机会,对语言行业而言也是如此。
大数据对语言行业意味着什么 我们讨论的大数据和翻译需求为语言行业展现了机会,但是许多译员由此担心机器翻译的广泛应用会剥夺他们的工作机会。我们的研究估计,译员实际上会因机器翻译而失去一些较低价值的工作,但在可预见的将来,译员的总体工作量将以稳定的速度增长。 如果我们还考虑扩展译后编辑——可以肯定,这是一个有争议的话题——相较于当下对未来译员的依赖,译后编辑更加依赖专业人才。因此,如果要跟上需求,译员们需要利用大数据来提高生产率。一些人将更进一步成为可以构建、训练和改进机器翻译引擎的专家。 在生产力方面,我们看到今天的大数据是基于统计的机器翻译引擎,可用来补充其他机器翻译模型的译后编辑过程。与机器翻译的连接可用于CAT工具,如Kilgray memoQ、Memsource Cloud和SDL Trados Studio。同时,像Lilt这样的创业公司也使用类似CAT的工具中的机器翻译输出加速人工翻译进度。软件开发人员也向我们表示,他们正在评估大数据机器学习技术,以改进术语、翻译记忆库、消歧,以及对其他各种内容的创建、本地化和审校任务。简而言之,大数据将改进译员使用的大多数软件工具。随着机器翻译技术的发展,口译员也将受益匪浅。 大数据对语言专家而言意味着什么?正如他们看到的翻译记忆库和术语管理一样,语言专家将能使用另一种工具。由于这种软件会对源内容的分析进行改进,最终买方和代理方的雇主都希望他们使用这种软件提高工作效率。 我们2016年针对语言服务提供商的调查发现,49%的受访者已经承认将译后编辑作为其服务。早在2012年,我们的研究就显示,21%的自由译者都使用过这项技术。 有些人将舍弃传统的翻译公司结构,成为大数据专家。他们将创建行业和领域专用记忆库并收集、分析和翻译内容。语言专业人员与数据应用程序合作利用相关结果“丰富”有用元数据(如主题分类、名称和实体分类等)的内容策略倾向正在出现。这种倾向将使本地化人员能够创造特殊的市场价值。有些将采取下一步措施进入全球主流营销,增加他们的投资组合服务,如跨国商业智能,以帮助公司更好地了解其市场,或跨语言语义和情绪分析,以消除多语言的消费者和商业买家的多语言内容。 大数据大大增加了内容量。同时,基于大数据科学的自动化内容丰富和分析工具将能够训练更复杂的工具,帮助人们翻译不断增长的内容,并使机器能够缩小生成的内容与实际翻译内容之间的差距。毫无疑问,一些语言专家会将这些基于大数据的创新视为威胁。而另一些人则会将这种进步看成是一种机遇,它可以帮助确定源内容的意义,增强其他工具的有用性,以此提高生产率。 虽然这还没有发生,但我们推测,由这些现象推动的机器翻译可以消除译员的“隐身衣”,给予他们更大的认可和更高的地位。即使机器翻译的比例大于人工翻译的比例,人工翻译的数量也绝对会增加,例如生命科学等领域。反过来,人工翻译的感知价值可能会增加。这是为什么呢?因为当采用人工翻译时,则意味着这项工作非常非常重要。这跟会计差不多。软件可以处理日常事务,但是当出现问题或事情至关重要时,还是需要高薪会计来进行处理。 由于语际交流变得透明化,我们预测出现高价值交易(即需要笔译译员和口译译员)的情况将会增多,而不是减少。如果提供商费用增加,并且公司使用机器翻译来满足较大比例的语言需求,则会使译员受益,因为他们为了提高客户体验,表达高价值互动付出了很大的代价。
|