语言行业AI的新趋势

2023-03-23

近年来，人工智能取得了令人难以置信的进步，自2022年底OpenAI的ChatGPT发布以来，成为每个行业的话题。

在语言服务行业内，人工智能的使用当然不是什么新鲜事，但它却在继续塑造这个行业。由于MT和合成语音质量的进步（以前被认为是不合格的、不准备使用的技术）现在正走出阴影，呈现出新的用例和机会。这是一个我们可以预期会加速的趋势。

本文概述了企业和相关人士都应注意的语言服务行业的人工智能趋势。

机器生成的现场字幕：召开（虚拟）会议的新主力军？

实时字幕是一项自视频会议激增以来得到发展的服务，这一领域的技术已经取得进步。

从本质上讲，现场字幕服务涉及将口语内容以转换为多种语言的书面内容。实时字幕可用于在线会议以及现场广播、现场活动，并使广播内容可以在线获取。目前有三种主要方式可以生成实时字幕：
    1.一位译员实时打出字幕。
    2. 使用语音转文字技术和机器翻译生成初始字幕，然后由译员实时编辑输出结果。
    3. 字幕由机器生成，没有人工干预。

虽然第一种选择是传统的方式，但它也越来越成为一种罕见的现象。即使是现场直播，为了提高速度和效率，人工和机器的混合也正在成为常态。自从Zoom火爆以来，由于需求的增加和MT技术的进步，纯机器生成的现场字幕的使用已经增加。

这一趋势值得注意的是，与更广泛的多语言会议空间类似，现场字幕服务的提供商来自行业的不同方面。
    • 媒体本地化供应商在更广泛意义上的字幕领域经验丰富。
    • 正在将其技术融入会议和活动空间的机器翻译供应商。
    • 希望为其现有客户提供更强大的服务组合，同时也能接触到预算较少的客户的RSI供应商。
    • 来自行业外的技术公司以及视频会议巨头，如Zoom、MS Teams和Webex，他们都在其平台上添加了自己的文本到语音翻译功能。

换句话说，随着人工智能的进步，我们开始看到过去很长一段时间内相当独立的行业部门之间的交叉。

AI配音

配音是媒体本地化行业中的主要服务之一，到目前为止，由配音演员来完成。然而，人工智能配音的新发展可能会改变这一局面。

合成语音技术的发展已经有了很大的进步。一些合成语音现在听起来与人类的声音惊人地相似，使人很难将它们与实际的人类语言区分开来。新的技术创新使合成语音能够模仿原始说话者的语气和举止。

尽管目前还不适用于娱乐目的，但人工智能配音的当前用例范围从国际广播到纪录片和企业视频的配音。此外，在接受Nimdzi 100采访时，一些媒体和游戏本地化服务提供商报告称，他们正在探索以下用例：
    • 次要角色：人工智能配音可能用于次要角色，要么以合成的方式，要么以一个配音演员说出所有次要角色的方式，声音被合成改变，每次听起来都不同。
    • 背景喧嚣：在游戏中，当玩家仍然需要理解背景信息，但娱乐因素不那么重要时，人工智能配音可以用于背景喧嚣。
    • 分层：一些LSP提到，他们正在考虑向客户提供不同的等级，这取决于不同类型的制作和预算可能需要的配音质量。
    • 通过人工智能改变声音。
    — 儿童演员有可能由年长的演员进行配音，然后利用人工智能将声音改变成年轻的声音，这将是效率的一大提高。
    — 在许多传统的配音国家，特定的配音演员被分配给屏幕上的演员（总是同一个声音）。但如果这些配音演员突然太忙或退休怎么办？人工智能可能会给这样的配音演员带来机会，让他们出售自己的声音，也就是说，由别人来做实际的配音工作，然后在之后人为地改变声音。
    • 语音描述（AD）：语音描述是一项尚未在所有市场提供的服务，在有语音描述的国家，大多数的语音描述服务是以英语提供的。考虑到AD通常需要比表演更中立的叙述，使用人工智能可能是以预算友好的方式将AD带到更多市场的方法之一。

合成语音应用和人工智能的发展已经引起了商业界的关注。尽管对这项技术的探索还在进行中，但重要的是，人工智能配音的想法已经从被拒绝过渡到被主要媒体本地化参与者积极研究和考虑。

机器翻译 - 迅速崛起

这不是我们第一次报道人工智能，但它仍然是一个热门话题，因为人工智能以如此快的速度发展。

但是，让我们首先澄清一下，当我们谈论MI时，我们到底是什么意思。MI是使用人工智能将一种语言的口语信息传输到另一种语言的口语信息中。MI，也可以称为语音翻译（S2ST），使用自动语音识别（ASR），然后是人工智能转录，机器翻译，最后是合成语音，以目标语言说出信息。这种所谓的级联模式是迄今为止市场上所有MI解决方案的基础。

目前有哪些MI解决方案？

MI技术可以大致分为两类：针对个人的技术和针对企业的技术。

针对个人的解决方案以手持设备的形式出现，如Cheetah Talk、ili Handheld Translator和Vasco Translator，或作为应用程序出现。移动设备的解决方案，如Skype Translator和iTranslate Voice App。另一种流行的MI硬件形式是耳塞。Timekettles的WT2 Plus是这种技术的一个好例子，谷歌Pixel Buds也是如此。

对于企业来说，应用程序形式的MI软件使用广泛，而且越来越受欢迎。这种类型的MI工具被用来翻译会议、大会、大型活动（包括在线和现场）或其他在线口语互动，如在线课程。在会议和活动领域，Wordly是目前市场上知名的解决方案。例如，其他值得注意的解决方案包括来自GTCOM和XL8的解决方案。请关注这个领域。

直到最近，大多数MI解决方案针对个人消费者（如游客）特别是在亚洲市场。它们被设计为促进简单的双向交流。然而，MI正越来越多地进入多语言在线会议领域，这在传统上是人类会议口译员的领域。这种转变有两个主要原因；第一个是疫情引起的，第二个是技术原因。疫情开创了一个虚拟会议的新时代，推动了对在线多语言的需求。同时，这一领域的技术也取得了重大飞跃，特别是得益于机器生成的现场字幕的进步。

这种需求的增加和质量的大幅提高相结合，导致更多的公司投资于语音转语音技术和新的解决方案在市场上不断涌现。这一发展不仅适用于口译领域，也适用于媒体本地化领域，在该领域，人工智能配音正在出现，一些解决方案甚至可以在合成版本中保留原演员的声音（见关于人工智能配音的部分）。当涉及到人工智能时，我们最终将见证媒体和口译领域的融合，这不是不可能的。

另一个值得注意的发展是，RSI供应商开始进入这一领域。2023年1月，KUDO是第一个RSI平台，以发布自己的MI功能。这一发展使该公司可以做到以下两点：
1. 一方面，可以接触到更大的客户群，另一方面，也可以接触到那些预算较小的客户，而对于这些客户而言，RSI服务过于昂贵。
2. 在与视频会议巨头（如Zoom、MS Teams和Webex）竞争时保持竞争力，这些巨头除了封闭式字幕和机器生成的现场字幕外，还增加了自己的RSI功能。至少现在，这些大平台都没有自己的MI功能，尽管Zoom有一个Wordly的附加功能。

ChatGPT

OpenAI的GPT-3（生成预训练转换器3）变体，称为ChatGPT，最近风头正劲。有理由支持这种现象——技术已经发展了很长一段时间，有些人将其视为AI的一个转折点。对于那些不了解的人，这里简要介绍一下：GPT-3使用公共数据进行训练，并应用机器学习技术，仅需要较少的输入即可执行多种按需任务，包括：
    • 常用语言的翻译
    • 归纳文本
    • 写文章、诗歌、故事、科学论文等
    • 回答问题

ChatGPT是GPT-3的新变体。除了上述任务外，ChatGPT还可以。
    • 编写和纠正代码
    • 用于聊天机器人和虚拟助手
    • 生成对话文本
    • 解释复杂的主题
    • 可以针对各种语言任务进行微调/定制化

为什么ChatGPT相比其他已经存在的技术有可能是一个改变游戏规则的潜在因素？有两个主要原因：
• 1）ChatGPT的结果质量高，听起来逼真。
• 2）ChatGPT的潜在应用广泛，因为它是开放使用的！

尽管ChatGPT并非没有局限性，也绝非事实上的真相来源，但它已经改变了游戏规则，因为它使人们能以更快的速度完成更多工作。这项技术能在多大程度上被使用（例如需要多少编辑和事实核查），以及它是否会真正成为一些人炒作的“谷歌杀手”，还有待观察。

在语言行业中，人们正在谈论ChatGPT并尝试弄清它将如何影响他们。虽然现在还为时过早，但像GPT-3这样的大型语言模型（LLM）被嵌入到翻译过程的不同步骤中也不是没有可能。已经证明它是在内容创作过程中解决写作障碍或快速处理演示文稿和演讲脚本的有用工具。虽然它不全是单语言的，但目前在英语方面表现较佳。已确定的其他用例包括：
• 增强型MT：没有性别偏见，调整形式。
• TMS集成：自动术语提取、QA、评分等。

现在，有很多的炒作，无论你从哪个角度看，ChatGPT已经成为一个游戏规则的改变者。然而，从长远来看，这是否意味着该技术将成为真正的颠覆者，影响我们的日常生活以及语言行业的工作流程，这一点相当值得怀疑，但现在说这些还为时尚早。

贝纳托定理

这种现象表现为新技术的引入造成了对淘汰或行业消亡的新恐惧。

这是一个普遍的原则，人们倾向于采用新的恐惧，如对未来的焦虑或对过时的恐惧，在他们能够克服以前的恐惧之前，这些恐惧最终会消逝在潜意识里。

在语言行业中，这种现象表现为新技术的引入造成了新的担心，担心行业会被淘汰或消亡。然而，随着时间的推移和新技术的出现，这个行业开始克服这些恐惧，它们最终被归入潜意识。这种循环反复出现，因为每项新技术都会带来新的恐惧，只是随着行业的调整、前进和不断发展而被克服。

贝纳托定理和阿马拉定律为理解像ChatGPT这样的新技术对语言行业的影响提供了一个框架。阿马拉定律强调，我们往往高估了一项技术的短期影响，而低估了其长期影响。通过考虑这两个原则，我们可以更加了解ChatGPT和其他人工智能语言模型将如何塑造这个行业的未来。

行业洞见