冯志伟:语料库是语言知识的可靠来源_瑞科翻译公司
1
2
3
4
 关于我们
公司简介
公司团队
网站公告
翻译资讯
专业词汇
行业规范
质量保证
合作流程
隐私保密
实习基地
常见问题
公司信息
组织结构
服务流程
人才招聘
联系信息
  翻译语种(笔译)
  英语翻译  德语翻译
  日语翻译  法语翻译
  韩语翻译  俄语翻译
  英语口译  德语口译
  日语口译  法语口译
  韩语口译  俄语口译
  泰语翻译  越南语翻译
  意大利翻译  西班牙翻译
  葡萄牙翻译  印度语翻译
  马来语翻译  波斯语翻译
  冰岛语翻译  老挝语翻译
  丹麦语翻译  瑞典语翻译
  荷兰语翻译  藏族语翻译
  挪威语翻译  蒙古语翻译
  拉丁语翻译  捷克语翻译
  缅甸语翻译  印尼语翻译
  希腊语翻译  匈牙利语翻译
  波兰语翻译   乌克兰语翻译
  芬兰语翻译  土耳其语翻译
更多翻译语种
     首页 >>  关于我们>>  翻译资讯
 


冯志伟:语料库是语言知识的可靠来源

发布者:上海翻译公司     发布时间:2017-07-06

  首先祝贺第三届汉语中介语口语语料库国际会议在北京召开。汉语中介语口语语料库是获取语言知识,发现语言偏误,提高语言习得水平的重要手段。
  我是一个自然语言处理的研究者,早在1957年,我就对于语言研究的发生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身机器翻译研究,实现自己的科学梦想。1979年-1981年我在法国格勒诺布尔理科医科大学留学时,曾经研制过一个把汉语自动地翻译为法语、英语、日语、俄语和德语5种外语的机器翻译系统,叫做FAJRA系统,提出了多叉多标记树形图模型(multiple-branched and multiple-labeled tree model, MMT),这是一个基于短语的机器翻译模型(phrase-based machine translation, PBMT)。

 


  当时我采用的方法,是基于语言规则的理性主义方法。我用了3年时间,编写了汉语分析规则5000条左右,法语、英语、日语、俄语和德语的转换规则和生成规则各3000条左右,一共20000多条规则,此外,我还编制了若干部机器可读的、代码化的机器翻译词典,由于工作量大,我每天工作时间都超过10小时,扎扎实实苦干了3年,于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等5种语言的机器翻译译文。这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。
  这个系统研制成功之后,在有限规模的语言范围内,翻译的正确率还比较高,而当扩大语言范围时,对于任意的汉语句子,翻译的正确率只能达到70%左右,这样的机器翻译系统显然是难以实用的。我在1982年回国之后,又相继研制了法汉、英汉、日汉和德汉机器翻译系统,翻译正确率都没有超过70%。
  我耗费了如此巨大的精力,却得到了很不理想的结果,在严峻的考验面前,我在少年时代的机器翻译梦想遭到了挫败。我没有得到多少成功的经验,却留下了大量失败的教训。我为此感到困惑,有一种难言的失落感。
  正当我愁眉不展之际,1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法。这种建立在大规模(large-scale)真实文本(authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它会把自然语言的计算机处理推向一个崭新的阶段。
  把语料库方法引入到机器翻译中,改变了机器翻译翻译研究者获取知识的手段,由于语料库是大规模的真实文本,人们就可以得到更加完善的统计性的语言知识,因此,也就大大地提高了机器翻译的质量,加快了机器翻译系统的研制周期。
  语言知识究竟在哪里?语言知识固然存在于语法书里,存在于各种类型的词典里,存在于汗牛充栋的语言学论文里,但是,更加全面的、更加客观的语言知识应当存在于大规模的真实文本语料库里,语料库是语言知识最可靠的来源。
  语料库改变了机器翻译的命运,基于短语的机器翻译发展成为统计机器翻译( statistical machine translation,SMT),机器翻译走向了商品化和实用化的新阶段。
  随着互联网的迅速发展,我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域,数据挖掘中采用的机器自动学习的方法,对于统计机器翻译具有重要的价值。
  机器自动学习的方法主要有三种类型:有指导的学习、无指导的学习、半指导的学习。
  有指导的学习实际上是对于数据进行分类,首先使用事先定义好的类别或范畴标记对于数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫做有指导的学习。
  在无指导的学习中,用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注,要使用机器学习的算法来自动地发现隐藏在数据中的特征、结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。
  有指导的学习要求事先人工标注大量的数据实例,需要付出巨大的人工的劳动量,费力而又费时,为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫做半指导的学习。
  机器自动学习的这些方法已经成熟,而且广泛地应用于统计机器翻译的研究中,这就从根本上改变了传统的获取语言知识的手段,从大规模的双语对齐语料库中,通过机器自动学习的方法,去获取语言的翻译信息,对于机器翻译的发展具有革命性的意义。
  目前,基于多层神经网络的、以大数据作为输入的深度学习(deep learning)方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。
  词向量是多层神经网络的一种重要方法,词向量把单词映射为一个固定维度的向量,不同的词向量构成词向量语义空间,在这个词向量语义空间中,语义相似的单词距离较近。
  深度学习研究者米克罗夫(Tomas Mikolov)发现,如果用“意大利”这个单词的属性向量来减去“罗马”这个单词的属性向量,再加上“巴黎”这个单词的属性向量,我们就能得到“法国”这个单词或者相近的属性向量。类似地,如果用“国王”的属性向量减去“男人”的属性向量,再加上“女人”的属性向量,就能得到“王后”的属性向量。这非常令人振奋的结果,因为米克罗夫事先并没有刻意地做这样的安排。
  2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译(neural machine translation, NMT),口语神经机器翻译正确率已经超过了 90%,针对日常口语的神经机器翻译基本上已经可以付诸实用了。

 


  但是,在这种神经机器翻译中,语言之间的翻译细节还是一个黑箱(black box),尽管翻译的结果不错,我们对于其中的语言处理机制仍然是不清楚的,在语言学理论上,我们还难以做出科学的解释。
  最近,深度学习向神经网络中融入了记忆机制,把基于理性主义的知识驱动与基于经验主义的数据驱动结合起来,架起了符号主义与联接主义之间的桥梁。这应当是今后神经机器翻译发展的新方向。
  可以看出,由于在机器翻译中引入了语料库技术,已经获得了巨大的进步,这是令人可喜的。不论是书面语文本语料库还是口语语料库,都是机器翻译得以发展进步的关键性因素。语料库对于机器翻译的发展具有举足轻重的作用。
  目前,汉语中介语语料库建设已经取得了很大的成绩。北京语言大学、南京师范大学、鲁东大学、暨南大学、中山大学、上海交通大学、厦门大学、台湾师范大学先后建立了不同规模的汉语中介语语料库。香港中文大学、新疆医科大学还建立了汉语口语习得语料库。
  在这些中介语语料库的基础上,研究者们进行了卓有成效的研究,成果斐然。第三届汉语中介语口语语料库国际会议为交流这些成果提供了一个很好的交流机会,我衷心祝贺这次国际会议成功。

 

本文摘自冯志伟在第三届汉语中介语口语语料库国际会议上的致辞。

 

翻译
点击在线
瑞科上海翻译公司
电话:021-63760188
电邮:sh@locatran.com
地址:上海市徐汇区裕德路126号氪空间大楼2128室
瑞科南京翻译公司
电话:025-83602926
025-83602369
电邮:info@locatran.com
地址:南京市玄武区红山路常发广场3号楼825-829室

瑞科翻译公司专注翻译20年,是一家专业的人工翻译公司,潜心打造优质翻译服务品牌!
©2004-2024 LocaTran Inc. All Rights Reserved.      版权归瑞科(上海、南京)翻译公司所有        沪ICP备09017879号-4