百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

栏目: 编程工具 · 发布时间: 5年前

近日,百度发布重磅消息称, 百度研发了具备预测能力和可控延迟的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。 这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大地推动作用。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

即时机器翻译系统是2016年百度 Deep Speech 2发布以来,又一项引发MIT 科技评论、IEEE Spectrum 等外媒瞩目的重大技术进展。IEEE Spectrum 认为,百度开发的这个新系统揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步。还有媒体认为,百度推出新的翻译系统,是向谷歌发起了挑战。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

这项引发行业震动的技术,到底有何过人之处?

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

机器同传利用语音识别技术自动识别演讲者的讲话内容,将语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成播放出来。 相比人类译员,机器最大的优势是不会因为疲倦而导致译出率下降,能将所有“听到”的句子全部翻译出来,这使得机器的“译出率”可以达到100%,远高于人类译员的60%-70%。同时,在价格上也占有优势。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

此次,百度联合语音技术、机器翻译技术,从语音识别、翻译质量、时延、融合领域知识等方面推出了“一揽子”解决方案。

在语音识别方面,区别于传统的上下文相关建模技术,百度提出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。该方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

在翻译质量方面,提出了“语音容错”的对抗训练翻译模型,根据语音识别模型常犯的错误,在训练数据中有针对性的加入噪声数据,使得模型在接受到错误的语音识别结果时,也能够在译文中纠正过来。比如,语音识别系统将“大堂”错误的识别为“大唐”,这一对噪声词将被自动收录到训练数据中,并将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子用于训练,进而获得具有更强的容错能力模型。

为了降低时延提升翻译质量,人类译员通常对演讲内容进行合理预测,百度开发人员从人类译员身上获得启示,研发了 “wait-k words”模型,可以根据历史信息,直接预测翻译中目标语言词汇。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

该模型在翻译质量和翻译延迟之间做出了很好的平衡,用户可根据实际需求设定延迟时间(例如延迟1(k=1)词或延迟5(k=5)词)。比如,法语和西班牙语这种较为接近的语言,延迟可设置在比较低的水平;但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置为较高水平,以便于更好地应对差异。

在同声传译时,经常会遇到不同领域的专业知识,这就要求同传人员在短时间内吸收大量相关领域的内容,这对他们也是极大的挑战。基于此,百度模仿人类同传的准备过程,提出了快速融合领域知识策略。该策略依托百度海量的互联网大数据,训练得到的具有通用翻译能力的模型;当它接到某一个领域的同传翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,得到相应领域的增强模型;最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

虽然机器同传有了新的突破,但它与经验丰富的同传人员相比,依然存在一定差距。百度翻译技术负责人表示, 百度研发新系统的初衷是为了降低同传成本,让同传在不同领域构筑沟通桥梁,而非取代人类译员。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

智能时代

智能时代

吴军 / 中信出版集团 / 2016-8 / 68.00

大数据和机器智能的出现,对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方......一起来看看 《智能时代》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具