AI 不会同传,但终究会讯飞

栏目: 编程工具 · 发布时间: 5年前

内容简介:人工智能不是模仿人脑的工作原理,而是要用机器的方式实现人脑能够实现的价值或者作用。纸包不住火。很显然,在人工智能领域摸爬滚打19年的

人工智能不是模仿人脑的工作原理,而是要用机器的方式实现人脑能够实现的价值或者作用。

纸包不住火。

很显然,在人工智能领域摸爬滚打19年的 科大讯飞 是熟知这一点的。

在被指 AI 同传造假的时候,科大讯飞的回应显得很镇定:从未说过 AI 同传,没有侵犯知识产权,人机耦合才是未来发展之道。

“否认三连”之后,不管人机耦合的说法是否被大众所接受,科大讯飞至少摘掉了“造假”的帽子,讨论的焦点转向 AI 同传的相关技术。

在本次“造假”风波中,主要涉及到三种技术:语音识别、机器翻译和 AI 同传,第一个是科大讯飞这些年行走江湖的法宝,第二个是百度、谷歌、有道等机器翻译相关公司的战场,最后则是整个业界的终极目标。

但问题是, 语音识别 ≠ AI 同传 ≠ AI 语音翻译 ,脱掉“造假”帽子的科大讯飞再也不能掩去语音识别与 AI 同传之间的鸿沟。

传说中的AI同传

每个少年都有一个武侠梦,练成一身武艺,行走江湖,去追求武学的最高境界。

在翻译界,同传被公认为从事翻译的最高境界。

同传,指的是译员在不打断讲话者演讲的情况下,不停的将演讲内容传达给听众。一般来说,同传译员要在演讲者开始讲话两到三秒钟后开口翻译,在演讲者讲话结束两到三秒钟后结束翻译,翻译的准确率要求在80%以上,超时也会被判定为严重工作失误。

正因为如此, AI 同传一向被认为是人工智能领域最具有挑战性的课题之一 ,要实现高质量的同传,需要两种技术同时在线:语音识别和机器翻译。

语音识别是科大讯飞最喜欢讲的故事。

1999年,在中科大的人机语音实验室干了8年后,26岁的刘庆峰带着实验室的师兄弟共同成立了科大讯飞的前身——硅谷天音,手里揣着的只有共同筹集的300万元和8年间积攒的语音合成技术。

后来,硅谷天音获得了由美菱集团和安徽省信托投资公司共同投资的3000万人民币,“硅谷天音”更名为“科大讯飞”。

刘庆峰拿着这笔钱开始进行资源整合,与擅长其它语音处理技术的研究机构共同成立联合实验室——各研究机构不需要改变原有研究领域,由科大讯飞负责产业整合,将语音技术实体落地,并以股权的形式共享利益。

从此,语音处理成为科大讯飞的核心技术,语音识别也成为外界认知科大讯飞的标签之一。

语音识别,简单来说就是将声音转换成波形文件,对声音进行分帧,再从每一帧中提取包含内容信息的声学特征。提取特征后将特征组成因素(类似于音标),再结合各种语音数据、语音模型,形成一个有足够多节点的网络。识别语音的时候,只需要找到与声音最匹配的路径就好。

现在,安静环境、发音标准情况下的语音识别已经完全可以实用,效果并不比输入法自动联想差。但嘈杂环境、带口音、不连贯、重复等情况下的语音依旧是个老大难的问题,各研究院在研究,科大讯飞也在探索。

但问题是,语音识别的结果直接决定了机器翻译的准确度。

评价机器翻译内容的好坏,国际上通常会有一些方法,除了人工评测,还有多种自动评测的方法。但不论具体评测方式如何,有一点需要知道:机器翻译的正确率并没有一个绝对值。

不管是谷歌、微软,还是百度、金山, 目前国际上通行的做法是以“翻译错误降低率”来衡量自身技术的成熟度,而不是以具体准确率。

避谈具体的准确率,何谈追求信达雅。

“目前,科大讯飞的机器翻译已经达到大学六级水平,2019年将达到英语专业八级水平,可以满足日常交流,但还无法代替同传。”

科大讯飞在回应“造假”的声明中承认, 在现阶段还无法实现 AI 同传,机器翻译只能达到简单交流的水平,人机耦合才是未来发展之道。

什么是人机耦合?

“人机耦合”这个词一出,瞬间吸引了不少火力,大众开始关注人机耦合是什么,被指“造假”的那场会议中,究竟是以人机耦合的方式,还是人类译员单独完成了同声传译。

科大讯飞表示, 人机耦合指的是机器帮助同传人员提示专业词汇,记录说话人的关键字句,减轻同传的速记负担 ,当时会议上采用的讯飞听见就是一款人机耦合的产品。

人机耦合的方式有两种。

一种是人和机器共同完成一项任务,比如通过机器转写和同传翻译实现大屏幕的展示,通过语音合成将同传译员的文字合成为多语种声音。

另一种是机器作为助手,辅助人来完成某一项任务,比如帮助同传译员提供转写和翻译结果,作为参考帮助交传译员,减轻笔记压力。

但两种方式都被同传译员拒绝了。

原因很简单,同 传是一个需要精神高度集中的过程,译员顾不上机器提供的辅助。

一般来说,译员需要按照听到的原文顺序不断将句子切割成意群和信息单位,一般听到一到两个意群就会开始翻译,在调整逻辑说出话语的同时,耳朵要听下面第三第四个意群。这一过程仅仅发生在几秒钟时间内,机器只会带来干扰,而不是帮助。

北外高翻学院的副院长李长拴、其它高校的口译老师以及多位译员在接受果壳采访时表示,“有文字也不看,甚至是闭着眼翻译”,“带稿翻译经常会降低效率”,“科大讯飞根本不了解译员的工作状态,才会认为机器能辅助译员”。

不过,讯飞听见虽然还达不到 AI 同传的标准,但已经接近 AI 交传的水平。

交传,也就是交互式传译,指的是说话者说完一段话后译员再翻译,准确度较高,好的翻译准确率能达到90%以上。

讯飞听见的实时翻译功能与交传类似。

对着手机说话,说出的内容会实时出现在屏幕下半部分,屏幕上半部分则是实时翻译的内容,先出现的翻译内容还会随着后文内容进行调整。

经简单测试发现,在语音识别内容误差不大的情况下,翻译内容基本准确无误,讯飞听见已经能实现日常交流。

AI 同传的未来

那么,等到语音识别技术进一步精进,机器翻译的正确率维持在一个相对稳定的范围内时,是否就能实现 AI 同传呢?

答案是否定的。

人类语言之美,非机器所能企及。

语言是门艺术,有起伏、有感情、有语境,即便是同一句话,放在不同的语境下表达会有不同的感情色彩,对应的翻译内容也会不一样。要让机器表达出这些情感,最基础的前提是提高 AI 理解语境的能力,但机器翻译并非基于理解,而是基于统计学和数据库。机器翻译要想达到人类译员一般的准确率,还有很长一段路要走。

但如果我们理解的人工智能并不是真正的人工智能呢?

8月23日,百度董事长李彦宏在发表主题演讲时指出, 人们对人工智能存在误区,人工智能不是模仿人脑的工作原理,而是要用机器的方式实现人脑能够实现的价值或者作用。

让机器用机器的方式实现人脑能实现的价值,应用在翻译领域里,可能是这样一幅景象:

机器接收到演讲者传递的信息,然后通过机器的方式整合、处理、传达给观众,方式可能是换一种语言去转达,类似于人类翻译的方式,也可能是总结、转述,还有可能是用一些图表、动作、声音来描述它所接收到的信息。

只要传达的意义准确无误、没有产生偏差,机器就算是用机器的方式实现了人脑能实现的价值。

毕竟,没有任何人规定翻译一定是要用一种语言去描述另一种语言。

与同传相比,交传的难度更低,人工智能实现起来也更容易,但讯飞听见近似于 AI 交传的水平至少给了这样一个提示:我们在通往 AI 同传的路上一路狂奔。

AI 同传还未实现,但人工智能颠覆这个时代的征程才刚刚开始。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

图解Java多线程设计模式

图解Java多线程设计模式

[日] 结城浩 / 侯振龙、杨文轩 / 人民邮电出版社 / 2017-8 / 89.00元

本书通过具体的Java 程序,以浅显易懂的语言逐一说明了多线程和并发处理中常用的12 种设计模式。内容涉及线程的基础知识、线程的启动与终止、线程间的互斥处理与协作、线程的有效应用、线程的数量管理以及性能优化的注意事项等。此外,还介绍了一些多线程编程时容易出现的失误,以及多线程程序的阅读技巧等。在讲解过程中,不仅以图配文,理论结合实例,而且提供了运用模式解决具体问题的练习题和答案,帮助读者加深对多线......一起来看看 《图解Java多线程设计模式》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器