AI 不会同传，但终究会讯飞

栏目: 编程工具 · 发布时间: 6年前

内容简介：人工智能不是模仿人脑的工作原理，而是要用机器的方式实现人脑能够实现的价值或者作用。纸包不住火。很显然，在人工智能领域摸爬滚打19年的

人工智能不是模仿人脑的工作原理，而是要用机器的方式实现人脑能够实现的价值或者作用。

纸包不住火。

很显然，在人工智能领域摸爬滚打19年的科大讯飞是熟知这一点的。

在被指 AI 同传造假的时候，科大讯飞的回应显得很镇定：从未说过 AI 同传，没有侵犯知识产权，人机耦合才是未来发展之道。

“否认三连”之后，不管人机耦合的说法是否被大众所接受，科大讯飞至少摘掉了“造假”的帽子，讨论的焦点转向 AI 同传的相关技术。

在本次“造假”风波中，主要涉及到三种技术：语音识别、机器翻译和 AI 同传，第一个是科大讯飞这些年行走江湖的法宝，第二个是百度、谷歌、有道等机器翻译相关公司的战场，最后则是整个业界的终极目标。

但问题是， 语音识别 ≠ AI 同传 ≠ AI 语音翻译 ，脱掉“造假”帽子的科大讯飞再也不能掩去语音识别与 AI 同传之间的鸿沟。

传说中的AI同传

每个少年都有一个武侠梦，练成一身武艺，行走江湖，去追求武学的最高境界。

在翻译界，同传被公认为从事翻译的最高境界。

同传，指的是译员在不打断讲话者演讲的情况下，不停的将演讲内容传达给听众。一般来说，同传译员要在演讲者开始讲话两到三秒钟后开口翻译，在演讲者讲话结束两到三秒钟后结束翻译，翻译的准确率要求在80%以上，超时也会被判定为严重工作失误。

正因为如此， AI 同传一向被认为是人工智能领域最具有挑战性的课题之一，要实现高质量的同传，需要两种技术同时在线：语音识别和机器翻译。

语音识别是科大讯飞最喜欢讲的故事。

1999年，在中科大的人机语音实验室干了8年后，26岁的刘庆峰带着实验室的师兄弟共同成立了科大讯飞的前身——硅谷天音，手里揣着的只有共同筹集的300万元和8年间积攒的语音合成技术。

后来，硅谷天音获得了由美菱集团和安徽省信托投资公司共同投资的3000万人民币，“硅谷天音”更名为“科大讯飞”。

刘庆峰拿着这笔钱开始进行资源整合，与擅长其它语音处理技术的研究机构共同成立联合实验室——各研究机构不需要改变原有研究领域，由科大讯飞负责产业整合，将语音技术实体落地，并以股权的形式共享利益。

从此，语音处理成为科大讯飞的核心技术，语音识别也成为外界认知科大讯飞的标签之一。

语音识别，简单来说就是将声音转换成波形文件，对声音进行分帧，再从每一帧中提取包含内容信息的声学特征。提取特征后将特征组成因素（类似于音标），再结合各种语音数据、语音模型，形成一个有足够多节点的网络。识别语音的时候，只需要找到与声音最匹配的路径就好。

现在，安静环境、发音标准情况下的语音识别已经完全可以实用，效果并不比输入法自动联想差。但嘈杂环境、带口音、不连贯、重复等情况下的语音依旧是个老大难的问题，各研究院在研究，科大讯飞也在探索。

但问题是，语音识别的结果直接决定了机器翻译的准确度。

评价机器翻译内容的好坏，国际上通常会有一些方法，除了人工评测，还有多种自动评测的方法。但不论具体评测方式如何，有一点需要知道：机器翻译的正确率并没有一个绝对值。

不管是谷歌、微软，还是百度、金山，目前国际上通行的做法是以“翻译错误降低率”来衡量自身技术的成熟度，而不是以具体准确率。

避谈具体的准确率，何谈追求信达雅。

“目前，科大讯飞的机器翻译已经达到大学六级水平，2019年将达到英语专业八级水平，可以满足日常交流，但还无法代替同传。”

科大讯飞在回应“造假”的声明中承认，在现阶段还无法实现 AI 同传，机器翻译只能达到简单交流的水平，人机耦合才是未来发展之道。

什么是人机耦合？

“人机耦合”这个词一出，瞬间吸引了不少火力，大众开始关注人机耦合是什么，被指“造假”的那场会议中，究竟是以人机耦合的方式，还是人类译员单独完成了同声传译。

科大讯飞表示，人机耦合指的是机器帮助同传人员提示专业词汇，记录说话人的关键字句，减轻同传的速记负担，当时会议上采用的讯飞听见就是一款人机耦合的产品。

人机耦合的方式有两种。

一种是人和机器共同完成一项任务，比如通过机器转写和同传翻译实现大屏幕的展示，通过语音合成将同传译员的文字合成为多语种声音。

另一种是机器作为助手，辅助人来完成某一项任务，比如帮助同传译员提供转写和翻译结果，作为参考帮助交传译员，减轻笔记压力。

但两种方式都被同传译员拒绝了。

原因很简单，同传是一个需要精神高度集中的过程，译员顾不上机器提供的辅助。

一般来说，译员需要按照听到的原文顺序不断将句子切割成意群和信息单位，一般听到一到两个意群就会开始翻译，在调整逻辑说出话语的同时，耳朵要听下面第三第四个意群。这一过程仅仅发生在几秒钟时间内，机器只会带来干扰，而不是帮助。

北外高翻学院的副院长李长拴、其它高校的口译老师以及多位译员在接受果壳采访时表示，“有文字也不看，甚至是闭着眼翻译”，“带稿翻译经常会降低效率”，“科大讯飞根本不了解译员的工作状态，才会认为机器能辅助译员”。

不过，讯飞听见虽然还达不到 AI 同传的标准，但已经接近 AI 交传的水平。

交传，也就是交互式传译，指的是说话者说完一段话后译员再翻译，准确度较高，好的翻译准确率能达到90%以上。

讯飞听见的实时翻译功能与交传类似。

对着手机说话，说出的内容会实时出现在屏幕下半部分，屏幕上半部分则是实时翻译的内容，先出现的翻译内容还会随着后文内容进行调整。

经简单测试发现，在语音识别内容误差不大的情况下，翻译内容基本准确无误，讯飞听见已经能实现日常交流。

AI 同传的未来

那么，等到语音识别技术进一步精进，机器翻译的正确率维持在一个相对稳定的范围内时，是否就能实现 AI 同传呢？

答案是否定的。

人类语言之美，非机器所能企及。

语言是门艺术，有起伏、有感情、有语境，即便是同一句话，放在不同的语境下表达会有不同的感情色彩，对应的翻译内容也会不一样。要让机器表达出这些情感，最基础的前提是提高 AI 理解语境的能力，但机器翻译并非基于理解，而是基于统计学和数据库。机器翻译要想达到人类译员一般的准确率，还有很长一段路要走。

但如果我们理解的人工智能并不是真正的人工智能呢？

8月23日，百度董事长李彦宏在发表主题演讲时指出，人们对人工智能存在误区，人工智能不是模仿人脑的工作原理，而是要用机器的方式实现人脑能够实现的价值或者作用。

让机器用机器的方式实现人脑能实现的价值，应用在翻译领域里，可能是这样一幅景象：

机器接收到演讲者传递的信息，然后通过机器的方式整合、处理、传达给观众，方式可能是换一种语言去转达，类似于人类翻译的方式，也可能是总结、转述，还有可能是用一些图表、动作、声音来描述它所接收到的信息。

只要传达的意义准确无误、没有产生偏差，机器就算是用机器的方式实现了人脑能实现的价值。

毕竟，没有任何人规定翻译一定是要用一种语言去描述另一种语言。

与同传相比，交传的难度更低，人工智能实现起来也更容易，但讯飞听见近似于 AI 交传的水平至少给了这样一个提示：我们在通往 AI 同传的路上一路狂奔。

AI 同传还未实现，但人工智能颠覆这个时代的征程才刚刚开始。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Tomcat架构解析

刘光瑞 / 人民邮电出版社 / 2017-5 / 79.00元

本书全面介绍了Tomcat的架构、各组件的实现方案以及使用方式。包括Tomcat的基础组件架构以及工作原理，Tomcat各组件的实现方案、使用方式以及详细配置说明，Tomcat与Web服务器集成以及性能优化，Tomcat部分扩展特性介绍等。读者可以了解应用服务器的架构以及工作原理，学习Tomcat的使用、优化以及详细配置。一起来看看《Tomcat架构解析》这本书的介绍吧!

码农工具