AI语音技术换代升级:行善还是作恶?

栏目: 数据库 · 发布时间: 6年前

内容简介:张田勘AI语音技术是AI的一个分支,随着AI技术的发展,AI语音技术也在突飞猛进换代升级。现在,科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用。通过AI手段,用户可以一秒变声为社会名人或者其他想要模仿的声音。AI的这种音色迁移技术可称为变声技术,可以将任何人的声音转换成特定人的声音(Any-to-One)。与国内的IT公司比较起来,搜狗公司的AI变声功能已经达到实用的阶段。搜狗CEO王小川在一场大会上进行了展示。通过手机软件,王小川用AI变声模拟了高晓松和东北妹子的声音,引得现场连连发笑。

AI语音技术换代升级:行善还是作恶?

张田勘

AI语音技术是AI的一个分支,随着AI技术的发展,AI语音技术也在突飞猛进换代升级。现在,科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用。通过AI手段,用户可以一秒变声为社会名人或者其他想要模仿的声音。

AI的这种音色迁移技术可称为变声技术,可以将任何人的声音转换成特定人的声音(Any-to-One)。与国内的IT公司比较起来,搜狗公司的AI变声功能已经达到实用的阶段。搜狗CEO王小川在一场大会上进行了展示。通过手机软件,王小川用AI变声模拟了高晓松和东北妹子的声音,引得现场连连发笑。

比起AI之前的语音服务,如导航、智能音箱、问题解读等,变声技术是AI语音技术的重要升级,如果说之前的AI语音服务还在追求以什么样的语音,以及如何使AI的语音更像人的声调和音色为用户和公众提供更好的服务,那么现在的AI变声技术则进一步扩大了AI的应用范围,既有可能让AI语音更好为公众服务,也有可能让AI语音步入歧途,成为诈骗的工具。前者是向善和行善,后者是从恶和行恶。

AI的变声技术是一种逼真的语音合成技术,它的基础是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,从大量样本数据中总结出共同特征,再通过机器学习模拟特定人的声音,达到以假乱真的效果。显然,这样的变音技术有很多用武之地,凡是可以采用语音或有声服务的地方,都可能获得这类服务和应用,如语音交互、有声读物、新媒体、智能客服、大众娱乐等。不过,AI变声技术的短板也是显著的,如果有人利用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上级的声音,就会让人难以辨别真假。

不过,与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些,这就是“讲话到面孔”技术,也可称为“闻声识人”技术。研究人员设计了一种智能软件,把网上搜集的数百万段教学和音像视频中的每个人的面部特征与其讲话的声音特点匹配和相联,形成一种可供计算机学习的大数据,通过深度学习,这种智能软件仅仅通过听一个人的声音就可以画出(显示)其相貌,而且八九不离十,但是,现在这种软件还不成熟。

“讲话到面孔”的AI语音技术完全可以应用到刑事鉴识中,可以与较早的模拟画像技术一道成为刑事鉴识的补充技术。模拟画像技术是基于找不到嫌疑人的影视资料、声音和照片,或者是嫌疑人的图像很模糊,只能通过受害人或目击者的口述,由刑侦人员画出嫌疑人的相貌。2017年6月9日,克里斯滕森杀害中国访问学者章莹颖,在案件侦查之初,美国联邦调查局(FBI)就向擅长模拟画像的中国警官林宇辉发出邀请,请他协助画出嫌犯的画像,而当时能提供的嫌犯图片就来自街边监控摄像头上的模糊截图。

无论是AI变声技术,还是“讲话到面孔”的AI语音(闻声识人)技术,都是AI语音技术的升级。技术是中立的,关键在于如何使用这类技术。在这类技术应用于社会生活和工作之前,制定对其严格管理的措施极为紧迫和必须。

2019年4月,全国人大常委会审议的《民法典人格权编(草案)》里加了一条规定:任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。同样,如果AI语音技术发展了,也应当加上不得以信息技术手段伪造的方式侵害他人的声音权,同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等。任何未经授权的合成肖像、合成音频均属于侵权违法行为。

尽管如此,还是需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用,使其只能向善行善,而非向恶行恶。漫画/陈彬 返回搜狐,查看更多

责任编辑:


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

这就是OKR

这就是OKR

【美】约翰·杜尔(John Doerr) / 曹仰锋、王永贵 / 中信出版社 / 2018-12 / 68.00元

这本书是传奇风险投资人约翰·杜尔的作品,揭示了OKR这一目标设定系统如何促使英特尔、谷歌等科技巨头实现爆炸性增长,以及怎样促进所有组织的蓬勃发展。 20世纪70年代,在英特尔担任工程师时,杜尔首次接触到OKR。之后,作为一个风险投资人,杜尔不遗余力地将这一管理智慧,分享给50多家公司和机构,包括谷歌、亚马逊、领英、脸书、比尔及梅琳达·盖茨基金会,甚至摇滚歌手波诺的公益项目。在杜尔的帮助下,任......一起来看看 《这就是OKR》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具