谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

栏目: 软件资讯 · 发布时间: 5年前

内容简介:虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。但谷歌的人工智能研究部门在Diarization的高性能模式上

谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。

但谷歌的人工智能研究部门在Diarization的高性能模式上取得了令人鼓舞的进展。在一篇新论文(“ 全监督演讲者Diarization ”)和随附的 博客文章中 ,谷歌研究人员描述了一种新的人工智能(AI)系统,该系统“可以以更有效的方式利用受监督的发言人标签”。

该论文的作者声称核心算法实现了对于实时应用程序而言足够低的在线分类错误率(DER) – 在 NIST SRE 2000 CALLHOME 基准测试中为7.6%,而谷歌之前的方法为8.8%DER – 目前源代码已经在 Github上开源

谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

上图:流式音频上的发言人分类,底部轴的不同颜色表示不同的发言人。

图片来源:谷歌

谷歌研究人员的新方法通过递归神经网络(RNN)模拟发言者的嵌入(即,单词和短语的数学表示),RNN是一种机器学习模型,可以使用其内部状态来处理输入序列。每个发言者都以自己的RNN实例开始,该实例在给定新嵌入的情况下不断更新RNN状态,使系统能够学习在发言者和话语之间共享的高级知识。

“由于该系统的所有组件都可以以监督的方式学习,因此在可以获得具有高质量时间标记的扬声器标签训练数据的情况下,优于无监督系统,”研究人员在论文中写道。“我们的系统采用全面监督,并且能够从带有时间标记的发言者标签的示例中学习。”

在未来的工作中,团队计划优化模型,以便它可以集成上下文信息以执行离线解码,他们期望这能进一步降低DER错误率。谷歌团队还准备直接对声学特征进行建模,以便整个发言者diarization系统可以进行端到端的训练。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

ASP.NET 2.0技术内幕

ASP.NET 2.0技术内幕

埃斯帕斯托 / 施平安 / 清华大学出版社 / 2006-8 / 68.00元

《ASP.NET2.0技术内幕》围绕着ASP.NET 2.0是Web开发的重要分水岭这一主题,采用自顶向下的方式介绍ASP.NET 2.0的最新编程实践,从更广泛的特征到具体的实现和编程细节,充分展示了ASP.NET的最新编程实践。全书共15章,主题涉及HTTP运行库、安全性、缓存、状态管理、控件、数据绑定和数据访问。   《ASP.NET2.0技术内幕》主题丰富,讲解透彻,包含大量实例,是......一起来看看 《ASP.NET 2.0技术内幕》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具