谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

栏目: IT资讯 · 发布时间: 7年前

内容简介：据 VentureBeat 报道，Google 人工智能研究部门在语音识别方面取得了新的进展，能从嘈杂的环境中分辨声音，准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中...

据 VentureBeat 报道，Google 人工智能研究部门在语音识别方面取得了新的进展，能从嘈杂的环境中分辨声音，准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统，称它“能以一种更有效的方式识别声音”。

这套强大的 AI 系统涉及到 Speaker diarization 任务，需要标注出“谁”从“什么时候”到“什么时候”在说话，将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER)，在NIST SRE 2000 CALLHOME基准上是7.6%，这对于实时应用来说已经足够低了，而谷歌之前使用的方法DER为8.8%。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示），递归神经网络是一种机器学习模型，它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始，该实例不断更新给定新嵌入的RNN状态，使系统能够学习发言者共享的高级知识。

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习，所以在有高质量时间标记演讲者标签训练数据的情况下，它比无监督系统更受青睐。我们的系统受到全面监督，能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中，研究团队计划改进模型，使其能够集成上下文信息来执行脱机解码，他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模，这样整个Speaker diarization系统就可以进行端到端训练。

来自：网易科技

【声明】文章转载自：开源中国社区 [http://www.oschina.net]

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

界面设计模式

Jenifer Tidwell / 东南大学，O‘Reilly / 2011-5 / 99.00元

尽管目前已经存在了各种各样的用户界面设计工具，设计良好的应用界面仍然不是一件容易的事情。这本畅销书是极少数可以信赖的资料，它能帮助你走出设计选项的迷宫。通过把捕捉到的最佳实践和重用思想体现为设计模式，《界面设计模式》提供了针对常见设计问题的解决方案，这些方案可以被裁减以适用于你的具体情况。本修订版包括了手机应用和社交媒体的模式，以及web应用和桌面软件。每个模式包含了用全彩方式展现的运用技巧，以及......一起来看看《界面设计模式》这本书的介绍吧!

码农工具

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

界面设计模式

JSON 在线解析

Base64 编码/解码

SHA 加密