[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

栏目: 数据库 · 发布时间: 6年前

内容简介:分割聚类(Diarization)是指根据“谁说了什么”将多人语言样本分割成相应的碎片段,再对所有碎片段进行聚类,把属于同一个说话人的片段都聚在一起,标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手,而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。不过朝着高性能模式发展的道路上,谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[

分割聚类(Diarization)是指根据“谁说了什么”将多人语言样本分割成相应的碎片段,再对所有碎片段进行聚类,把属于同一个说话人的片段都聚在一起,标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手,而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

不过朝着高性能模式发展的道路上,谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[ PDF ]以及 官方博文 中,谷歌研究人员描述了一种全新的人工智能系统,能够让系统以更又有效的方式来使用声音样本标签。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

这篇论文的核心算法在 NIST SRE 2000 CALLHOME的跑分中,能够在实时语音聊天应用中将在线分割聚类错误率(EDR)降低至7.6%。而谷歌此前在GitHub上开源的方式EDR为8.8%。谷歌研究人员的新方法就是通过递归神经网络(RNN)模拟说话者的输入(例如用数字方法表示说话者的单词和短语),这种机器学习模型类型能够使用内部状态来处理输入序列。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%


以上所述就是小编给大家介绍的《[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

复制互联网之2

复制互联网之2

文飞翔//刘伟 / 清华大学出版社 / 2011-6 / 45.00元

《复制互联网之2:2011年全球最值得模仿的100个网站》从行业的整体发展趋势中,收录了国内外最值得关注的互联网商业模式,为初创网站设计者提供了诸多可供借鉴的最具有启发价值的商业案例。此外,《复制互联网之2:2011年全球最值得模仿的100个网站》对前沿互联网产品的介绍和思考,也值得网站开发人员、产品设计人员及公司管理人员在产品和运营的创新上借鉴与参考。 作者是网易科技频道的编辑,长期致力于......一起来看看 《复制互联网之2》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

SHA 加密
SHA 加密

SHA 加密工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具