[图]谷歌AI新突破：实时聊天中识别“谁说了什么”正确率高达92%

栏目: 数据库 · 发布时间: 7年前

内容简介：分割聚类（Diarization）是指根据“谁说了什么”将多人语言样本分割成相应的碎片段，再对所有碎片段进行聚类，把属于同一个说话人的片段都聚在一起，标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手，而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。不过朝着高性能模式发展的道路上，谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[

分割聚类（Diarization）是指根据“谁说了什么”将多人语言样本分割成相应的碎片段，再对所有碎片段进行聚类，把属于同一个说话人的片段都聚在一起，标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手，而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。

不过朝着高性能模式发展的道路上，谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[ PDF ]以及官方博文中，谷歌研究人员描述了一种全新的人工智能系统，能够让系统以更又有效的方式来使用声音样本标签。

[图]谷歌AI新突破：实时聊天中识别“谁说了什么”正确率高达92%

这篇论文的核心算法在 NIST SRE 2000 CALLHOME的跑分中，能够在实时语音聊天应用中将在线分割聚类错误率（EDR）降低至7.6%。而谷歌此前在GitHub上开源的方式EDR为8.8%。谷歌研究人员的新方法就是通过递归神经网络（RNN）模拟说话者的输入（例如用数字方法表示说话者的单词和短语），这种机器学习模型类型能够使用内部状态来处理输入序列。

[图]谷歌AI新突破：实时聊天中识别“谁说了什么”正确率高达92%

以上所述就是小编给大家介绍的《[图]谷歌AI新突破：实时聊天中识别“谁说了什么”正确率高达92%》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

UML和模式应用

拉曼 / 李洋、郑䶮 / 机械工业出版社 / 2006-5 / 66.00元

《UML和模式应用(原书第3版)》英文版面世以来，广受业界专家和读者的好评，历经3个版本的锤炼，吸收了大量OOA，D的精华思想和现代实践方法。全书叙述清晰、用词精炼、构思巧妙，将面向对象分析设计的概念、过程、方法、原则和个人的实践建议娓娓道来，以实例为证，将软件的分析和设计的过程叙述得如逻辑推理一般，于细节处见真知。《UML和模式应用(原书第3版)》是一本经典的面向对象分析设计技术的入门书......一起来看看《UML和模式应用》这本书的介绍吧!

码农工具

[图]谷歌AI新突破：实时聊天中识别“谁说了什么”正确率高达92%

UML和模式应用

MD5 加密

正则表达式在线测试

RGB CMYK 转换工具