阿里开源自研语音识别模型 DFSMN，准确率高达96.04%

栏目: IT资讯 · 发布时间: 8年前

内容简介：近日，阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN，将全球语音识别准确率纪录提高至96.04%。这一数据测试基于世界最大的免费语音识别数据库LibriSpeech。对比目前业界使用最为广泛的LSTM模型，...

近日，阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN，将全球语音识别准确率纪录提高至96.04%。这一数据测试基于世界最大的免费语音识别数据库LibriSpeech。

对比目前业界使用最为广泛的LSTM模型，DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备，相比前代技术深度学习训练速度提到了3倍，语音识别速度提高了2倍。

著名语音识别专家，西北工业大学教授谢磊表示：“阿里此次开源的DFSMN模型，在语音识别准确率上的稳定提升是突破性的，是近年来深度学习在语音识别领域最具代表性的成果之一，对全球学术界和AI技术应用都有巨大影响。”

语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术，机器就可以像人类一样听懂说话，进而能够思考、理解和反馈。近几年随着深度学习技术的使用，基于深度神经网络的语音识别系统性能获得了极大的提升，开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫（Deep Neural Networks-Hidden Markov Model，DNN-HMM）的声学模型，其模型结构如图 1所示。声学模型的输入是传统的语音波形经过加窗、分帧，然后提取出来的频谱特征，如 PLP， MFCC 和 FBK等。而模型的输出一般采用不同粒度的声学建模单元，例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构，将输入的声学特征映射得到不同输出建模单元的后验概率，然后再结合HMM进行解码得到最终的识别结果。

项目地址：https://github.com/tramphero/kaldi

详情见阿里技术公众号。

【声明】文章转载自：开源中国社区 [http://www.oschina.net]

以上所述就是小编给大家介绍的《阿里开源自研语音识别模型 DFSMN，准确率高达96.04%》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

跟我学Java Web

2010-9 / 58.00元

Java Web开发是目前最流行、使用最广泛的网站开发技术。《跟我学Java Web》通过对Java Web开发中所运用到的各种技术循序渐进地进行讲解，使读者能尽快掌握开发Web应用程序的方法。《跟我学Java Web》内容包括搭建Web开发环境、HTML相关技术基础知识、JavaScript相关技术基础知识、JSP技术基础知识、Servlet技术基础知识、搭建MySQL数据库开发环境、JDBC技......一起来看看《跟我学Java Web》这本书的介绍吧!

码农工具

阿里开源自研语音识别模型 DFSMN，准确率高达96.04%

跟我学Java Web

HTML 编码/解码

UNIX 时间戳转换