亚马逊 Alexa 借助神经网络生成播音员声音

栏目: 编程工具 · 发布时间: 5年前

亚马逊最近宣布开发定制的 Alexa 语音,适合用于阅读新闻。早期的实现是通过连接小的音频片段来产生完整的句子,从而实现文本到语音功能。亚马逊正在使用生成神经网络来合成一种更自然的语音,而且可以根据文本的上下文提供不同的语音风格。

该系统的第一个应用演示了一种听起来更自然的声音。亚马逊的 Alexa 将在未来几周内使用新的声音。通过从新闻频道捕获音频片段,然后利用机器学习来检测它们阅读文本的方式,以此来获得类似新闻播报员的声音。这些细微差别很难通过确定性算法识别出来,因此需要采用统计方法来检测和应用它们。亚马逊使用了几个小时长度的数据来教授机器学习算法如何让声音听起来更像是一个新闻播报员的声音,这意味着获得不同风格的声音指日可待。

为了获得像新闻播音员那样的声音,一种方法是招募语音人才,让他们以自己的风格读出声音,将他们的录音分成小的语音样本,并进行合成。这是非常耗时的,而且成本很高。文本到语音神经网络系统的创新之处在于它采用了“样式编码”模块来识别语音样本的风格。系统将大量中性风格的语音数据与带有风格的几小时补充数据相结合。它可以模拟语音的各个方面,如韵律和其他特征。

公告是在 Alexa 最近增加了耳语(whisper)模式之后发布的,该模式允许在与数字助理的深夜或早晨模式对话中使用更柔和的语音。 Google Assistant 已经在使用由伦敦 AI 实验室 DeepMind 开发的基于机器学习的语音合成。Apple 的 Siri 正在使用隐马尔科夫模型机器学习来合成长达 20 小时的专业录音。

查看英文原文: Alexa Soon to Offer “Newscaster” Voice: Applying Generative Neural Networks for Text-to-Speach


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Wireshark网络分析就这么简单

Wireshark网络分析就这么简单

林沛满 / 人民邮电出版社 / 2014-11-6 / 39.00

Wireshark可能是世界上最好的开源网络包分析器,能在多种平台上(比如Windows、Linux和Mac)抓取和分析网络包,在IT业界有着广泛的应用。 《Wireshark网络分析就这么简单》采用诙谐风趣的手法,由浅入深地用Wireshark分析了常见的网络协议,读者在学习Wireshark的同时,也会在不知不觉中理解这些协议。作者还通过身边发生的一些真实案例,分享了Wireshark的......一起来看看 《Wireshark网络分析就这么简单》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

在线进制转换器
在线进制转换器

各进制数互转换器

SHA 加密
SHA 加密

SHA 加密工具