Mozilla宣布Common Voice数据集已超2万小时新增闽南语和粤语

栏目: IT资讯 · 发布时间: 4年前

内容简介：本周早些时候，Mozilla宣布CommonVoice数据集已经收集了超过2万个小时的内容，世界各地的任何人都可以使用这些内容来改进他们的语音识别软件，几乎是一年前的两倍。

本周早些时候，Mozilla 宣布 Common Voice 数据集已经收集了超过 2 万个小时的内容，世界各地的任何人都可以使用这些内容来改进他们的语音识别软件，几乎是一年前的两倍。

本次更新中，英语数据集的容量达到了 71GB，而且支持更多的语言，包括Tigre、闽南语、Meadow Mari、Bengali、Toki Pona和粤语。

Mozilla宣布Common Voice数据集已超2万小时新增闽南语和粤语

Mozilla 表示， Common Voice 项目非常重要，因为它允许任何人向该项目贡献他们的声音，这应该允许虚拟助手理解更多口音。此外，它确保大科技公司不是唯一拥有大型数据集的公司--这让小的开发者和公司有机会建立竞争性产品和服务。

Mozilla 表示最新发布的数据集具备以下优势：

● 新增 6 种语言
新版本还具有六种新的语言。Tigre, 闽南语, Meadow Mari, Bengali, Toki Pona 和粤语。
● 扩容
现在有27种语言拥有至少100小时的语音数据。它们包括孟加拉语、泰语、巴斯克语和弗里斯兰语。
9 种语言现在至少有500小时的语音数据。它们包括基尼亚卢旺达语（2383小时）、加泰罗尼亚语（2045小时）和斯瓦希里语（719小时）。
● 女性语音
九种语言现在都有至少45%的性别标签为女性。它们包括马拉地语、迪维希语和卢甘达语。
● 社区推动
加泰罗尼亚语社区推动了主要的增长。加泰罗尼亚语社区的AINA项目--巴塞罗那超级计算中心和加泰罗尼亚政府之间的合作--动员了加泰罗尼亚语使用者为"共同声音"做出贡献。
支持社区参与决策然而。共同语音语言代表队（Common Voice language Rep Cohort）已经贡献了关于最佳句子收集、语言变体的纳入等方面的反馈和学习成果。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

微商思维

龚文祥、罗剑锋、触电会 / 金城出版社 / 2018-7 / 88.00元

微商不仅仅是一种继传统实体、电商之后的革命性新兴商业形态，更是一种能够写入中国商业史的思潮。龚文祥新著《微商思维》，从道的层面对广大微商人的商业实践智慧进行了高度浓缩与抽象总结，站在更高的视角解读微商背后的商业逻辑与本质。本书前半部分，主要从本质、品牌、营销等几个方面，阐述了微商思维的内涵及应用场景，帮助读者了解并认识这种革命性的商业思维。后半部分主要是触电会社群内部各位大咖的实操......一起来看看《微商思维》这本书的介绍吧!

码农工具