IT资讯 Meta 开源业界首个同时适用于图像、音频和文字的自我监督算法

quintion · 2022-01-25 09:00:08 · 热度: 87

Meta AI（前身为 Facebook AI，虽然已改名三个月时间，但说到 Meta 很多人还是无法第一时间反应过来）近日详细介绍了「首个高性能自我监督机器学习算法」—— data2vec，该算法可以应用于语音、图像和文本。

Meta 开源业界首个同时适用于图像、音频和文字的自我监督算法

自我监督学习算法 —— 是一种机器通过直接观察环境进行学习的算法，而不通过由人工标记过的图像、文本、音频和其他数据源来学习，这种算法能够大大推动人工智能的发展。

从人类自身学习的角度来看，我们日常都在使用视觉和听觉等感官知觉来了解和学习身边的事物，但目前市面上普遍存在的自我监督学习算法通常只能针对某一个单独的领域（如：仅限图像、语音和文本中的一种，而不能用于所有情景），这一点也正是 data2vec 和其他自我监督算法最大的不同之处。

data2vec 提供一个能够用于语音、图像和文本的单一自我监督算法 —— 这意味着它不依赖于人工标记的数据集，而且还能够跨语音、图像和文本使用。除了这个优势以外，data2vec 与以前的算法相比，还具备经过简化的训练方式，并且在算法速度和准确性上还能够与特定模式的对手相匹配或略胜一筹。

Meta 开源业界首个同时适用于图像、音频和文字的自我监督算法

Meta AI 为了证明这个算法的可行性，在流行的 ImageNet 计算机视觉基准上对 data2vec 进行了测试，结果显示它在流行的模型大小上比现有的方法表现更好。

Meta 开源业界首个同时适用于图像、音频和文字的自我监督算法

而在语音方面，data2vec 的表现则优于 wav2vec 2.0 和 HuBERT（错误率越低越好），他们两个是 Meta AI 所开发的另两个语音自我监督算法。

Meta 开源业界首个同时适用于图像、音频和文字的自我监督算法

对于文本的处理，经过 GLUE 基准套件测试，它的表现与 RoBERTa 基本一致。

Meta AI 指出，Data2vec 的诞生表明，同样的自我监督算法可以在不同的模式中很好地工作 —— 而且往往比现有的单一最佳算法更好。这为更普遍的自我监督学习铺平了道路，使我们更接近人工智能可以使用视频、文字和声音来学习这个复杂世界的愿景。

详细介绍 data2vec 的论文可从 Meta AI 官网获得，与此同时他们还在 GitHub 上发布了 data2vec 的源代码和预训练模型，该算法没有创建单独的仓库，而是位于 PyTorch-Fairseq 仓库之下，算法采用 MIT 许可。

0 个赞 0 收藏

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。