谷歌推最新NLP模型XLNet，二十项任务完胜BERT

内容简介：智东西（公众号：zhidxcom）编 | 赵佳蕊

智东西（公众号：zhidxcom）

编 | 赵佳蕊

导语：谷歌推出最新NLP模型XLNet在20个NLP任务中胜过了BERT，并在18个任务中取得了当前最佳效果。

智东西6月24日消息，上周三，谷歌大脑和卡内基梅隆大学的一组研究人员推出了最新的AI模型XLNet，它在20个NLP（(Natural Language Processing）的任务中胜过了谷歌的BERT(Bidirectional Encoder Representations from Transform)，在18个任务中取得了当前最佳效果。BERT是谷歌的语言表示模型，用于无监督预训练自然语言处理。

XLNet在几个任务中的表现都优于BERT，包括7个GLUE语言理解任务，3个像SQuAD这样的阅读理解任务，以及7个文本分类（包括处理Yelp和IMDB数据集）的任务。与BERT相比，XLNet处理文本分类的错误率下降了16%。谷歌在2018年秋天开源了BERT，而真正令人激动的是， XLNet 已经开放了训练代码和大型预训练模型。

一、用自回归和自动编码方法进行无监督预训练

周三，六位作者共同在arXiv（文档收录网站）发布论文。文中表示，通过运用多种技术，XLNet利用了最好的自回归和自动编码的方法进行了无监督预训练。

文章中指出，XLNet是一种广义自回归预训练方法，通过使因子分解所有排列顺序的可能性最大化，去学习双向上下文，并且由于其自回归性，来利用乘法法则对预测token（令牌，代表执行某些操作权利的对象）的联合概率执行因式分解（factorize），这消除了 BERT 中的独立性假设的局限。

二、融合自回归模型 Transformer-XL 的思路

XLNet的名字来源于Transformer-XL，这是同一组研究人员于一月份发布的自回归模型。为了实现节段递归机制和相关编码方案，XLNet采用了Transformer-XL的预训练方法。

同时，XLNet还借鉴了NADE（Neural Autoregressive Distribution Estimation）的训练方法，这个模型是由Google DeepMind、Twitter和学术界的研究人员为NADE排列语言建模方法而创建的。

此前，微软的AI研究人员在五月推出了多任务深层神经网络（MT-DNN），这个模型和BERT结合之后，在许多GLUE（语言理解基准性能）任务上实现了更好的性能。目前，XLNet是最新的NLP模型，它的性能优于BERT，未来也许会有更好的应用。

论文地址：https://arxiv.org/pdf/1906.08237.pdf

开源代码与预训练模型：https://github.com/zihangdai/xlnet

文章来源：VentureBeat

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

计算机视觉

Richard Szeliski / 艾海舟、兴军亮 / 清华大学出版社 / 2012-1 / 109.00元

《计算机视觉——算法与应用》探索了用于分析和解释图像的各种常用技术，描述了具有一定挑战性的视觉应用方面的成功实例，兼顾专业的医学成像和图像编辑与交织之类有趣的大众应用，以便学生能够将其应用于自己的照片和视频，从中获得成就感和乐趣。本书从科学的角度介绍基本的视觉问题，将成像过程的物理模型公式化，然后在此基础上生成对场景的逼真描述。作者还运用统计模型来分析和运用严格的工程方法来解决这些问题。本......一起来看看《计算机视觉》这本书的介绍吧!

码农工具