通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

栏目: 数据库 · 发布时间: 4年前

内容简介:将门CVPR喊你来报名啦!

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

将门CVPR  2019群星闪耀精英晚宴

喊你来报名啦!

大咖云集、内容硬核、礼物良心

戳这里 了解详情~

From: Microsoft 编译: T.R

(文末有彩蛋:gift:)

语言表示学习的基本任务是将符号化的自然语言文字(例如单词、短语和句子)转换为语义向量。 鲁棒和通用的语言表示 是多种自然语言任务(NLP)取得优异表现的关键。集成学习是改善模型泛化性最有效的方法之一,帮助模型在多种广泛的自然语言任务上取得了优异的表现。

然而典型的集成学习却由几十个甚至上百个深度学习模型组成,如果要实现实时推理对这些模型进行部署,计算开销和资源开销都会变得十分巨大。即使是最近表现优异的BERT和GPT模型都包含了大量模型和巨量参数 (BERT 包含了24个transformer层共344M参数,GPT-2 包含了48个transformer层共1.5B参数) ,预训练精调和线上部署都将消耗巨大的资源。

为了解决这一问题,

微软的研究人员探索了利用知识蒸馏的方法改进多任务深度学习模型(MT-DNN)学习应用于多种自然语言理解任务上的文本表示,并在通用语言理解评测上实现了对现有的指标的又一次突破。

模型训练新思路

知识蒸馏 (Knowledge Distillation) 是一个从大型、完整的模型中迁移或精炼出轻量化的、易于部署的单个模型,并在微量的精度损失下保持模型的性能。

在针对多自然语言任务的学习中,首先选择出用于特定数据集的少量任务,针对每一个任务训练出一个超过最好单个模型表现的MT-DNN,并将这个模型作为教师模型。

虽然集成模型对于在线部署不太现实,但可以在离线的情况下使用。集成学习模型在线下为特定任务的训练数据集中的每一个输入的x生成 软目标( soft target ) 研究人员将知识精炼方法拓展到了多任务学习的情境中。

这些生成的软目标将会比原先的硬目标提供更多的信息,同时在训练样本间梯度上的方差会更小。随后在教师模型的帮助下,利用软目标和真实目标通过多任务学习来训练单个MT-DNN模型(学生模型),知识蒸馏将在教师模型和学生模型之间发生。教师模型能有效地将泛化性迁移到学生模型中,从而使得精炼过的MT-DNN在相同数据集上超过了通常方法训练的MT-DNN模型。

结果表明这种基于知识蒸馏的方法对于模型的能力有 大幅度的提升 。这一模型在通用语言理解测评数据集(General Language Understanding Evaluation,GLUE)上取得了很好的效果,在 九个任务中的七个 中超过了原先的MT-DNN模型,甚至包括了那些没有教师模型的任务,将GLUE的测评基准 提升到了83.7% ,超过BERT3.7%,并超越了四月初的第一名1.5%的提升。

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

MT-DNN学生模型

学生模型是基于MT-DNN进行训练的,这是微软在2019年提出的新架构。在训练过程中同时利用了预训练的BERT(双边迁移器语言模型)。下图中显示了学生模型的架构。

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

底部主要是在多个任务上可以共享的层,而顶部则是不同任务特定的层。无论是句子或段落输入后都会被表示为嵌入向量序列,每一个代表一个档次如上图中导数第三层l 1 所示。

随后Transformer编码器将抽取每一个词的上下文信息并编码成嵌入矢量l 2 作为每个特定任务的输出。最后针对不同的特定任务,后续层将会基于 l 2 生成特定的表示,进行分类、相似性或者相关性计算。

多任务知识蒸馏

知识蒸馏的过程将针对任务从复杂的模型中抽取出轻量化的表示。首先研究人员选取了少量具有特定任务标签数据集的任务,并针对每一个任务训练了一个集成不同网络模型的教师模型,其中每一个模型都是一个MT-DNN实例,并根据特定任务的数据进行了精调。其共享层的参数则使用了GLUE数据集的预训练。

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

其中教师模型用于为每个特定的任务生成软目标。在多个任务训练集的软目标数据下,将针对单一的MT-DNN学生模型进行训练。整个模型的训练模型可以用上面的算法来描述。如果任务 t 有老师,第三行中特定任务的损失是两个目标函数的均值,分别是对于原始正确数据和对于软目标的损失。

结果

研究人员在GLUE数据集上验证了算法的有效性,与原先的MT-DNN和BERT相比这种经过知识蒸馏的方法不仅在得分上有了较大提升,同时在模型表示能力和模型大小有了改进。

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

实验还发现两种MT-DNN都比BERT的表现要好,但经过知识精炼的MT-DNN具有更加泛化的表示能力和鲁棒性。

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

研究人员表示在未来还有很多方向值得探索,首先对于软目标和原始标签间的更好 结合方式 也许能够提升模型的表现;其次教师模型可能用于生成大规模的 无监督数据 来通过半监督的方式训练更好的模型,最后与压缩模型不同知识精炼的方法可以从不同的角度提高模型的表现,未来也许可以利用 自监督 的方法来实现统一教师模型和学生模型。

想了解详细信息,论文在这里:

https://www.microsoft.com/en-us/research/uploads/prod/2019/05/1904.09482.pdf

也可以围观竞争激烈的GLUE榜单:

https://gluebenchmark.com/leaderboard

祝认真看到这里的朋友们520/521都快乐!听说看到最后的人都会幸福一整个2019哦♥

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型

ref:
paper:https://www.microsoft.com/en-us/research/uploads/prod/2019/05/1904.09482.pdf
Group:https://www.microsoft.com/en-us/research/group/natural-language-processing/
https://www.microsoft.com/en-us/research/research-area/human-language-technologies/
https://news.developer.nvidia.com/microsoft-announces-new-breakthroughs-in-ai-speech-tasks/
Transformer:https://www.jianshu.com/p/5b621a3853be
https://www.jianshu.com/p/923c8b489604
MT-DNN:https://github.com/namisan/mt-dnn
BERT:https://github.com/huggingface/pytorch-pretrained-BERT

picture from:https://dribbble.com/shots/6506928-So-in-love

https://dribbble.com/shots/6506912-The-Streetside

-The End-

将门 是一家 以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ,旗下涵盖 将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务 专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群 专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金 专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括 机器智能、物联网、自然人机交互、企业计算。 在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、 宽拓科技、 杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”:  bp@thejiangmen.com

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型     

点击右上角,把文章分享到朋友圈

通用语言理解新突破:微软提出基于知识蒸馏的多任务深度学习模型  

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

点击“ ❀在看 ”,让更多朋友们看到吧~


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

KK三部曲

KK三部曲

(美)凯文·凯利(Kevin Kelly) / 张行舟 / 中信出版社 / 2015-12-12 / 80.00元

《失控 全人类的*终命运和结局》这是《黑客帝国》主要演员的必读物之一,这本关于机器、系统、生物和社会的“大部头”,揭示了社会进化、特别是互联网发展的“先知预言”,从这本书里,人们可以窥探到SNS的今天和未来。 《失控 全人类的*终命运和结局》涉猎:天文、化学、生物、计算机、控制论、运筹学、社会学…… 同时又堪比《黑客帝国》中洞悉未来的“神谕”,正在兴起的“云计算”、“物联网”等都可以在......一起来看看 《KK三部曲》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具