ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

栏目: 数据库 · 发布时间: 7年前

内容简介：深度学习顶会 ICLR 2019 的两篇最佳论文现已放出，来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题，提出利用神经元排序将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题，提出了一个新的概念：彩票假设。一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计，ICLR 2019 共收到 1591 篇论文投稿，相比去年的 996 篇增长了 60%，其中 oral 论文 24 篇，pos

深度学习顶会 ICLR 2019 的两篇最佳论文现已放出，来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题，提出利用神经元排序将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题，提出了一个新的概念：彩票假设。

一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计，ICLR 2019 共收到 1591 篇论文投稿，相比去年的 996 篇增长了 60%，其中 oral 论文 24 篇，poster 论文 476 篇。

目前，ICLR 2019 的最佳论文已经发布。来自蒙特利尔大学 MILA 研究所、微软研究院的论文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》和来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》夺得本届大会的最佳论文奖项。

论文：Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

作者：Yikang Shen、Shawn Tan、Alessandro Sordoni、Aaron Courville（蒙特利尔大学 MILA 研究所、微软研究院）
论文地址：https://openreview.net/forum?id=B1l6qiR5F7

摘要：自然语言是层级结构的：较小的单元（如词组）被嵌套在较大的单元（如子句）内。当较大的成分结束时，嵌套在其内部的较小成分也必须是封闭的。尽管标准 LSTM 架构允许不同神经元以不同时间尺度追踪信息，但它对建模句子成分层级没有明确的偏置（explicit bias）。

本文提出通过对神经元排序的方式添加此类归纳偏置；master input 向量和遗忘门确保在给定神经元更新时，紧随其后的所有神经元也都得到更新。这一新型循环架构 ordered neurons LSTM (ON-LSTM) 在四种不同任务上获得了优秀性能，分别是：语言建模、无监督解析、目标句法评估和逻辑推理。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 2：句子成分解析树和 ON-LSTM 隐藏状态之间的对应。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

表 1：在 Penn Treebank 语言建模任务上，ON-LSTM、LSTM 等模型在验证集和测试集上的模型困惑度对比。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

表 2：ON-LSTM 等模型在完整 WSJ10 和 WSJ 测试集上的无标注解析 F1 结果。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

表 3：ON-LSTM 和 LSTM 在每个测试案例中的整体准确率。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 3：在逻辑数据中的短序列 (≤ 6) 上训练模型的测试准确率。

论文：The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

作者：Jonathan Frankle、Michael Carbin
论文地址：https://openreview.net/forum?id=rJl-b3RcF7

摘要：神经网络剪枝技术可将网络参数量减少 90%，进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明，剪枝生成的解析架构从一开始就很难训练，尽管解析架构同样可以提升训练性能。

我们发现，标准的剪枝技术会自然地发现子网络，这些子网络经过初始化后能够有效进行训练。基于这些结果，我们提出了「彩票假设」（lottery ticket hypothesis）：密集、随机初始化的前馈网络包含子网络（「中奖彩票」），当独立训练时，这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

「中奖彩票」赢得了「初始化彩票」：它们的连接具有使训练非常高效的初始权重。我们提出了一种识别中奖彩票的算法，并用一系列实验来支持彩票假设以及这些偶然初始化的重要性。我们发现在 MNIST 和 CIFAR10 数据集上，「中奖彩票」网络的大小不及全连接、卷积前馈架构的 10%-20%。而且，这种「中奖彩票」比原始网络学习速度更快，测试准确率也更高。

那么，应该如何确定「中奖彩票」呢？该研究提出了以下四个步骤：

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 5：当迭代剪枝并再次随机初始化时，Conv-2/4/6 架构的早停迭代、测试和训练准确率。每条实线是五次试验的平均结果；每条虚线是 15 次再初始化（每次试验 3 次再初始化）的平均结果。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 6：当用 dropout 迭代剪枝和训练时，Conv-2/4/6 在早停时的测试准确率和早停迭代。虚线代表的是没用 dropout 训练的相同网络（图 5 中的实线）。Conv-2 的学习率为 0.0003，Conv-4 和 Conv-6 的学习率为 0.0002。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 7：VGG-19 在迭代剪枝时的测试准确率（分别是 3 万次、6 万次、11.2 万次迭代）。

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

图 8：Resnet-18 在迭代剪枝时的测试准确率（分别是 1 万次、2 万次、3 万次迭代）。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

颠覆医疗

[美]埃里克·托普 / 张南、魏薇、何雨师 / 译言·东西文库／电子工业出版社 / 2014-1-20 / 55.00

“创造性破坏”是奥地利经济学家约瑟夫·熊彼特最著名的理论，当一个产业在革新之时，都需要大规模地淘汰旧的技术与生产体系，并建立起新的生产体系。电器之于火器、汽车之于马车、个人计算机之于照排系统，都是一次又一次的“创造性破坏”，旧的体系完全不复存在，新的体系随之取代。 “创造性破坏”已经深深地改变了我们的生活，在这个数字时代，我们身边的一切都被“数字化”了。只有一处，也许是由于其本身的根深蒂固，......一起来看看《颠覆医疗》这本书的介绍吧!

码农工具