论文笔记:LSTM: A Search Space Odyssey

栏目: 数据库 · 发布时间: 5年前

作者

  • Klaus Greff
  • Rupesh Kumar Srivastava
  • Jan Koutnik
  • Bas R. Steunebrink
  • Jurgen Schmidhuber

观点

  • LSTM 结构的核心思想是其能维护历史状态的记忆单元,以及能调节信息出入的非线性门控单元(gating unit)
  • 自 LSTM 提出后,陆续有多种对 LSTM 结构的改进工作,并广泛应用到了许多规模、性质迥异的问题上,但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析

模型/实验/结论

模型,LSTM 即八种待对比的 LSTM 变体

  • V: vanilla LSTM,即经典的 LSTM 模型
  • NIG: 在 LSTM 基础上去除 input gate 得到的结构
  • NFG: 在 LSTM 基础上去除 forget gate 得到的结构
  • NOG: 在 LSTM 基础上去除 output gate 得到的结构
  • NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
  • NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
  • NP: 在 LSTM 基础上去除 peephole 得到的结构
  • CIFG: 既 GRU
  • FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)

实验

  • 在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM,在 JSB Chorales 数据集上使用 LSTM
  • 在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数,在 TIMIT 数据集上则使用 CTC
  • 对总共 27 个模型各进行 200 次对数尺度上的超参搜索,然后进行训练,共进行 5400 次实验
  • 每个数据集上的每个变体的 200 次实验中,最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比

结论

  • 在三个数据集上,移除 forget gate 或 output activation function 都严重损害了模型性能,forget gate 对 LSTM 来说至关重要
  • 对连续实数数据上的监督学习问题,input gate、output gate 和 input activation function 的存在非常重要
  • GRU 和 移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异,但它们都在一定程度上简化了 LSTM 结构
  • full gate recurrence 结构没有改善 LSTM 的性能,相反还在 JSB Chorales 数据集上让结果变差了不少,加上它让 LSTM 更复杂了,不建议使用
  • 动量项对性能和训练速度都没有提高作用
  • 梯度裁剪会损害整体性能
  • 在使用 SGD 进行训练时,动量项对训练没什么显著好处;但在用 BSGD 进行训练时可能会起到一定的作用
  • 学习率和网络大小是 LSTM 中非常重要的两个超参

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

C语言基础

C语言基础

安博教育集团 / 2012-2 / 37.00元

《C语言基础》深入浅出地介绍了C语言程序设计的基础知识,内容涉及C语言基础、算法基础、变量、数据类型、运算符、输入/输出相关函数、选择结构、循环结构、各种表达式、数组、字符串、指针、函数、结构体、ISO C99的扩展语法等。全书内容丰富,结构严谨,层次清晰,语言生动,论述精准而深刻,实例丰富而实用。 《C语言基础》不仅适合用做计算机职业培训的首选教材,也可作为普通高校教材使用,更是C语言初学......一起来看看 《C语言基础》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具