谷歌开源 GPipe，训练更大模型、不调整超参扩展性能

栏目: IT资讯 · 发布时间: 7年前

内容简介：谷歌开源了一个分布式机器学习库 GPipe，这是一个用于高效训练大规模神经网络模型的库。 GPipe 使用同步随机梯度下降和管道并行进行训练，适用于由多个连续层组成的任何 DNN。重要的是，GPipe 允许研究人员轻松部...

谷歌开源了一个分布式机器学习库 GPipe，这是一个用于高效训练大规模神经网络模型的库。

GPipe 使用同步随机梯度下降和管道并行进行训练，适用于由多个连续层组成的任何 DNN。重要的是，GPipe 允许研究人员轻松部署更多加速器来训练更大的模型，并在不调整超参数的情况下扩展性能。

开发团队在 Google Cloud TPUv2s 上训练了 AmoebaNet-B，其具有 5.57 亿个模型参数和 480 x 480 的输入图像尺寸。该模型在多个流行数据集上表现良好，包括将 single-crop ImageNet 精度推至 84.3％，将 CIFAR-10 精度推至 99％，将 CIFAR-100 精度推至 91.3％。

谷歌开源 GPipe，训练更大模型、不调整超参扩展性能

GPipe 可以最大化模型参数的内存分配。团队在 Google Cloud TPUv2上进行了实验，每个 TPUv2 都有 8 个加速器核心和 64 GB 内存（每个加速器 8 GB）。如果没有 GPipe，由于内存限制，单个加速器可以训练 8200 万个模型参数。由于在反向传播和批量分割中重新计算，GPipe 将中间激活内存从 6.26 GB 减少到 3.46GB，在单个加速器上实现了 3.18 亿个参数。此外，通过管道并行，最大模型大小与预期分区数成正比。通过 GPipe，AmoebaNet 能够在 TPUv2 的 8 个加速器上加入 18 亿个参数，比没有 GPipe 的情况下多 25 倍。

核心 GPipe 库目前开源在 Lingvo 框架下。

具体原理可以查看谷歌的发布公告。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

微积分的历程

William Dunham / 李伯民、汪军、张怀勇 / 人民邮电出版社 / 2010-8 / 29.00元

“微积分”这一名称最早出现在哪本书中？第一本微积分教科书又是谁人所写？微积分究竟是谁人发明的？著名的洛必达法则居然是伯努利的研究成果？谁被誉为“分析学的化身”？谁又被誉为“现代分析学之父”？哪些数学天才使微积分的创建过程终于画上完美的句号？……本书将带你一一探究上述问题。本书宛如一座陈列室，汇聚了十多位数学大师的杰作，当你徜徉其中时会对人类的想象力惊叹不已，当你离去时必然满怀对天才们的钦佩......一起来看看《微积分的历程》这本书的介绍吧!

码农工具