图文带你深入理解Transformer原理

栏目: IT技术 · 发布时间: 6年前

Attention is all you need是一篇将 Attention 思想发挥到极致的论文，出自 Google。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。到目前为止仿佛有种此生不识Transformer，就称英雄也枉然的感觉。

在本文中，我们将研究Transformer模型，把它掰开揉碎，理解它的工作原理。

这个可以借鉴SVM来理解：SVM对于比较复杂的问题通过将特征其投影到更高维的空间使得问题简单到一个超平面就能解决。这里token向量里的信息通过Feed Forward Layer被投影到更高维的空间，在高维空间里向量的各类信息彼此之间更容易区别，即使像ReLU这样的弟中弟也可以完成提取信息的任务。

Positional Encoding

其实到目前为止为了方便叙述，一直没有提及一个问题：Transformer无法将单词的次序信息学习到并编码到向量中。

为了解决这个问题，Transformer 向每个输入的 Embedding 向量添加一个位置向量，有助于确定每个单词的绝对位置，或与序列中不同单词的相对位置：

图文带你深入理解Transformer原理

位置向量使用下面公式进行编码：

图文带你深入理解Transformer原理

其中为单词在句子里的位置，为Embedding的维度，图文带你深入理解Transformer原理为Embedding中的某一对应维度。

上面采用了静态方法对位置进行编码，这样处理优势有：

对于序列长度没有限制，可以随着序列长度的增加而动态增加，而且不需要学习参数。
对于任何位置的PE(pos+k)，都可以由PE(pos)通过线性投影来得到，得益于我们的正弦余弦公式：

接着，将单词向量与位置向量相加，就得到Encoder的输入向量。

Residuals

这里还要提一个Encoder的细节，每个Encoder中的每个子层（Self-Attention, Feed Forward）都有一个围绕它的虚线，然后是一层 ADD & Normalize 的操作。

图文带你深入理解Transformer原理

这个虚线其实就是一个残差，为了防止出现梯度消失问题。而 Add & Normalize 是指将上一层传过来的数据和通过残差结构传过来的数据相加，并进行归一化：

图文带你深入理解Transformer原理

同样适用于Decoder的子层：

图文带你深入理解Transformer原理

Layer Normalization的方法可以和Batch Normalization对比着进行理解，因为Batch Normalization不是Transformer中的结构，这里不做详解。

Decoder Side

Encoder首先处理输入序列，然后将顶部Encoder的输出转换成一组 Attention 矩阵 K 和 V，这两个矩阵主要是给每个Decoder的 "Encoder-Decoder Attention" 层使用的，这有助于Decoder将注意力集中在输入序列中的适当位置：

图文带你深入理解Transformer原理

下图展示了翻译过程，不断重复此过程直到出现结束符号为止。像我们处理Encoder的输入一样，我们将输出单词的 Embedding 向量和位置向量合并，并输入到Decoder中，然后通过Decoder得到最终的输出结果。

图文带你深入理解Transformer原理

Decoder的 Self-Attention 层操作方式与Encoder中的略有不同。

在Decoder中，Self-Attention 层 只允许注意到输出单词注意它前面的单词信息 。在实现过程中通过在将 Self-Attention 层计算的 Softmax 步骤时，屏蔽当前单词的后面的位置来实现的（设置为-inf）。

Decoder中的“Encoder-Decoder Attention”层的工作原理与 “Multi-Head Attention” 层类似，只是它从其下网络中创建查询矩阵，并从Encoder堆栈的输出中获取键和值矩阵（刚刚传过来的 K/V 矩阵）。

Softmax Layer

Decoder输出浮点数向量，怎么把它变成一个单词呢？这就是最后一层 Linear 和 Softmax 层的工作了。

Linear 层是一个简单的全连接网络，它将解码器产生的向量投影到一个更大的向量上，称为 logits 向量。

假设我们有 10,000 个不同的英语单词，这时 logits 向量的宽度就是 10,000 个单元格，每个单元格对应一个单词的得分。这就解释了模型是怎么输出的了。

然后利用 Softmax 层将这些分数转换为概率。概率最大的单元格对应的单词作为此时的输出。

图文带你深入理解Transformer原理

总结

Transformer 提出了 Self-Attention 方式来代替 RNN 从而防止出现梯度消失和无法并行化的问题，并通过 Multi-Head Attention 机制集成了 Attention 丰富了特征的表达，最终在精度和速度上较 Seq2Seq 模型都有了很大的提升。

Transformer就介绍到这里了，后来的很多经典的模型比如BERT、GPT-2都是基于Transformer的思想。后续有机会再详细介绍这两个刷新很多记录的经典模型。

推荐阅读

AINLP年度阅读收藏清单

DistilBERT Understanding

太赞了！Springer面向公众开放电子书籍，附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载

深度学习如何入门？这本“蒲公英书”再适合不过了！豆瓣评分9.5!【文末双彩蛋！】

数学之美中盛赞的 Michael Collins 教授，他的NLP课程要不要收藏？

自动作诗机&藏头诗生成器：五言、七言、绝句、律诗全了

From Word Embeddings To Document Distances 阅读笔记

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课，我放到B站了

可解释性论文阅读笔记1-Tree Regularization

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

图文带你深入理解Transformer原理