关键词:Transformer,残差连接内容目录残差连接的历史由来Transformer中的残差连接深层网络的问题代码复现深层网络的问题分析残差连接的作用通俗理解残差连接和GBDT类比残差连接的作用公式理解深层网络运用残差连接代码实践残差连接的历史由来残差连接可以追溯到2015年
关键词:Transformer,Decoder解码器,注意力机制前言在之前系列的篇章中已经介绍了Transformer的Encoder编码器网络结构,要点知识包括Transformer系列:Multi-Head Attention网络结构和代码解析Transformer系列:残差
关键词:Transformer,位置编码内容提要位置编码的目的位置编码的多种方式从代码理解sin-cos位置编码特性sin-cos位置编码如何表达相对位置信息位置编码的目的注意力Attention这种操作具有排列不变性,输入元素位置的变动不会对注意力结果产生影响,从而模型无法感知
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。Masked Multi-Head Attention层的输出经过add&BN后与encoder部分输入的K、V交汇在一起,来到了一个和左半部分一样的Multi-Head Attention + Feed Forward层,decoder部分同样重复迭代N次,最终送入Linear层做最后的softmax计算,输出我们的预测值。
自从彻底搞懂Self_Attention机制之后,笔者对Transformer模型的理解直接从地下一层上升到大气层,任督二脉呼之欲出。于是在肾上腺素的驱使下,笔者熬了一个晚上,终于实现了Transformer模型。