(四十五）通俗易懂理解——Seq2Seq Attention模型

梦里寻梦

发布时间 2022.08.27阅读数 2743 评论数 0

seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

要了解这个首先要对RNN以及BiLSTM模型有一个清晰的理解，需要再回顾的查看以下文章：

梦里寻梦：（五）通俗易懂理解——BiLSTM277

接下去要对Encoder-Decoder模型有一个清晰的认识，其在机器翻译上效果十分突出。

如图中所展示，我们要翻译“知识就是力量。”这句话。Encoder是一个RNN，将要翻译的话转换成向量特征，输入到Decoder中。

简而言之，就是输入“知识就是力量”，然后经过神经网络后，输出一个向量，这个向量包含着丰富的语义信息，也即所谓的编码。然后再将该编码输入一套神经网络，最终输出“knowledge is power”。

这是Encoder，一个RNN，C是RNN从输入x_1,x_2,x_3,x_4中提取的向量，或者说对x_1,x_2,x_3,x_4进行一个编码，得到c有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。

获得C以后，就使用另一个RNN，Decoder，来对编码C进行解码，或者说根据向量C来学习获得正确的输出。上面两图中是两种输入方式，将C当做之前的初始状态h0输入到Decoder中和将C当做每一步的输入。

接下来讲述Seq2Seq Attention

大框架如下图所示

接下来按照步骤进行解说，注意查看图片下方的解释说明。

(1) $h_{t} = R N N_{e n c} (x_{t}, h_{t - 1})$ , Encoder方面接受的是每一个单词word embedding，和上一个时间点的hidden state。输出的是这个时间点的hidden state。

从左边Encoder开始，输入转换为word embedding, 进入LSTM。LSTM会在每一个时间点上输出hidden states。如图中的h1,h2,...,h8。

(2) $s_{t} = R N N_{d e c} (\hat{y_{t - 1}}, s_{t - 1})$ ， Decoder方面接受的是目标句子里单词的word embedding，和上一个时间点的hidden state。

接下来进入右侧Decoder，输入为(1) 句首符号&amp;lt;sos&amp;gt;，原始context vector(为0)，以及从encoder最后一个hidden state: h8。LSTM的是输出是一个hidden state。（当然还有cell state，这里没用到，不提。）

我们将获得以下信息，也就是上图中hidden states层，包括encode和decode，但是decode此时只有一个信息：

紧接着我们需要计算权重得分。

在luong中提到了三种score的计算方法。这里图解前两种：

Attention score function: dot

输入是encoder的所有hidden states H: 大小为(hid dim, sequence length)。decoder在一个时间点上的hidden state， s：大小为（hid dim, 1）。

第一步：旋转H为（sequence length, hid dim) 与s做点乘得到一个大小为(sequence length, 1)的分数。

(3) $e_{i j} = s c o r e (s_{i}, h_{j})$ , 通过decoder的hidden states加上encoder的hidden states来计算一个分数。

第二步：对分数做softmax得到一个合为1的权重。

(4) $α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}$ , 每一个encoder的hidden states对应的权重。

第三步：将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

(5) $c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j}$ , context vector是一个对于encoder输出的hidden states的一个加权平均。

Attention score function: general

输入是encoder的所有hidden states H: 大小为(hid dim1, sequence length)。decoder在一个时间点上的hidden state， s：大小为（hid dim2, 1）。此处两个hidden state的纬度并不一样。

第一步：旋转H为（sequence length, hid dim1) 与 Wa [大小为 hid dim1, hid dim 2)] 做点乘，再和s做点乘得到一个大小为(sequence length, 1)的分数。

(3) $e_{i j} = s c o r e (s_{i}, h_{j})$ , 通过decoder的hidden states加上encoder的hidden states来计算一个分数。

第二步：对分数做softmax得到一个合为1的权重。

(4) $α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}$ , 每一个encoder的hidden states对应的权重。

第三步：将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

(5) $c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j}$ , context vector是一个对于encoder输出的hidden states的一个加权平均。

我们得到了如下信息：

Decoder的hidden state与Encoder所有的hidden states作为输入，放入Attention模块开始计算一个context vector。之后会介绍attention的计算方法。

从上文步骤我们得到了如下信息，第一个context的信息：

那么接下去就是重复上面一个过程，生成context的第二个第三个信息等到。

下一个时间点

来到时间点2，之前的context vector可以作为输入和目标的单词串起来作为lstm的输入。之后又回到一个hiddn state。以此循环。

(6) $\hat{s_{t}} = t a n h (W_{c} [c_{t}; s_{t}])$ , 将context vector 和 decoder的hidden states 串起来。

此时我们获得了如下信息：

(7) $p (y_{t} | y_{< t}, x) = s o f t m a x (W_{s} \hat{s_{t}})$ ，计算最后的输出概率。

另一方面，context vector和decoder的hidden state合起来通过一系列非线性转换以及softmax最后计算出概率。

完结

整个完整公式如下：

输入： $x = (x_{1}, . . ., x_{T_{x}})$

输出： $y = (y_{1}, . . ., y_{T_{y}})$

(1) $h_{t} = R N N_{e n c} (x_{t}, h_{t - 1})$ , Encoder方面接受的是每一个单词word embedding，和上一个时间点的hidden state。输出的是这个时间点的hidden state。

(2) $s_{t} = R N N_{d e c} (\hat{y_{t - 1}}, s_{t - 1})$ ， Decoder方面接受的是目标句子里单词的word embedding，和上一个时间点的hidden state。

(3) $c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j}$ , context vector是一个对于encoder输出的hidden states的一个加权平均。

(4) $α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}$ , 每一个encoder的hidden states对应的权重。

(5) $e_{i j} = s c o r e (s_{i}, h_{j})$ , 通过decoder的hidden states加上encoder的hidden states来计算一个分数，用于计算权重(4)

(6) $\hat{s_{t}} = t a n h (W_{c} [c_{t}; s_{t}])$ , 将context vector 和 decoder的hidden states 串起来。

(7) $p (y_{t} | y_{< t}, x) = s o f t m a x (W_{s} \hat{s_{t}})$ ，计算最后的输出概率。

详细图

左侧为Encoder+输入，右侧为Decoder+输出。中间为Attention。

很感谢原文作者的无私奉献，让我对这个模型有了进一步的了解，基于我自身看文章时候的困惑，对文章对顺序等方面做了一定的修改。也相信大家看完之后能够更加简单明了地理解该知识点。

文章来源：https://zhuanlan.zhihu.com/p/40920384

文章来源：https://blog.csdn.net/chen_yiwe

深度学习注意力机制 Seq2Seq

打赏 0

上一篇：（四十四）通俗易懂理解——BiLSTM-CRF

(四十五）通俗易懂理解——Seq2Seq Attention模型

梦里寻梦

紧接着我们需要计算权重得分。

为你推荐

机器学习笔记-线性不可分支持向量机的实现

神经网络从0到1（二）——车牌识别(cv部分)

Pytorch 4. 训练神经网络 (Training our Neural Network)

强化学习docker环境配置

强化学习笔记1

精选知识图谱基本工具Neo4j使用笔记四：使用csv文件批量导入图谱数据

关于作者

梦里寻梦

40

0

0

3

（二十三）通俗易懂理解——BP反向传播

（十九）通俗易懂理解——无人驾驶概述

（十四）通俗易懂理解——GBDT算法原理

相关推荐

深度学习：详细说明GoogleNet网络结构

【TensorFlow】Window10搭建GPU环境（CUDA、cuDNN）

人体姿态识别之RMPE（AlphaPose）

可变形卷积从概念到实现过程

决策树枝干的拓展

机器学习笔记-朴素贝叶斯分类

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

(四十五）通俗易懂理解——Seq2Seq Attention模型

梦里寻梦

紧接着我们需要计算权重得分。

为你推荐

机器学习笔记-线性不可分支持向量机的实现

神经网络从0到1（二）——车牌识别(cv部分)

Pytorch 4. 训练神经网络 (Training our Neural Network)

强化学习docker环境配置

强化学习笔记1

精选知识图谱基本工具Neo4j使用笔记 四 ：使用csv文件批量导入图谱数据

评论（0）

关于作者

梦里寻梦

40

0

0

3

（二十三）通俗易懂理解——BP反向传播

（十九）通俗易懂理解——无人驾驶概述

（十四）通俗易懂理解——GBDT算法原理

相关推荐

深度学习：详细说明GoogleNet网络结构

【TensorFlow】Window10搭建GPU环境（CUDA、cuDNN）

人体姿态识别之RMPE（AlphaPose）

可变形卷积从概念到实现过程

决策树枝干的拓展

机器学习笔记-朴素贝叶斯分类

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

精选知识图谱基本工具Neo4j使用笔记四：使用csv文件批量导入图谱数据

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板