LSTM模型与前向反向传播算法

刘建平Pinard

分类：机器学习

发布时间 2022.08.24阅读数 2517 评论数 0

　　在循环神经网络(RNN)模型与前向反向传播算法中，我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

1. 从RNN到LSTM

在RNN模型里，我们讲到了RNN具有如下的结构，每个序列索引位置t都有一个隐藏状态 $h^{(t)}$ 。

可以看到LSTM的结构要比RNN的复杂的多，真佩服牛人们怎么想出来这样的结构，然后这样居然就可以解决RNN梯度消失的问题？由于LSTM怎么可以解决梯度消失是一个比较难讲的问题，我也不是很熟悉，这里就不多说，重点回到LSTM的模型本身。

2. LSTM模型结构剖析

2.1 LSTM之遗忘门

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示：

2.2 LSTM之输入门

　　输入门（input gate）负责处理当前序列位置的输入，它的子结构如下图：

2.3 LSTM之细胞状态更新

2.4 LSTM之输出门

有了新的隐藏细胞状态 $C^{(t)}$ ，我们就可以来看输出门了，子结构如下：

3. LSTM前向传播算法

4. LSTM反向传播算法推导关键点

　有了LSTM前向传播算法，推导反向传播算法就很容易了，思路和RNN的反向传播算法思路一致，也是通过梯度下降法迭代更新我们所有的参数，关键点在于计算所有参数基于损失函数的偏导数。

5. LSTM小结

　LSTM虽然结构复杂，但是只要理顺了里面的各个部分和之间的关系，进而理解前向反向传播算法是不难的。当然实际应用中LSTM的难点不在前向反向传播算法，这些有算法库帮你搞定，模型结构和一大堆参数的调参才是让人头痛的问题。不过，理解LSTM模型结构仍然是高效使用的前提。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

4）Understanding-LSTMs

人工智能机器学习深度学习反向传播 LSTM模型

打赏 0

点赞 0

收藏 0

分享

上一篇：循环神经网络(RNN)模型与前向反向传播算法

下一篇：机器学习算法的随机数据生成

为你推荐

给作者打赏

您当前积分：0

想获取更多信息和操作，请移步电脑网页版