RNN－循环神经网络(上)

热点文章

RNN－循环神经网络(上)

循环神经网络常用来做时序分析，即根据现有的按发生顺序排列的数据来预测未来的走势，循环神经网络大量用于语音分析、语言翻译、金融分析、内容推荐等领域，循环神经网络是一个大的分类，代表模型是RNN（循环神经网络）、LSTM（长短时记忆网络）,与之前介绍的全连接神经网络、卷积神经网络不同，循环神经网络在反向传播时不仅有层与层之间传递，还有时间维度上的传递。

一、RNN循环神经前向传播

RNN是初级的循环神经网络，训练过程中每个序列中中间运算结果会进入下一次的输入中，其示意图如下：

上图左边是RNN结构图，右侧是RNN按序列输入展开后的示意图，图中x_t-1、x_t、x_t+1代表一串序列，序列中每个元素都为向量，例如有编号为d₁,d₂,d₃,d₄,d₅,d₆...采集数据，每个编号数据为一个实数,可将编号d₁,d₂数据合并为一个二维向量，将编号d₃为标签值得到一个样本x₁=(d₁,d₂),y₁=d₃,依此类推，有序列x₂=(d₂,d₃),y₂=d₄、x₃=(d₃,d₄),y₃=d₅、x₄=(d₄,d₅),y₄=d₆等，采用循环神经网络类似于英语中完形填空题，我们通过语法学习培养出语感后（模型训练），可在缺失处填写正确的单词使得语句完整。

RNN有类似全连接神经网络的隐藏层，RNN可以有多个隐藏层，以只有一个隐藏层的RNN为例，RNN前向传播的公式有：

rnn前向传播.png ⑴

Net_t表示序列中第t个序列的输入，对应于上图Net_t是隐藏层神经单元s的输入值，Net_t中含有上一次隐藏层的输出值s_t-1，Net_t经过激活函数f处理后为隐藏层的输出值，这个流程与全连接神经网络是很相似的，假设激活函数f选择使用双曲正切函数tanh(x),tanh(x)函数形式以及图像分别如下：

双曲正切函数.png

双曲正切函数导数与自身有一定形式上关联，导数公式如下：

隐藏层输出乘以权重V后经激活函数g处理后变为最终RNN神经网络的输出，输出后的值根据具体问题选择适当的损失函数，如是分类问题常用交叉熵函数，与此同时激活函数g一般是softmax函数；如果是回归问题，则损失函数可选择平方误差函数，这时激活函数一般可选择Relu函数。

二、 RNN反向传播过程

2.1、循环神经网络误差梯度按时间、空间传递

前面已经说过，循环神经网络与全连接神经网络、卷积神经网络最大不同在于误差体现时间维度上累积，这是所有包括LSTM在内所有循环神经网络的特性，通过研究RNN可以将一些结论拓展沿用到LSTM上，这正是研究RNN的意义所在。循环神经网络上反向传播时，首先要求出在时间维度上的误差梯度，然后再考虑层与层之间误差梯度传递。

RNN实质是个全连接神经网络，可利用DNN反向传播方法推导出RNN在t时刻的误差梯度，所有神经网络都一样误差都是定位到输入端，设t时刻梯度为:

按时间反向传递.png