机器学习（ML）六之RNN基础

时间：2020-02-14 18:28:44 阅读：101 评论：0 收藏：0 [点我收藏+]

循环神经网络

下图展示了如何基于循环神经网络实现语言模型。目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量

先看循环神经网络的具体构造。假??_??∈?^??×??是时间步??_??∈?^??×?是该时间步的隐藏变量，则：

??_??=??(??_????_??_?+??_??₋₁??_?_?+??_?).

技术图片

需要将字符表示成向量，这里采用one-hot向量。假设词典大小是

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量

以下函数基于前缀prefix（含有数个字符的字符串）来预测接下来的num_chars个字符。这个函数稍显复杂，其中我们将循环神经单元rnn设置成了函数参数，这样在后面小节介绍其他循环神经网络时能重复使用这个函数。

我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

跟之前章节的模型训练函数相比，这里的模型训练函数有以下几点不同：

原文地址：https://www.cnblogs.com/jaww/p/12308158.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行