标签:分布 方式 需要 span 关系 不同 相互 缩小 max
计算公式
\[net_t = Ux_t + Wh_{t-1}\]
\[h_t = f(net_t)\]
\[y = g(Vh_T)\]
\(f\)为激活函数,\(g\)为最后的分类函数(如Softmax)
\(U\)为输入层到隐含层之间的权重矩阵
\(W\)为隐含层从上一时刻到下一时刻状态转移的权重矩阵
\(V\)为隐含层到输出层的权重矩阵
标签:分布 方式 需要 span 关系 不同 相互 缩小 max
原文地址:https://www.cnblogs.com/weilonghu/p/11922973.html