A note on matrix implementations将J对softmax的权重W和每个word vector进行求导:尽量使用矩阵运算(向量化),不要使用for loop。模型训练中有两个开销比较大的运算:矩阵乘法f=Wx和指数函数expSoftmax(=logistic regression) is not very powerfulsoftmax只是在原来的向量空间中给出了一些lin...
分类:
其他好文 时间:
2015-07-04 22:20:10
阅读次数:
283
通过 训练针对不同特征点的专项网络 来完全使用训练集。针对多个模型训练时间过长,介绍了一种通过提前训练的权重来加速网络训练的技巧。
这是教程的最后一部分。...
分类:
Web程序 时间:
2015-06-14 18:33:10
阅读次数:
515
梯度下降法和牛顿法是最常见的两个模型训练算法了,现在对这两个算法做一个比较:梯度下降法牛顿法迭代公式\[{w^{(k + 1)}} = {w^{(k)}} - \alpha \nabla J({w^{(k)}})\]\[{w^{(k + 1)}} = {w^{(k)}} - {H^{ - 1}}({...
分类:
其他好文 时间:
2015-05-18 18:33:45
阅读次数:
107
关于最大熵模型的介绍请看:http://www.cnblogs.com/hexinuaa/p/3353479.html以下是GIS训练算法的python实现,代码不到100行。from collections import defaultdictimport mathclass MaxEnt(obj...
分类:
其他好文 时间:
2015-03-12 13:02:27
阅读次数:
211
分类模型:
分类模型涉及的一个比较关键的问题就是输出的10维向量是如何与具体的类别挂钩的。实际上:10维向量的每一位都代表一类,在对于训练集的表达中,如果输入数据是0,则10维向量的第一位赋值为1,其余均为0。即0对应[1,0,0,0,0,0,0,0,0,0]。MLP模型训练完成后,就需要对用户输入的数据所属类别进行判定。这时得到的输出数据基本不可能是正好的所属类为1,其他位置为0...
分类:
其他好文 时间:
2015-01-23 18:29:45
阅读次数:
999
基本思想:将数据分为训练集合和测试集合,用训练集合的数据训练模型,用测试集合的数据测试模型。训练集和测试集的划分,可以是按照时间的维度,也可以按照人群的维度。
存在风险:对于某些方法可能有偏向性。
用历史数据进行评价
按照时间维度将数据分为训练集合测试集,N折交叉验证。
还有直接用人工进行评价的。不过代价较大,不能上规模,在实际中用处不大。
完。...
分类:
其他好文 时间:
2015-01-17 18:02:07
阅读次数:
165
本文介绍利用NiuTrans工具进行文白对译的步骤,默认用户已经安装NiuTrans,安装目录为NiuTrans/,以下相对路径基于此目录。文白对译模型训练步骤分为语料预处理、对齐、翻译模型训练、语言模型训练、参数调整四个阶段。一、语料预处理我们拿到的原始数据格式比较杂乱,需要做预处理,最终形成规则...
分类:
其他好文 时间:
2014-11-20 21:57:39
阅读次数:
388
本文介绍利用NiuTrans工具进行文白对译的步骤,默认用户已经安装NiuTrans,安装目录为NiuTrans/,以下相对路径基于此目录。文白对译模型训练步骤分为语料预处理、对齐、翻译模型训练、语言模型训练、参数调整四个阶段。一、语料预处理我们拿到的原始数据格式比较杂乱,需要做预处理,最终形成规则...
分类:
其他好文 时间:
2014-09-19 09:54:05
阅读次数:
231
这篇论文主要是预测用户在基于位置的社交网络中的下一次签到地点,是ICDM'12年录用的一篇文章。
1.1 论文概要
在这篇文章中,作者首先将位置预测问题阐述为位置排名问题,即把用户所在城市内的所有签到场所作为候选集,然后根据一定的规则将候选集中的场所进行排名。排名的规则所追求的目标就是尽可能的将用户下一次签到地点排在最前面。。。。。
1.2 读后感
优点。。。
缺点。。。
1.3 总结
总之,作为一篇数据挖掘论文被ICDM录用还是够格的。以一种纯数据挖掘的角度(特征提取->模型训练->模型测试)来进行位置预...
分类:
其他好文 时间:
2014-06-15 18:45:29
阅读次数:
203
输入法,尤其是拼音输入法,解决的就是一些序列标注的问题,针对给定的状态(拼音),获取其概率最高的隐状态(中文)。
这个是一个标准的HMM,针对HMM的解码过程,是一个很成熟也很完备的东西。
local的计算和存储能力都有限,我们选择一般是二阶马尔科夫,也就是所谓的bigram model。 高阶对质量会有帮助,但是涉及到存储和计算,工程上不可行。
同理,利用ME 以及CRFmodel...
分类:
其他好文 时间:
2014-06-10 18:18:23
阅读次数:
208