Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
# tmsvm # ------**Text Mining System based on SVM** ---------- 1.想从自由文本中找出一些有意义的词语吗?企业名称?商标名称?那就试试EntNER-基于统计与HMM的命名识别工具 2.不想手动收集训练集?想借助Goo...
分类:
其他好文 时间:
2015-03-17 18:21:30
阅读次数:
179
机器学习中,我们根据训练集训练一个模型,来对测试数据进行预测。通常我们并不关心模型在训练集上的好坏(即训练误差,in sample error),因为即使一个模型在训练集上表现的再好也未必具有举一反三的能力,因此我们更着重于其在从未见过的数据(测试集)上的正确率(即泛化误 差,generalizat...
分类:
其他好文 时间:
2015-03-14 23:02:16
阅读次数:
1955
ALS矩阵分解推荐模型
其实通过模型来预测一个user对一个item的评分,思想类似线性回归做预测,大致如下
定义一个预测模型(数学公式),
然后确定一个损失函数,
将已有数据作为训练集,
不断迭代来最小化损失函数的值,
最终确定参数,把参数套到预测模型中做预测。
矩阵分解的预测模型是:
损失函数是:
我们就是要最小化损失函数,从而求得参...
分类:
其他好文 时间:
2015-03-05 22:24:01
阅读次数:
545
有了数据,剩下的就是流水线上的活:利用某种机器学习算法学习得到模型,在用模型进行预测,评价模型的性能。1 分割训练集和测试集Python的机器学习包sklearn非常强大,它不仅包含了不论监督学习、非监督学习的算法,同时包括了进行常用预处理和其他流程的函数。分割训练集和测试集的函数虽然很简单,但也包...
分类:
其他好文 时间:
2015-03-04 22:37:23
阅读次数:
837
良性URL数据集:
1,DMOZ
http://rdf.dmoz.org/rdf/
2,alexa
http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
3,chinaz
http://top.chinaz.com/top500?t=48
恶意URL数据集:
1,PhishTank
http://www.phishta...
分类:
Web程序 时间:
2015-03-04 16:56:07
阅读次数:
140
训练数据格式如下:输入有4个维度,输出为{-1,+1}。共有400条数据。 题目要求将权向量元素初始化为0,然后使用“Naive Cycle”遍历训练集,求停止迭代时共对权向量更新了几次。 所谓“Naive Cycle”指的是在某数据条目x(i)上发现错误并更新权向量后,下次从x(i+1)继续读数据,而不是回到第一条数据x(0)从头开始。该题要求使用“fixed,pre-determined random cycle”对数据进行遍历,即对400条数据进行随机排序,然后在这轮计算中始终使用这一排序,直到下一轮...
分类:
其他好文 时间:
2015-03-01 23:54:00
阅读次数:
448
前一篇文章"Learning to Rank中Pointwise关于PRank算法源码实现"讲述了基于点的学习排序PRank算法的实现.该篇文章主要讲述Listwise Approach和基于神经网络的ListNet算法及Java实现.包括:
1.基于列的学习排序(Listwise)介绍
2.ListNet算法介绍
3.ListNet算法Java实现
LTR中单文档方法是将训练集里每一个文档当做一个训练实例,文档对方法是将同一个查询的搜索结果里任意两个文档对作为一个训练实例,...
分类:
编程语言 时间:
2015-02-05 23:31:36
阅读次数:
1230
http://www.blogjava.net/zhenandaci/archive/2008/06/05/205950.html学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督...
分类:
其他好文 时间:
2015-02-04 20:10:02
阅读次数:
225
main idea: 在使用bootstrap生成gi的训练集时,会有一部分数据没有被选中,使用这一部分数据(OOB)进行validation。 1.数据没有被选中的概率 假设训练集大小为N,使用bootstrap生成N’(假设N’=N)条数据用于gi的训练(有放回抽样),则某条特定数据没有被选中的...
分类:
其他好文 时间:
2015-01-29 20:57:03
阅读次数:
234