算法描述 先验算法是实现频繁项挖掘的一种经典算法,利用关联式规则不断扩展频繁项子集以获得全部的频繁项集合。解释一下关联式规则,所谓关联式是指在大量的数据中找出的项与项之间的关系。例如消费者购买了产品A,一般都会购买产品B,这就是一条关联式。 先验算法被设计用来处理包含事务的数据库,这里的每一个事.....
分类:
其他好文 时间:
2014-06-21 10:59:58
阅读次数:
354
原文地址:http://www.csdn.net/article/2012-07-03/2807073-k-means摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Mea...
分类:
其他好文 时间:
2014-06-21 09:56:22
阅读次数:
208
简介:本Demo是参照这个网站上的Demo自己用Java实现的。将Java打包为Jar,再将Jar转为exe,源代码及程序Demo下载请点我。K-Means算法简介 我尽量用通俗易懂但不规范的语言来描述K-Means算法。 K-eans算法是数据挖掘十大算法之一,是一种聚类算法,也是最简单的无监.....
分类:
其他好文 时间:
2014-06-18 10:16:14
阅读次数:
373
下面内容摘自互联网并作了整理。名词:BI(Business Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2014-06-17 00:38:42
阅读次数:
337
这篇论文主要是预测用户在基于位置的社交网络中的下一次签到地点,是ICDM'12年录用的一篇文章。
1.1 论文概要
在这篇文章中,作者首先将位置预测问题阐述为位置排名问题,即把用户所在城市内的所有签到场所作为候选集,然后根据一定的规则将候选集中的场所进行排名。排名的规则所追求的目标就是尽可能的将用户下一次签到地点排在最前面。。。。。
1.2 读后感
优点。。。
缺点。。。
1.3 总结
总之,作为一篇数据挖掘论文被ICDM录用还是够格的。以一种纯数据挖掘的角度(特征提取->模型训练->模型测试)来进行位置预...
分类:
其他好文 时间:
2014-06-15 18:45:29
阅读次数:
203
这段时间在从事游戏社区化方向的策划,为某款游戏定制化社区。
针对该款游戏做了一次深入的数据挖掘,其中一项数据特别有意思。对游戏中的好友关系进行统计,其中玩家好友数在1-5个的占了70%,6-10个的11%,平均好有数6个。
这些数据公开之后,大家对社区化价值有了不同的看法。
技术GG很失落地说:好友数这么低,做社区做聊天做关系链没任何价值啊!
我:应该双面看待这项数据。好友数少...
分类:
其他好文 时间:
2014-06-11 06:18:59
阅读次数:
262
输入法,尤其是拼音输入法,解决的就是一些序列标注的问题,针对给定的状态(拼音),获取其概率最高的隐状态(中文)。
这个是一个标准的HMM,针对HMM的解码过程,是一个很成熟也很完备的东西。
local的计算和存储能力都有限,我们选择一般是二阶马尔科夫,也就是所谓的bigram model。 高阶对质量会有帮助,但是涉及到存储和计算,工程上不可行。
同理,利用ME 以及CRFmodel...
分类:
其他好文 时间:
2014-06-10 18:18:23
阅读次数:
208
最近的一些有趣链接的分享,包括科学,设计,机器学习等多个方面的。
例如:
1.在另一个星球上打印人类
2.偷听到外星人的星际通信
3.Yann LeCun在reddit上的问答
4.卖萌的水果
......
分类:
其他好文 时间:
2014-06-08 15:12:54
阅读次数:
262
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的...
分类:
其他好文 时间:
2014-06-08 14:55:35
阅读次数:
254
之前写过决策树的一篇blog。
这几天看数据挖掘导论发掘一些新的东西,记录下来。
增加了过拟合,剪枝,即其他纯度计算方法等内容。...
分类:
其他好文 时间:
2014-06-08 03:12:07
阅读次数:
269