码迷,mamicode.com
首页 >  
搜索关键字:数据挖掘算法    ( 157个结果
数据挖掘算法之关联规则挖掘(二)FPGrowth算法
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用 在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大 所以这里首先介绍在单机内存中运行的FPGrowth算法 还是使用apriori算法的购物车数据作为例子,如下图所示:...
分类:编程语言   时间:2015-04-24 14:22:49    阅读次数:185
数据挖掘算法之关联规则挖掘(一)---apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用 举个简单的例子 如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥ 而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐 这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的...
分类:编程语言   时间:2015-04-24 09:06:25    阅读次数:228
十大数据挖掘算法
1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离...
分类:编程语言   时间:2015-04-23 12:30:07    阅读次数:203
数据挖掘算法总结
一、关联规则挖掘 1、 Apriori算法 (1)Apriori算法原理 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规...
分类:编程语言   时间:2015-04-21 00:26:32    阅读次数:376
多维空间分割树--KD树
算法介绍 KD树的全称为k-Dimension Tree的简称,是一种分割K维空间的数据结构,主要应用于关键信息的搜索。为什么说是K维的呢,因为这时候的空间不仅仅是2维度的,他可能是3维,4维度的或者是更多。我们举个例子,如果是二维的空间,对于其中的空间进行分割的就是一条条的分割线,比如说下面这个样子。 如果是3维的呢,那么分割的媒介就是一个平面了,下面是3维空间的分割 这就...
分类:其他好文   时间:2015-04-11 09:01:02    阅读次数:4534
mllib:Exception in thread "main" org.apache.spark.SparkException: Input validation failed.
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误: 15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labels Exception in thread "main" org.apache.spark.S...
分类:Web程序   时间:2015-04-09 23:52:01    阅读次数:262
倒排索引构建算法BSBI和SPIMI
参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.net/v_july_v/article/details/7109500 我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 我的算法库:h...
分类:编程语言   时间:2015-04-06 08:59:45    阅读次数:197
随机森林和GBDT的学习
参考文献:http://www.zilhua.com/629.html http://www.tuicool.com/articles/JvMJve http://blog.sina.com.cn/s/blog_573085f70101ivj5.html 我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 我的算法库:https...
分类:其他好文   时间:2015-03-31 09:15:44    阅读次数:184
18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希...
分类:编程语言   时间:2015-02-27 12:02:45    阅读次数:143
RoughSets属性约简算法
参考资料:http://baike.baidu.com/link?url=vlCBGoGR0_97l9SQ-WNeRv7oWb-3j7c6oUnyMzQAU3PTo0fx0O5MVXxckgqUlP871xR2Le-puGfFcrA4-zIntq 更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 介绍 RoughSets算法是一种比...
分类:编程语言   时间:2015-02-18 11:55:32    阅读次数:205
157条   上一页 1 ... 9 10 11 12 13 ... 16 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!