Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
分类:
编程语言 时间:
2015-04-05 16:03:20
阅读次数:
329
第 3 部分: 深入推荐引擎相关算法 - 聚类智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clusterin...
分类:
编程语言 时间:
2015-04-04 12:03:06
阅读次数:
145
今天要对一个1000个个记录,每个记录有n个属性的文本进行聚类,采用的是二分k均值方法。算法思想:我参考了Pang-Ning Tan数据挖掘导论里P317相对于kmeans的优点是不受其初始质心的影响。#coding utf-8#python 3.4#2015-4-3#Fitz Yin #yinr....
分类:
编程语言 时间:
2015-04-03 20:54:09
阅读次数:
203
这个算法是用于目标检索的比较快速的一个算法,参考Randomized Visual Phrases for Object Search。
算法的流程如下:
//图片训练阶段
1读入N张图片
2 转换成灰度图
3 检测N张图片的特征点,本算法中应用的是SIFT特征。
4 生成描述子
5 描述子聚类,生成visual word,用kmeans()算法完成。
6 将图片库中的图片用另...
分类:
其他好文 时间:
2015-04-03 15:30:43
阅读次数:
185
本节内容: 1、混合高斯模型; 2、将混合高斯模型应用到混合贝叶斯模型;(应用:文本聚类) 3、结合EM算法,讨论因子分析算法; 4、高斯分布的有用性质。混合高斯模型将一般化的EM算法流程(下载笔记)应用到混合高斯模型因子分析模型因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即...
分类:
其他好文 时间:
2015-04-02 14:44:36
阅读次数:
298
算法过程如下:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的个各类的质心4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束优点:1.算法快速,简单 2.对大数据集有较高的效率并且是可伸缩性的 ...
分类:
编程语言 时间:
2015-04-01 11:05:33
阅读次数:
149
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规...
分类:
其他好文 时间:
2015-03-31 18:20:14
阅读次数:
132
Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。下载Maho...
分类:
其他好文 时间:
2015-03-29 17:54:37
阅读次数:
147
开篇先推荐几篇关于推荐的文章,个人感觉对于入门非常有实际意义,是IBM的project师写的,例如以下:探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类...
分类:
其他好文 时间:
2015-03-28 21:34:50
阅读次数:
145
在用聚类算法如k-means对数据进行聚类处理的时候,按照一般的处理方法,需要将每个数据跟其他所有的元素进行比较,计算相似度,然后才能聚类。假定有N个元素,则需计算N*(N-1)/2 次,当N非常大的时候,则非常消耗时间,这种时候,可以使用K-d树数据结构,对所有数据进行重新组织,构成一棵而叉树。k...
分类:
编程语言 时间:
2015-03-19 18:02:21
阅读次数:
135