码迷,mamicode.com
首页 >  
搜索关键字:聚类 k-meas k均值    ( 1791个结果
颜色聚类
这是一个按照图片颜色深浅的聚类算法 1 function [ result ] = my_kcluster_random( imgAddress ) 2 %UNTITLED Summary of this function goes here 3 % Detailed explanation g.....
分类:其他好文   时间:2014-07-11 18:47:45    阅读次数:148
使用scipy进行聚类
最近做图像的时候,突然有个idea,需要进行聚类,其实算法很简单,但是当时很急,就直接使用了scipy的cluster。 使用起来其实很简单,但是中文的文章很少,所以就简单的介绍一下,感兴趣的也可以自己去看一下英文的文档:http://docs.scipy.org/doc/scipy/reference/cluster.html。 这是我从stackoverflow看到的一个demo,如果只是...
分类:其他好文   时间:2014-07-08 19:25:48    阅读次数:309
利用LDA进行文本聚类(hadoop, mahout)
项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:其他好文   时间:2014-07-07 10:43:16    阅读次数:1186
用python计算lda语言模型的困惑度并作图
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:编程语言   时间:2014-07-02 18:03:38    阅读次数:827
聚类相关
归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等  I ,am, is ,a,an,always 我,啊,了...
分类:其他好文   时间:2014-07-02 10:41:28    阅读次数:267
EM算法原理
在聚类中我们经经常使用到EM算法(i.e. Estimation - Maximization)进行參数预计, 在该算法中我们通过函数的凹/凸性,在estimation和maximization两步中迭代地进行參数预计,并保证能够算法收敛,达到局部最优解。PS:为了不在11.11这个吉祥的日子发bl...
分类:其他好文   时间:2014-07-02 09:56:51    阅读次数:234
相似数据检测算法
相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、D...
分类:其他好文   时间:2014-07-01 23:15:24    阅读次数:388
DBScan聚类算法原理与实现整理
百度百科中的描述算法描述:(1)检测数据库中尚未检查过的对象p,如果p为被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N;(2)对候选集N 中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N...
分类:数据库   时间:2014-06-30 12:31:47    阅读次数:344
[转载]非常的好的协同过滤入门文章
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:其他好文   时间:2014-06-27 14:21:53    阅读次数:225
sql server 2008 索引
微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)我们举例来说明一下聚集索引和非聚集索引的区别:我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“吃”字,...
分类:数据库   时间:2014-06-25 11:56:14    阅读次数:276
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!