搜索关键字：聚类 k-meas k均值，搜索到1791个结果！码迷,mamicode.com！

颜色聚类

这是一个按照图片颜色深浅的聚类算法 1 function [ result ] = my_kcluster_random( imgAddress ) 2 %UNTITLED Summary of this function goes here 3 % Detailed explanation g.....

分类：其他好文时间：2014-07-11 18:47:45 阅读次数：148

使用scipy进行聚类

最近做图像的时候，突然有个idea，需要进行聚类，其实算法很简单，但是当时很急，就直接使用了scipy的cluster。使用起来其实很简单，但是中文的文章很少，所以就简单的介绍一下，感兴趣的也可以自己去看一下英文的文档：http://docs.scipy.org/doc/scipy/reference/cluster.html。这是我从stackoverflow看到的一个demo，如果只是...

分类：其他好文时间：2014-07-08 19:25:48 阅读次数：309

利用LDA进行文本聚类(hadoop, mahout)

项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号，value为待聚类文本的单词向量Vector, Vector...

分类：其他好文时间：2014-07-07 10:43:16 阅读次数：1186

用python计算lda语言模型的困惑度并作图

转载请注明：电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时，原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为：perp...

分类：编程语言时间：2014-07-02 18:03:38 阅读次数：827

聚类相关

归一化：可以将大量重复特征聚合为单一特征，降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)词干处理：(变形词，同意词，近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺早餐-早饭.......停用词：（弱特征）大量出现的没有实际特征意义的虚词，副词，语气词等 I ,am, is ,a,an,always 我，啊，了...

分类：其他好文时间：2014-07-02 10:41:28 阅读次数：267

EM算法原理

在聚类中我们经经常使用到EM算法（i.e. Estimation - Maximization）进行參数预计, 在该算法中我们通过函数的凹/凸性，在estimation和maximization两步中迭代地进行參数预计，并保证能够算法收敛，达到局部最优解。PS：为了不在11.11这个吉祥的日子发bl...

分类：其他好文时间：2014-07-02 09:56:51 阅读次数：234

相似数据检测算法

相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同)，从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值，比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、D...

分类：其他好文时间：2014-07-01 23:15:24 阅读次数：388

DBScan聚类算法原理与实现整理

百度百科中的描述算法描述：（1）检测数据库中尚未检查过的对象p，如果p为被处理(归为某个簇或者标记为噪声)，则检查其邻域，若包含的对象数不小于minPts，建立新簇C，将其中的所有点加入候选集N；（2）对候选集N 中所有尚未被处理的对象q，检查其邻域，若至少包含minPts个对象，则将这些对象加入N...

分类：数据库时间：2014-06-30 12:31:47 阅读次数：344

[转载]非常的好的协同过滤入门文章

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一...

分类：其他好文时间：2014-06-27 14:21:53 阅读次数：225

sql server 2008 索引

微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(nonclustered index，也称非聚类索引、非簇集索引)我们举例来说明一下聚集索引和非聚集索引的区别：我们的汉语字典的正文本身就是一个聚集索引。比如，我们要查“吃”字，...

分类：数据库时间：2014-06-25 11:56:14 阅读次数：276

共1791条上一页 1 ... 173 174 175 176 177 ... 180 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)