基本知识:算法标签:聚类、贪心、划分算法算法目标:使得簇尽可能紧凑和独立(低耦合,高聚合)评价准则:所有对象的误差平方和算法复杂度:O(nkt),n是样本数目,k是簇数,t是迭代次数算法限制:簇的均值是有定义的(标称属性无法计算均值,此时可以改用k众数)算法缺点:k值需给定,初始点选择对算法有影响,...
分类:
其他好文 时间:
2015-04-17 09:38:08
阅读次数:
130
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算...
分类:
编程语言 时间:
2015-04-15 21:13:03
阅读次数:
170
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出...
分类:
编程语言 时间:
2015-04-15 21:00:35
阅读次数:
230
Fisher准则线性分类器的Python实现Fisher准则线性分类器的Python实现
选取的训练集与测试集
分类决策与分类器
代码
测试集上的结果
本节内容:本节内容是根据上学期所上的模式识别课程的作业整理而来,第二道题目是线性分类器设计,数据集是Iris(鸢尾花的数据集),根据前一题的Kmeans聚类得出的结果,分成训练集与测试集,进行比较。
选取的训练集与测试集
训练集:(选取上一题中的...
分类:
编程语言 时间:
2015-04-13 09:46:27
阅读次数:
992
canopy是聚类算法的一种实现
它是一种快速,简单,但是不太准确的聚类算法
canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆
由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的
但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要...
分类:
编程语言 时间:
2015-04-11 19:32:07
阅读次数:
183
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
本博客通过对当前比较成熟的聚类算法分析,介绍如何对非结构的数据(文档)做聚类算法;如何利用搜索引擎的相关知识来解决文本聚类问题等...
分类:
编程语言 时间:
2015-04-10 13:38:24
阅读次数:
279
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集...
分类:
数据库 时间:
2015-04-08 10:44:51
阅读次数:
171
1 基于概率模型的聚类 例子: a.评论产品,一个评论可能设计多种产品,如一个评论谈论摄像机与计算机的兼容性,怎么办?该评论与这两个簇相关,而并不互斥地属于任何一个簇。 b.用户在购买商品时,检索的信息中既订购了一部数据相机,并且同时比较了多种笔记本电脑,怎么办?这种会话应该在某种程度上数据这两个簇...
分类:
其他好文 时间:
2015-04-07 22:58:08
阅读次数:
281
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇)。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内相似性越大,组间差别越大,聚类就越好。先介绍下聚类的不同类型,通常有以下几种:(1)层次的与划分的:如果允许簇具有子簇,则我们得到一个层次聚类。层次聚类是嵌...
分类:
数据库 时间:
2015-04-05 21:47:37
阅读次数:
219