一.基本概念 dbscan算法 核心对象(A):若某个点的密度达到算法设定的阈值则其为核心点(即r邻域内点的数量不小于minPts) 邻域的距离阈值:设定的半径r 直接密度可达:若某点p在点q的r邻域内且q是核心点,则p-q是直接密度可达(核心对象,在邻域内) 密度可达:若有一个点的序列q0、q1. ...
分类:
数据库 时间:
2018-06-20 00:02:18
阅读次数:
278
灰度聚类 接着我们就对图像的色彩进行聚类。聚类的有两个事实依据: 1.灰度分辨率 肉眼的灰度分辨率大概为40,因此对于像素值254和255,在我们肉眼看来都 只是白色; 2.设计原则 根据我们一般的审美原则,在考虑海报设计、服装搭配等搭配的时候,一般要 求在服装、海报等颜色搭配不超过三种颜色。 更通 ...
分类:
其他好文 时间:
2018-06-18 16:05:36
阅读次数:
194
阅读目录 1. 学习方式 1.1 监督式学习 1.2 非监督式学习 1.3 半监督式学习 1.4 强化学习 2. 算法分类 2.1 回归算法 2.2 基于实例的算法 2.3 正则化方法 2.4 决策树学习 2.5 贝叶斯方法 2.6 基于核的算法 2.7 聚类算法 2.8 关联规则学习 2.9 遗传 ...
分类:
编程语言 时间:
2018-06-18 11:49:57
阅读次数:
235
数据化分析:微信文章不增粉的主要原因 2017年10月份,曾经对某公众号文章进行聚类分析。 【文章链接】 第一类:传播力非常强,在一周内传播时效性显著,但粉丝增长度低,且文章具有非常高的价值(对目标用户来说很“值”),同时相应的粉丝也非常活跃; 第二类:文章一周内的传播力较强,粉丝增长量较高,文章的 ...
分类:
微信 时间:
2018-06-15 20:06:34
阅读次数:
256
从定义需求的优先级也能看出产品经理的能力。在前面已经详细阐述了如何评估哪些需求该做,哪些需求不该做。对于已经决定要做的需求,若数量很多,就可确定哪些是现在做,哪些是以后做,不可能在同一时间内全部研发完毕。总得有先有后,优先级高的需求优先研发,优先级低的需求延后研发。这就会涉及需求优先级定义的标准。在 ...
分类:
其他好文 时间:
2018-06-13 20:53:26
阅读次数:
241
关于聚类的性能评价标准 参考博客 可以为外部指标和内部指标,其中外部指标是指 聚类结果与某个 “参考模型" 进行表示, 内部指标直接考察聚类结果不参考模型 外部指标: 1、Jaccard系数 系属于相同类占总类数的比例, 越大说明效果越好。 内部指标: 1、DB指数 DB计算 任意两类别的类内距离平 ...
分类:
其他好文 时间:
2018-06-12 14:07:16
阅读次数:
168
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的难点在于: 1、适用于普通集合的聚类算法,在高维数据集合中效率极低 2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变 ...
分类:
其他好文 时间:
2018-06-10 18:33:32
阅读次数:
380
在线社交网络符合标准的“小世界”特性:用户间较短的平均距离(6度分离:世界上任意两个人之间平均只要经过6个人就可以互相认识)+较高的聚类系数(该系数表示多少人是相互认识的。极端情况是所有人都是相互认识的) 规则网路、小世界网络和随机网络 几乎所有用户都能被网络中其他用户联系到,这让网络形成了一个“巨 ...
分类:
其他好文 时间:
2018-06-08 00:50:57
阅读次数:
306
一:导入R包及需要画热图的数据 library(pheatmap) data<- read.table("F:/R练习/R测试数据/heatmapdata.txt",head = T,row.names=1,sep="\t") 二:画图 1)pheatmap(data)#默认参数 2)pheatma ...
分类:
其他好文 时间:
2018-06-07 21:56:22
阅读次数:
23865
一.k均值聚类算法 对于样本集。"k均值"算法就是针对聚类划分最小化平方误差: 其中是簇Ci的均值向量。从上述公式中可以看出,该公式刻画了簇内样本围绕簇均值向量的紧密程度,E值越小簇内样本的相似度越高。 k-means聚类算法的描述如下: 接下来是对于数据集testSet.txt的代码实现: 计算出 ...
分类:
编程语言 时间:
2018-06-05 20:01:18
阅读次数:
365