spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。 1. ...
分类:
编程语言 时间:
2018-11-03 02:08:21
阅读次数:
1124
聚类分析 一、概念 聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性 聚类分析属于无监督学习 聚类对象可以分为Q型聚类和R型聚类 Q型聚类:样本/记录聚类 以距离为相似性指标 (欧氏距离、欧氏平方距离、马氏距离、明式距离等) R型聚类:指标/ ...
分类:
其他好文 时间:
2018-10-27 15:24:01
阅读次数:
222
前段时间需要对一些客服对话记录做聚类分析,于是抽时间测试了一下常见聚类算法的效果。之前了解过的聚类算法大多在sklearn中都有现成的实现可以直接用,不过optics算法倒没找到,于是就看着论文做了个简易版的。下面是算法源码,关于原理请参考原始论文: C. Ding, X. He, and H. D ...
分类:
编程语言 时间:
2018-10-15 23:22:31
阅读次数:
635
Python,聚类分析算法介绍,层次聚类算法、Kmeans聚类算法,sklearn模块中聚类方法、scipy模块中聚类方法介绍 ...
分类:
编程语言 时间:
2018-10-01 10:34:40
阅读次数:
473
1. 聚类分析 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术 >> 将观测对象的群体按照相似性和相异性进行不同群组的划分,划分后每个群组内部各对象相似度很高,而不同群组之间的对象彼此相异度很高。 *** 回归、分类、聚类的区别 : ...
分类:
其他好文 时间:
2018-09-20 01:13:09
阅读次数:
280
一、选择题+ +1.一般来说,当居民的收入减少时,居民储蓄存款也会相应减少,二者之间的关系是(B)A.负相关B.正相关C.零相关D.曲线相关+ +2.对客户的生命周期进行分类主要使用以下哪个方法?(A)A.聚类分析B.判别分析C.逻辑回归D.线性回归+ +3.下列哪项不属于数据预处理阶段做的任务?( ...
分类:
其他好文 时间:
2018-09-18 16:02:34
阅读次数:
285
在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察: ...
分类:
其他好文 时间:
2018-08-25 16:33:20
阅读次数:
599
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的 ...
分类:
其他好文 时间:
2018-08-23 13:07:58
阅读次数:
520
1 内容简介 首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数据进行可视化分析,探索隐藏在大量数据背后的规律;最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解 ...
分类:
编程语言 时间:
2018-08-08 00:28:26
阅读次数:
318
一、主成分分析 二、因子分析法 三、聚类分析 四、最小二乘与多项式拟合 五、方差分析法 六、逼近理想点排序法 七、动态加权法 八、灰色关联分析法 九、灰色预测法 十、模糊综合评价法 十一、时间序列分析法 十二、蒙特卡洛仿真模型 十三、BP神经网络方法 十四、数据包络分析法 十五、多因素方差分析法(基 ...
分类:
编程语言 时间:
2018-07-21 14:30:16
阅读次数:
145