Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
看到 程序员的自我修养 – SelfUp.cn 里面有Spark MLlib之K-Means聚类算法。
但是是java 语言的,于是我按照例程用Scala写了一个,分享在此。
由于在学习 spark mllib 但是如此详细的资料真的很难找,在此分享。
测试数据
1
2
3
4
5
6
7...
分类:
编程语言 时间:
2015-03-18 18:00:39
阅读次数:
466
聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类...
分类:
其他好文 时间:
2015-03-18 17:32:19
阅读次数:
147
1. 何谓机器学习机器学习就是把无序的数据转换成有用的信息。机器学习的主要任务是分类,另一项任务是回归。监督学习:之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。(分类、回归)无监督学习:数据没有类别信息,也不会给定目标值。(聚类、密度估计)监督学习: k-邻近算法、线....
分类:
其他好文 时间:
2015-03-16 16:08:39
阅读次数:
106
问题: 需要对离散点所在区域进行分割,分割最好能体现离散点的聚集性。解决思路: 在Arcgis中没有找到对离散点空间聚类中心提取的工具所以暂且采用以下组合方法:(1)对离散点进行分组(2)提取各分组的凸壳(3)将凸壳转换为其内部一点(4)利用凸壳转换的点建立泰森多边形完成对区域的划分解决方法:(1)...
分类:
其他好文 时间:
2015-03-15 21:04:38
阅读次数:
327
一:算法介绍期望最大化算法,跟k-means一样属于基于划分的聚类,其实EM算法跟k-means算法思想很相似,主要步骤:期望步(E-步):给定当前的簇中心,每个对象都被指派到簇中心离该对象最近的簇。就是期望每个对象都属于最近的簇。最大化步(M-步):给定簇指派,对应每个簇,算法调整期中心,使得指派...
分类:
编程语言 时间:
2015-03-12 22:09:19
阅读次数:
196
1. 何谓机器学习机器学习就是把无序的数据转换成有用的信息。机器学习的主要任务是分类,另一项任务是回归。监督学习:之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。(分类、回归)无监督学习:数据没有类别信息,也不会给定目标值。(聚类、密度估计)监督学习: k-邻近算法、线....
分类:
其他好文 时间:
2015-03-11 22:55:29
阅读次数:
284
怀着很纠结的心情来总结这篇论文,这主要是因为作者提虽然供了源代码,但是我并没有仔细去深究他的code,只是把他的算法加进了自己的项目。希望以后有时间能把MST这一结构自己编程实现!! 论文题目是基于非局部代价聚类(non-local cost aggregation)的立体匹配,从题目上看这篇论文....
分类:
其他好文 时间:
2015-03-11 21:29:44
阅读次数:
304
作者:daniel-D 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means...
分类:
其他好文 时间:
2015-03-09 21:02:05
阅读次数:
236
1、任意选取K个对象作为初始聚类中心(O1,O2,…Oi…Ok)。 2)将余下的对象分到各个类中去(该对象与哪一个聚类中心最近就被分配到哪一个聚类簇中); 3)对于每个类(Oi)中,顺序选取一个Or,重复步骤2,计算用Or代替Oi后的误差E=各个点到其对应的中心点欧式距离之和。选择E最小的那个O.....
分类:
编程语言 时间:
2015-03-08 11:39:58
阅读次数:
193