监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题。简单做一个区分,分类就是离散的数据,回归就 ...
分类:
其他好文 时间:
2016-12-12 23:05:02
阅读次数:
142
一.聚类算法: 1.1LDA算法: 算法的目的:对文本进行聚类,得到几簇相似的样本。 算法的流程: 预处理:统计sscCorpus中所有的词、词频、词的标号。 初始化:形成初始的文章-主题和主题-词的矩阵(最开始) Gibbs 采样:使用Gibbs采样得到稳定的文章-主题和主题-词的矩阵 每一簇的主 ...
分类:
编程语言 时间:
2016-12-12 22:05:44
阅读次数:
322
在网上找的时候,找到两种,但两者有差别,初试手可以都试试看。 在ArcGIS API for JavaScript的Sample Code中是有关于Point clustering的例子。如3.18的网址是https://developers.arcgis.com/javascript/3/jssa ...
分类:
其他好文 时间:
2016-12-12 14:15:39
阅读次数:
452
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(ac ...
分类:
编程语言 时间:
2016-12-11 12:52:43
阅读次数:
285
理论原理部分可以看这一篇:http://www.cnblogs.com/charlesblc/p/6109551.html 这里是实战部分。参考了 http://www.cnblogs.com/shishanyuan/p/4747778.html 采用了三个案例,分别对应聚类、回归和协同过滤的算法。 ...
分类:
其他好文 时间:
2016-12-11 12:13:35
阅读次数:
170
如果一点基础没有最好先拿起一本教材开始学,《机器学习实战》还不错,P93,书上有python源码和练习数据,非常适合新手。 k均值聚类 簇 相似 伪代码 (随机)创建K个点作为起始质心 当任意一个点的簇分配结果发生变化时: 对数据集中的每个点: 对每个质心: 计算质心到数据点之间的距离 将数据点分配... ...
分类:
其他好文 时间:
2016-12-09 19:37:44
阅读次数:
151
转自http://blog.csdn.net/JasonDing1354/article/details/49806017?locationNum=2&fps=1 1 聚类分析基本概念 聚类分析将数据划分成有意义或有用的簇。如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。 聚类分析是一种分类 ...
分类:
编程语言 时间:
2016-12-08 11:45:26
阅读次数:
375
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦。 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? 那我们就用K-means算法进行划分吧。 算法很简单,这么做就可以啦: 第一步:随机初始化每种类别的... ...
分类:
编程语言 时间:
2016-12-05 01:42:38
阅读次数:
1517
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/6129425.html 本文是“挑子”在学习BIRCH算法过程中的笔记摘录,文中不乏一些个人理解,不当之处望多加指正。本人邮箱:tiaozimb@hotmail.com BIRCH(Balanced Iter ...
分类:
其他好文 时间:
2016-12-04 00:39:25
阅读次数:
317
K-Means 算法的 Hadoop 实现K-Means 算法简介k-Means是一种聚类分析算法,它是一种无监督学习算法。它主要用来计算数据的聚集,将数据相近的点归到同一数据蔟。学习聚类时我们需要了...
分类:
编程语言 时间:
2016-12-03 02:22:17
阅读次数:
468