大概用了一个月,Andrew Ng老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结。笔记难免有遗漏和误解,欢迎讨论。 鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢! ...
分类:
其他好文 时间:
2016-10-07 13:48:11
阅读次数:
139
这周的编程作业主要是两方面内容。 1.K-means聚类。 2.PCA(Principle Component Analys)主成分分析。 方式主要是通过对图像的聚类实现压缩图像,后来发现PCA也可以通过对主特征值的提取实现压缩图像的目的。很有意思,具体的内容参见本分类中的另外两篇博文,图像压缩方法 ...
分类:
系统相关 时间:
2016-10-02 12:45:19
阅读次数:
178
介绍KNN有监督分类以及Kmeans无监督聚类的原理以及简单实践例子。 ...
分类:
编程语言 时间:
2016-10-01 17:25:38
阅读次数:
297
1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部 ...
分类:
其他好文 时间:
2016-09-27 09:13:46
阅读次数:
221
什么是聚类分析? 聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问 ...
分类:
其他好文 时间:
2016-09-20 23:52:09
阅读次数:
145
一、深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索 ...
分类:
其他好文 时间:
2016-09-19 06:42:30
阅读次数:
116
聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用 SPSS 进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。 案例数据源: 在 SPSS 自带数据文件 plastic.sav 中记录了 20 中塑料的三个特征 ...
分类:
其他好文 时间:
2016-09-18 23:44:51
阅读次数:
490
算法很简单,取训练样本每种类别的平均值当做聚类中心点,待分类的样本离哪个中心点近就归属于哪个聚类 。 在《白话大数据与机器学习》里使用了sklearn里的NearestCentroid来处理数据: 训练模型 clf = NearestCentroid().fit(x, y) 预测数据 clf.pre ...
分类:
其他好文 时间:
2016-09-17 23:32:54
阅读次数:
169
一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体。有时候作为监督学习中稀疏特征的预处理。有时候可以作为异常值检测(反欺诈中有用)。 应用场景:新闻聚类、用户购买模式(交叉销售)、图像与基因技术 相似度与距离:这个概念是聚类算法中必须明白的,简 ...
分类:
编程语言 时间:
2016-09-15 00:51:48
阅读次数:
323