(1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM。 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 ...
分类:
其他好文 时间:
2018-07-07 20:23:41
阅读次数:
177
13.1无监督学习:简介 将没有标签的样本分成不同的集合(簇),这种算法叫做聚类。常用的领域有市场分割、社交网络分析、计算机集群管理、了解星系等。 13.2K-均值算法 (1)K-均值是最普及的聚类算法,是一种迭代算法,假设需要将数据聚类成n个组,这时候首先随机选择K个点,称为聚类中心。 将每个样本 ...
分类:
其他好文 时间:
2018-07-03 23:43:51
阅读次数:
211
下面凌乱的小记一下无监督学习 无监督学习 聚类 降维 聚类:数据相似性 相似性的评估:两个数据样本间的距离 距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦 sklearn 聚类算法 sklearn.cluster,如k means 近邻传播 DBSCAN等 标准的数据输入格式:[样本个数,特征个数] ...
分类:
其他好文 时间:
2018-07-02 20:48:48
阅读次数:
195
算法流程:1) 随机指定k个点,将离k个点最近的一些点作为簇,划分k个簇2) 算法每个簇的中心点,继续迭代1),指导划分的簇不改变优缺点: ...
分类:
其他好文 时间:
2018-07-02 19:22:55
阅读次数:
143
层次聚类(hierarchical clustering)可在不同层次上对数据集进行划分,形成树状的聚类结构。AggregativeClustering是一种常用的层次聚类算法。 其原理是:最初将每个对象看成一个簇,然后将这些簇根据某种规则被一步步合并,就这样不断合并直到达到预设的簇类个数。这里的关 ...
分类:
编程语言 时间:
2018-07-01 21:22:44
阅读次数:
3026
密度聚类(Density-based Clustering)假设聚类结构能够通过样本分布的紧密程度来确定。DBSCAN是常用的密度聚类算法,它通过一组邻域参数(??,MinPtsMinPts)来描述样本分布的紧密程度。给定数据集DD={x? 1,x? 2,x? 3,...,x? Nx→1,x→2,x ...
分类:
数据库 时间:
2018-07-01 20:56:25
阅读次数:
219
聚类算法介绍 k means算法介绍 k means聚类是最初来自于信号处理的一种矢量量化方法,现被广泛应用于数据挖掘。k means聚类的目的是将n个观测值划分为k个类,使每个类中的观测值距离该类的中心(类均值)比距离其他类中心都近。 k means聚类的一个最大的问题是计算困难,然而,常用的启发 ...
分类:
其他好文 时间:
2018-06-30 18:43:10
阅读次数:
235
无监督学习 和监督学习不同的是,在无监督学习中数据并没有标签(分类)。无监督学习需要通过算法找到这些数据内在的规律,将他们分类。(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个无监督学习过程。) 无监督学习没有训练过程。 聚类算法 该算法将相似的对象轨道同一个簇中,有点像全自 ...
分类:
编程语言 时间:
2018-06-24 21:01:56
阅读次数:
253
阅读目录 1. 学习方式 1.1 监督式学习 1.2 非监督式学习 1.3 半监督式学习 1.4 强化学习 2. 算法分类 2.1 回归算法 2.2 基于实例的算法 2.3 正则化方法 2.4 决策树学习 2.5 贝叶斯方法 2.6 基于核的算法 2.7 聚类算法 2.8 关联规则学习 2.9 遗传 ...
分类:
编程语言 时间:
2018-06-18 11:49:57
阅读次数:
235
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的难点在于: 1、适用于普通集合的聚类算法,在高维数据集合中效率极低 2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变 ...
分类:
其他好文 时间:
2018-06-10 18:33:32
阅读次数:
380