DBSCAN方法及应用 1.DBSCAN密度聚类简介 DBSCAN 算法是一种基于密度的聚类算法: 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定DBSCAN算法将数据点分为三类: 1.核心点:在半径Eps内含有超过MinPts数目的点。 2.边界点:在半径Eps内点的数量小于Min ...
分类:
数据库 时间:
2017-06-04 22:53:20
阅读次数:
492
K-means方法及其应用 1.K-means聚类算法简介: k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。主要处理过程包括: 1.随机选择k个点作为初始的聚类中心。 2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇。 3.对每个簇,计算所 ...
分类:
其他好文 时间:
2017-06-04 20:05:34
阅读次数:
609
无监督学习 1.无监督学习的目标: 利用无标签的数据学习数据的分布或数据与数据之间的关系被称为无监督学习。 1.有监督学习和无监督学习的最大区别在于数据是否有标签 2.无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction) 2.聚类(clusterin ...
分类:
其他好文 时间:
2017-06-04 18:43:10
阅读次数:
332
一:线性回归: 例:上一节课的房屋大小与价格数据集 本例中:m:数据个数,x:房屋大小,y:价格 通用符号: m = 训练样本数 x = 输入变量(特征) y = 输出变量(目标变量) (x,y) – 一个样本 –第i个训练样本 = 对假设进行线性表示 h(x)=θ0+θ1*x 在线性回归的问题上大 ...
分类:
其他好文 时间:
2017-06-03 17:35:53
阅读次数:
323
一、K近邻方法(KNeighborsClassifier) 使用方法同kmeans方法,先构造分类器,再进行拟合。区别是Kmeans聚类是无监督学习,KNN是监督学习,因此需要划分出训练集和测试集。 直接贴代码。 K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟 ...
分类:
其他好文 时间:
2017-06-03 11:28:13
阅读次数:
300
简介 支持向量机(Support vector machine,以下简称SVM)是一种监督学习模型,其学习算法可分析数据,并用以解决分类和回归问题。给定一训练数据集,每个数据点(或实例)属于二分类中的某个分类,SVM训练算法则建立一个模型,这个模型可以将一个新的数据实例归于某一类(预测)。除了线性分 ...
分类:
其他好文 时间:
2017-06-02 21:05:21
阅读次数:
205
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这 ...
分类:
其他好文 时间:
2017-06-01 21:01:20
阅读次数:
256
什么是反向传播 作者:韩小雨 类别:①反向传播算法 ②反向传播模型 反向传播算法(英:Backpropagation algorithm,简称:BP算法) 算法简介:是一种监督学习算法,常被用来训练多层感知机。 于1974年,Paul Werbos[1]首次给出了如何训练一般网络的学习算法,而人工神 ...
分类:
其他好文 时间:
2017-05-31 10:20:43
阅读次数:
265
需求 使用监督学习对历史数据训练生成模型,用于预测文本的类别。 样本清洗 主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 ...
分类:
其他好文 时间:
2017-05-31 10:18:34
阅读次数:
172
1 监督学习 利用一组带标签的数据, 学习从输入到输出的映射, 然后将这种映射关系应用到未知数据, 达到分类或者回归的目的 (1) 分类: 当输出是离散的, 学习任务为分类任务 输入: 一组有标签的训练数据(也叫观察和评估), 标签表明了这些数据(观察)的所属类别, 图中"猫"和"狗"就是标签 输出 ...
分类:
其他好文 时间:
2017-05-26 13:28:22
阅读次数:
361