上一篇总结了对于训练数据集线性可分的理想情况下,使用硬间隔最大化训练得到分类超平面的SVM方法,这种方法在实际应用中并不实用,因为实际的训练数据总是会存在人为或不可控的因素干扰产生各种噪声,因此是无法在特征空间下找到线性可分的超平面的,但是噪声总是有限的,可以对硬间隔这个限制进行放松,引入一个松弛变量来控制分类超平面的训练,从而可以对近似可以线性可分的实际应用数据进行学习和预测。从这里也可以很明显...
分类:
其他好文 时间:
2015-05-16 00:14:46
阅读次数:
328
SVM(支持向量机)是典型的二分类的判别式模型,这种方法以Rosenblatt于1957年提出的感知机模型的基础上,都是通过训练一个分类超平面之后,作为分类的决策函数,然后对未知的样本进行预测。通过对输入特征使用法向量和截距w=(w1,w2,...wn)、bw=(w_1,w_2,...w_n)、b进行线性组合,得到超平面,最终的决策函数也和感知机一样,为符号函数f(x)=sign(w? ?x? +b...
分类:
其他好文 时间:
2015-05-13 06:28:39
阅读次数:
291
信息熵香农与1948年提出的信息论以其中的信息熵这一基本概念为基础,用来表征人们对客观事件的不确定性的度量,与物理学中的熵表征物质的混乱程度有相似之处。
当处理不确定事件时,最常用的方式就是用概率方式描述,一般假定不确定的事件A每种可能的状态都有一个概率与之对应:P(Ai)s.t.∑i=1nP(Ai)=1P(Ai)≥0P(A_i)\\ s.t.\sum_{i=1}^nP(A_i)=1\\P(A_i...
分类:
其他好文 时间:
2015-05-07 16:41:45
阅读次数:
167
回归概述(个人理解的总结)回归是数学中的一种模拟离散数据点的数学模型的方法,拟合一个连续的函数从而可以对未知的离散数据点进行分类或预测。这种方法有一个统一的形式,给定nn维特征的数据集合,对任意一个数据点Xi={x(1)i,x(2)i,...,x(n)i}X_i=\{x_i^{(1)},x_i^{(2)},...,x_i^{(n)}\}的每个维度都有一个回归系数wiw_i与之对应,整个模型就存在一个...
分类:
其他好文 时间:
2015-04-30 20:11:04
阅读次数:
121
引言 随机森林在机器学习实战中没有讲到,我是从伯克利大学的一个叫breiman的主页中看到相关的资料,这个breiman好像是随机森林算法的提出者,网址如下 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 随机森林算法简...
分类:
其他好文 时间:
2015-04-28 20:54:09
阅读次数:
260
引言 k-Means很早就接触了,大四做本科毕设的时候就用的k-Means,最近从新翻到机器学习实战书中讲到,再结合这几年看到的相关的文章,谈一谈KMeans 算法流程 首先数据集中的每个样本向量可看作高维空间中的一个点 那么我们开始的时候可以从数据集中任意选取K个数据点作为初始类中心,也可以创建符...
分类:
其他好文 时间:
2015-04-27 23:20:35
阅读次数:
217
什么叫做回归呢?举个例子,我们现在有一些数据点,然后我们打算用一条直线来对这些点进行拟合(该曲线称为最佳拟合曲线),这个拟合过程就被称为回归。利用Logistic回归进行分类的主要思想是:
根据现有数据对分类边界线建立回归公式,以此进行分类。
这里的”回归“一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的嘴阀就是寻找最佳拟合曲线,使用的是最优化算法。基于Logistic回归和Sigmo...
分类:
其他好文 时间:
2015-04-18 17:48:11
阅读次数:
171
K-means算法属于无监督学习聚类算法,其计算步骤还是挺简单的,思想也挺容易理解,而且还可以在思想中体会到EM算法的思想。K-means 算法的优缺点:
1.优点:容易实现
2.缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
使用数据类型:数值型数据以往的回归算法、朴素贝叶斯、SVM等都是有类别标签y的,因此属于有监督学习,而K-means聚类算法只有x,没有y在聚类问题中,我们的...
分类:
编程语言 时间:
2015-04-17 13:54:08
阅读次数:
162
前面我们在是实现K-means算法的时候,提到了它本身存在的缺陷:
1.可能收敛到局部最小值
2.在大规模数据集上收敛较慢
对于上一篇博文最后说的,当陷入局部最小值的时候,处理方法就是多运行几次K-means算法,然后选择畸变函数J较小的作为最佳聚类结果。这样的说法显然不能让我们接受,我们追求的应该是一次就能给出接近最优的聚类结果。其实K-means的缺点的根本原因就是:对K个质心的初始选...
分类:
编程语言 时间:
2015-04-17 13:52:12
阅读次数:
357
这里是接着上一篇决策树算法介绍来的。
之前已经学习过决策树的整个方法,对它构造的过程有了比较清楚的认识。这一次的读书笔记就主要关注决策树的应用和用matplotlib来画出一棵决策树。
绘制决策树
matplotlib提供了一个注解工具annotations,跟matlab中的非常相似[不过个人认为matlab画图操作起来更加方便],他是一个很强大的工具。
首先我们先绘制决策树的一个节...
分类:
其他好文 时间:
2015-04-17 11:35:59
阅读次数:
256