引言如果你对机器学习算法已经很熟悉了,但是有时候你的模型并没有很好的预测效果或者你想要追求更好地模型性能。那么这篇文章会告诉你一些最实用的技术诊断你的模型出了什么样的问题,并用什么的方法来解决出现的问题,并通过一些有效的方法可以让你的模型具有更好地性能。介绍数据集这个数据集有569个样本,它的前两列为唯一的ID号和诊断结果 (M = malignant, B = benign) ,它的3->32列为...
分类:
其他好文 时间:
2016-05-12 20:09:55
阅读次数:
495
=====================================================================
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法
github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Py...
分类:
编程语言 时间:
2016-05-12 12:07:13
阅读次数:
497
kNN-------k-邻近算法
1.kNN是non-parametric分类器,既不做分布式假设,直接从数据估计概率密度;
2.kNN不适用于高维数据
优点:
1.无需估计参数,无需训练;
2.特别适合于多分类问题(对象具有多个标签)。
缺点:
1.当样本容量不平衡是,输入有个新样本,该样本的K个邻值中大容量样本占多数,对分类不利;
2.计算量过大,需要计算待分类...
分类:
编程语言 时间:
2016-05-07 08:07:46
阅读次数:
231
优化
一般优化问题的基本形式
凸优化的基本形式
共轭函数
共轭函数是凸函数
对偶问题
拉格朗日函数
拉格朗日对偶函数
KKT条件
小结
优化一般优化问题的基本形式minimizef0(x),x∈Rnminimize \, f_0(x),x \in R^ns.t.fi(x)≤0,i=1?ms.t. \, f_i(x)\leq 0,i=1 \cdots ms.t.hj(x)=0,j=1?ns.t. \,...
分类:
编程语言 时间:
2016-05-07 01:09:08
阅读次数:
823
概率统计
概率统计与机器学习的关系
统计量
期望
方差与协方差
重要定理和不等式
Jensen不等式
切比雪夫不等式
大数定理
中心极限定理以下内容摘抄于七月算法(julyedu.com)4 月机器学习算法班课堂讲义概率统计概率统计与机器学习的关系统计量期望
概念 性质 方差与协方差方差
协方差
协方差与独立/不相关
协方差的意义
重要定理和不等式Jensen不等式从概率的角度看Jensen...
分类:
编程语言 时间:
2016-05-06 15:00:15
阅读次数:
197
Accord.Net中决策树 决策树介绍 决策树是一类机器学习算法,可以实现对数据集的分类、预测等。具体请阅读我另一篇博客(http://www.cnblogs.com/twocold/p/5424517.html)。 Accord.Net Accord.Net(http://accord-fram ...
分类:
Web程序 时间:
2016-05-03 10:47:07
阅读次数:
554
本章内容□ 决策树简介□ 在数据集中度量一致性□ 使用递归构造决策树□ 使用matplotlib绘制树形图 我们经常使用决策树处理分类问题近来的调查表明决策树也是最经常使用的数据挖掘算法。它之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的。 第2章介绍的 ...
分类:
其他好文 时间:
2016-05-01 12:15:39
阅读次数:
246
本章内容k-近邻分类算法从文本文件中解析和导人数据 使用Matplotlib创建扩散图归一化数值 2.1 k-近邻算法概述简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 本书讲解的第一个机器学习算法是k 近邻算法(kNN ) , 它的工作原理是:存在一个样本数据集合,也称作训练样本 ...
分类:
编程语言 时间:
2016-04-30 23:28:50
阅读次数:
244
Dataset
本文的数据集pga.csv包含了职业高尔夫球手的发球统计信息,包含两个属性:accuracy 和 distance。accuracy 精确度描述了命中球道( fairways hit)的比例,Distances 描述的是发球的平均距离。我们的目的是用距离来预测命中率。在高尔夫中,一个人发球越远,那么精度会越低。对于很多机器学习算法来说,输入数据会先进行一些预处理,比如规范化,因为...
分类:
其他好文 时间:
2016-04-29 17:32:36
阅读次数:
636
Dataset
本文的数据集pga.csv包含了职业高尔夫球手的发球统计信息,包含两个属性:accuracy 和 distance。accuracy 精确度描述了命中球道( fairways hit)的比例,Distances 描述的是发球的平均距离。我们的目的是用距离来预测命中率。在高尔夫中,一个人发球越远,那么精度会越低。对于很多机器学习算法来说,输入数据会先进行一些预处理,比如规范化,因为...
分类:
其他好文 时间:
2016-04-26 20:02:52
阅读次数:
234