机器学习实战之决策树 一,引言: 上一章我们讲的kNN算法,虽然可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,而决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合,决策树的一个重要任务是为了数据所蕴含的知识信息,因此,决策树可以使用不熟悉的数据集合,并从中提取一系 ...
分类:
其他好文 时间:
2018-10-04 11:08:35
阅读次数:
185
机器学习实战之kNN算法 机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型 ...
分类:
编程语言 时间:
2018-10-04 10:14:42
阅读次数:
175
数据预处理1、数据审核:检查数据中是否有错误 原始数据->完整性:所调查的对象是否有遗漏。 准确性:数据是否有错误、存在异常值 ->异常值 :记录错误,予以纠正;正确地值,予以保留。 二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。 时效性:对于时效性较强的问 ...
分类:
其他好文 时间:
2018-10-02 17:42:19
阅读次数:
346
Kd树 实现k近邻法时,主要考虑的问题是如何对训练数据进行快速的k近邻搜索。k近邻法最简单有效的方法是线性扫描(穷举搜索),即要计算输入实例与每一个训练实例的距离,再查找k近邻,当训练数据很大时,计算非常耗时,为提高KNN搜索效率,就引入了kd树的概念。 Kd树原理其实跟二分查找是一样的,比如上面这 ...
分类:
其他好文 时间:
2018-10-02 14:14:47
阅读次数:
265
一、概念:KNN(K Near Neighbor):K个最近的邻居,即每个样本都可以用它最接近的K个邻居来代表。 当k=1时,?可以用红方块代表,因为k=1时,方块离?最近 当k=5时,?可以用三角代表,因为k=5时,5个离?最近的图片中,有三个是三角,少数服从多数,所以可以用三角代表 二、判别方法 ...
分类:
编程语言 时间:
2018-10-01 19:08:46
阅读次数:
324
1. 前言 说到朴素贝叶斯算法,首先牵扯到的一个概念是 判别式和生成式 。 判别式:就是直接学习出特征输出$Y$和特征$X$之间的关系,如决策函数$Y=f(X)$,或者从概率论的角度,求出条件分布$P(Y|X)$。代表算法有 决策树、KNN、逻辑回归、支持向量机、随机条件场CRF等 生成式:就是直接 ...
分类:
编程语言 时间:
2018-10-01 17:08:54
阅读次数:
199
Decision Tree [TOC] Pre: 如下图所示,决策树包含判断模块、终止模块。其中终止模块表示已得出结论。 相较于KNN,决策树的优势在于数据的形式很容易理解。 相关介绍 1. "奥卡姆剃刀原则:" 切勿浪费较多的东西,去做‘用较少的的东西,同样可以做好的事情’。 2. "启发法:" ...
分类:
其他好文 时间:
2018-10-01 01:10:11
阅读次数:
261
1. 前言 K近邻法(k nearest neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用,就是“ 物以类聚,人以群分 ”。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类, ...
分类:
编程语言 时间:
2018-09-27 23:58:30
阅读次数:
354
概念 均方差 MSE mean square error 平均绝对差 MAE mean absolute error 交叉损失熵 cross entropy 欠拟合:训练集和测试集性能接近 过拟合:训练集远远高于测试集性能 有监督学习算法比较 knn 调节:n_neighbors 优点:模型很容易解 ...
分类:
编程语言 时间:
2018-09-24 13:51:44
阅读次数:
158
2018 1. 简化版KNN算法写code实现,用Euclidean distance。(heap tree那里我是用heaplist实现的,出了个bug,而且写得太慢把时间耗光了) 2. 概率题,扔硬币,n次中有m次head,问是否能说明硬币是biased,写个函数算出来(经典题不难,但是没时间了 ...
分类:
其他好文 时间:
2018-09-24 11:30:38
阅读次数:
122