ID3的决策树中主要使用了香农熵的概念,熵表示了数据的混乱程度,熵的值越大表示混乱程度越大 熵的计算公式为 H = -∑p(xi)log(P(xi)),表示P(xi)表示xi这种情况出现的概率 每次对于特征的选择流程如下,先求出原本数据集的熵值,然后对于每个特征,以此特征作为分类标准之后再进行剩余数 ...
分类:
其他好文 时间:
2019-08-08 16:13:11
阅读次数:
96
决策树在长成的过程中极易容易出现过拟合的情况,导致泛化能力低。主要有两种手段可以用于防止过拟合。## 提前停止Early Stopping,在完全长成以前停止,以防止过拟合。主要有以下3种方式:1. 限制树的高度,可以利用交叉验证选择2. 利用分类指标,如果下一次切分没有降低误差,则停止切分3. 限... ...
分类:
其他好文 时间:
2019-08-06 14:12:33
阅读次数:
802
在介绍ID3算法前,让我们先用一张图引入什么是决策树。 决策树是模仿树结构来进行决策的,通过判断有无女票、是否需要陪女票、有无任务等子决策来对是否学习作出最终的决策。 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型 ...
分类:
其他好文 时间:
2019-07-28 17:32:27
阅读次数:
126
一、决策树 在机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数 ...
分类:
编程语言 时间:
2019-07-28 15:30:10
阅读次数:
123
七,专著研读(Logistic回归) 分类:k 近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法。 运用 k 近邻算法,使用距离计算来实现分类 决策树,构建直观的树来分类 朴素贝叶斯,使用概率论构建分类器 Logistic回归,主要是通过寻找最优参数来正确分类原始 ...
分类:
其他好文 时间:
2019-07-28 09:35:44
阅读次数:
116
在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。 因此,你应该根据你的问题尝试许多不同的 ...
分类:
编程语言 时间:
2019-07-25 00:41:03
阅读次数:
119
机器学习”小憩“——总结应用场景 常见的机器学习模型:感知机,线性回归,逻辑回归,支持向量机,决策树,随机森林,GBDT,XGBoost,贝叶斯,KNN,K-means等; 常见的机器学习理论:过拟合问题,交叉验证问题,模型选择问题,模型融合问题等; K近邻:算法采用测量不同特征值之间的距离的方法进 ...
分类:
编程语言 时间:
2019-07-20 13:00:47
阅读次数:
162
之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-learn来跑决策树算法,结果的可视化以及一些参数调参的关键点。# 一、1.scikit-learn决策树算法类库介绍 scikit-learn决策树算法类... ...
分类:
编程语言 时间:
2019-07-19 19:12:06
阅读次数:
111
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量... ...
分类:
其他好文 时间:
2019-07-19 18:26:51
阅读次数:
102
第三章 经典算法 0 写在前面 本章介绍了 SVM,逻辑回归和决策树 三个经典算法。这三个算法在李航的《统计学习方法》中分别拿出了三章重点讲解。本节的提问需要有相应的基础,通过书中的提问发现自己基础太弱了,而基础知识最能考察一个人的学习能力。(记得考研时张宇说过,基础知识不等于简单知识,越是抽象的基 ...
分类:
编程语言 时间:
2019-07-18 00:21:27
阅读次数:
199