码迷,mamicode.com
首页 > 编程语言 > 详细

【机器学习算法基础+实战系列】决策树算法

时间:2018-07-03 11:46:29      阅读:111      评论:0      收藏:0      [点我收藏+]

标签:树形结构   inline   联合   依据   影响   就是   spl   数据   play   

决策树是一种基本的分类和回归模型,也就是说既可以用于分类也可以用于回归。这里以分类为例。
决策树模型一种描述对实例依据特征进行分类的树形结构,它包含一个根节点,若干个内部节点和若干个叶节点。其中叶节点对应的是决策结果,也可以说是一个类,内部节点表示的是一个属性和特征。
决策树的学习算法包含三个步骤:特征选择,决策树的生成,决策树的剪枝

特征选择

特征选择在于选取对训练数据具有较好分类能力的特征,如果选取的特征进行分类的结果与随机分类的结果没有很大的差别,那么就不能说这个特征具有很好的分类能力。从经验上来讲,扔掉这些特征,对决策树的学习在精度上不会有影响。
通常特征选择的准则我们采取的是信息增益或者信息增益比。

信息增益:

首先我们给出熵的定义:熵表示的随机变量的不确定性。
\(X\) 是一个取有限个值的离散随机变量,其概率分布为:\[P(X=x_{i})=p_{i}, i = 1,2,3,...,n\]
则随机变量的熵定义为: \[ H(X) = -\sum_{i=1}^{n}p_{i}logp_{i}\]
通常条件下,式子中的对数我们以2或者e为底数。若\(p_{i} = 0, 则定义0log0=0\)。 由定义公式我们可以知道熵只依赖于X的分布,而与X的取值无关。所以我们也可以将这个式子改写成:\[ H(p) = -\sum_{i=1}^{n}p_{i}logp_{i}\]
熵越大,随机变量的不确定性就越大,从定义我们可以知道:\(0\leq H(p) \leq logn\)
接下来我们给出条件熵的定义。设有随机变量(X,Y),其联合概率分布是

【机器学习算法基础+实战系列】决策树算法

标签:树形结构   inline   联合   依据   影响   就是   spl   数据   play   

原文地址:https://www.cnblogs.com/lzida9223/p/9256645.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!