标签:好的 重复 过程 哪些 inline 开始 math 枚举 blog
师兄博客原文地址 https://blog.csdn.net/LogHouse/article/details/92405509
@
常用方法:ID3,C4.5,CART。
常用的两种剪枝策略:
①前置剪枝
在构建决策树的过程时,提前停止。那么,会将切分节点的条件设置的很苛刻,导致决策树很短小。结果就是决策树无法达到最优。实践证明这中策略无法得到较好的结果。
②后置剪枝
决策树构建好后,然后才开始裁剪。采用两种方法:
1)用单一叶节点代替整个子树,叶节点的分类采用子树中最主要的分类;
2)将一个字数完全替代另外一颗子树。后置裁剪有个问题就是计算效率,有些节点计算后就被裁剪了,导致有点浪费。
即把区间\([a^i, a^{i+1}]\)的中位点\(\frac{a^i+a^{i+1}}{2}\)作为候选划分点。然后我们就可以像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。
缺失值
①如何在属性值确实的情况下进行划分属性选择?
\(\rho\)表示无缺失值样本所占比例,给定训练集D和属性a,\(\widehat{D}\) 表示D中在属性a上没有缺失值的样本子集.
②给定划分属性,若样本在改属性上的值缺失,如何对样本进行划分?
若样本x在划分属性a上的取值已知,则将x划入与其取值对应的子节点,且样本权值在子节点中保持为\(w_x\); 若样本X在划分属性a上的取值未知,则将X同时划入所有子节点,且样本权值在于属性值\(a^v\)对应的子节点中调整为\(\hat r_v*w_x\), 其中\(\hat r_v\)表示无缺失值样本中属性a上的取值\(a^v\)的样本所占的比例。
可以结合我的这篇博客一起理解下决策树 https://blog.csdn.net/qq_43657442/article/details/107500416
标签:好的 重复 过程 哪些 inline 开始 math 枚举 blog
原文地址:https://www.cnblogs.com/2944014083-zhiyu/p/14871834.html