机器学习——树回归

时间：2016-12-24 22:28:50 阅读：203 评论：0 收藏：0 [点我收藏+]

　　线性回归创建模型需要拟合所有的样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂的时候，构建全局模型的想法就显得太难了，也略显笨拙。而且，实际生活中很多问题都是非线性的，不可能使用全局限性模型来拟合任何数据。

　　一种可行的方法是将数据集切分成很多份易建模的数据，然后再利用线性回归技术来建模。如果首次切分之后仍然难以拟合线性模型就继续切分。

　　决策树是一种贪心算法，它要在给定时间内做出最佳选择，但是并不关心能否达到全局最优。

CART（classification and regression trees，分类回归树）

之前使用过的分类树构建算法是ID3，ID3决策树学习算法是以信息增益为准则来选择划分属性。ID3的做法是每次选取当前最佳的特征来分割数据，并按照该特征的所有可能取值来切分。也就是说，如果一个特征有4种取值，那么数据将被切成4份。一旦按某特征切分后，该特征在之后的算法执行过程中将不会再起作用，所以所以有观点认为这种切分方式过于迅速。另外一种方法是二元切分法，即每次把数据集切成两份。如果数据的某特征值等于切分所要求的值，那么这些数据就进入树的左子树，反之则进入树的右子树。

　　ID3算法还存在另一个问题，它不能直接处理连续性数据。只有事先将连续特征转换成离散型，才能在ID3算法中使用。

　　CART算法使用二元切分来处理连续型变量。对CART稍作修改就可以处理回归问题。CART决策树使用“基尼指数”来选择划分属性，基尼值是用来度量数据集的纯度。

技术分享

机器学习——树回归

标签：不能 tree 过程 and http 变量技术局限性准则

原文地址：http://www.cnblogs.com/tonglin0325/p/6218478.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行