码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习——树回归

时间:2016-12-24 22:28:50      阅读:203      评论:0      收藏:0      [点我收藏+]

标签:不能   tree   过程   and   http   变量   技术   局限性   准则   

  线性回归创建模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂的时候,构建全局模型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不可能使用全局限性模型来拟合任何数据。

  一种可行的方法是将数据集切分成很多份易建模的数据,然后再利用线性回归技术来建模。如果首次切分之后仍然难以拟合线性模型就继续切分。

  决策树是一种贪心算法,它要在给定时间内做出最佳选择,但是并不关心能否达到全局最优

 

CART(classification and regression trees,分类回归树)

之前使用过的分类树构建算法是ID3ID3决策树学习算法是以信息增益为准则来选择划分属性。ID3的做法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分。也就是说,如果一个特征有4种取值,那么数据将被切成4份。一旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以所以有观点认为这种切分方式过于迅速。另外一种方法是二元切分法,即每次把数据集切成两份。如果数据的某特征值等于切分所要求的值,那么这些数据就进入树的左子树,反之则进入树的右子树。

  ID3算法还存在另一个问题,它不能直接处理连续性数据。只有事先将连续特征转换成离散型,才能在ID3算法中使用。

  CART算法使用二元切分来处理连续型变量。对CART稍作修改就可以处理回归问题。CART决策树使用“基尼指数”来选择划分属性,基尼值是用来度量数据集的纯度

 

技术分享

 

机器学习——树回归

标签:不能   tree   过程   and   http   变量   技术   局限性   准则   

原文地址:http://www.cnblogs.com/tonglin0325/p/6218478.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!