首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
其他好文
> 详细
随机森林法之科普篇
时间:
2015-06-07 23:21:24
阅读:
3564
评论:
0
收藏:
0
[点我收藏+]
标签:
目前,人们已经对多种机器学习的模型进行了比较,随机森林经常独占鳌头[1]。
----题记
随机森林算法,在图像处理中经常见到,另外一个经常见到的是贪婪算法,一直以来不太清楚它们是做什么用的。那天,上网搜了下随机森林算法,发现李欣海老师的博客中有介绍,从头到尾仔细地看了下。下面是以我的方式将博客里的内容整理了一下,有兴趣了解细节的可以点击链接
http://blog.sciencenet.cn/home.php?mod=space&uid=661364&do=blog&id=728330
Q: 随机森林算法的基本思想是什么?
A: 随机森林是一种基于分类树的算法。这个算法需要模拟和迭代,被归类为机器学习中的一种方法。
Q: 随机森林算法解决什么问题?
A: 解决回归问题和分类问题。(笼统一点儿来说,以我个人理解来看,两者都是拟合问题,前者拟合一个连续函数,后者拟合一个非连续函数)
Q: 回归问题和分类问题不是有很多成熟的算法,简单如线性和广义线性回归模型,复杂如神经网络等算法,为什么还要使用随机森林算法呢?
A: 随机森林算法较以上提到的算法有优势。概括来说,它用较小的计算量(相对于神经网络的庞大的计算量)实现了较高的预测精度(相较于线性和广义线性回归模型而言)。
Q: 除了以上的优点,随机森林还有其他优点吗?
A: 这个必须有。比如学习速度快;不需要考虑自变量的共线性问题(而Logstic模型在回归问题的使用中必须考虑);部分数据缺失,仍可以维持一定的准确度;对离群值(也称为野值)不敏感,算法健壮;不易产生过拟合(此观点尚存争议)
Q: 说了这么多随机森林法的优点,那它的缺点呢?
A: 虽然可以假称这个不能有,但是这个还真有。它的缺点主要集中在以下两点:一、算法预测结果倾向于样本中观测值较多的类别;二、水平分类多的自变量(如一个自变量有20个等级)比分类少的自变量(如一个自变量有3个等级)对模型的影响更大。(虽然我对随机方面的算法没有多少了解,但是直观感觉上面两条缺点,其他算法或多或少都有)
Q: 如果只想使用随机森林,而不想了解背后的理论基础和编程细节,怎么办?
A: 使用 R 语言的 RandomForest 软件包,把数据准备好,调用算法即可。顺手上网搜了下,Matlab 的 RandomForest 的软件包也有人写过,感兴趣的可以搜索下载使用。
参考文献:
[1]
http://blog.sciencenet.cn/home.php?mod=space&uid=661364&do=blog&id=728330
随机森林法之科普篇
标签:
原文地址:http://www.cnblogs.com/liuyc/p/4559173.html
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
分布式事务
2021-07-29
OpenStack云平台命令行登录账户
2021-07-29
getLastRowNum()与getLastCellNum()/getPhysicalNumberOfRows()与getPhysicalNumberOfCells()
2021-07-29
【K8s概念】CSI 卷克隆
2021-07-29
vue3.0使用ant-design-vue进行按需加载原来这么简单
2021-07-29
stack栈
2021-07-29
抽奖动画 - 大转盘抽奖
2021-07-29
PPT写作技巧
2021-07-29
003-核心技术-IO模型-NIO-基于NIO群聊示例
2021-07-29
Bootstrap组件2
2021-07-29
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!