在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生 ...
分类:
编程语言 时间:
2017-05-31 23:07:51
阅读次数:
299
今天使用了所有特征并且用SVM测试数据 理由:SVM可以使用特征将测试集划分区域,比较单调、死板 结果:成绩很不理想,无疑又一次说明随机森林更适合大数据处理第二次提交数据 用MATLAB运行11次运算结果,提取其中6次及6次以上重复出现的数据,提交结果:分数降低5分本次目的:检测以往数据的准确率总结 ...
分类:
其他好文 时间:
2017-05-31 00:23:37
阅读次数:
191
比較全面的收集了机器学习的介绍文章,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning。 《机器学习经典论文/survey合集》 介绍:看题目你已经知道了是什么内容,没错。里面有非常多经典的机器学习论文值得细致与重复的阅读。 《Brief History of ...
分类:
其他好文 时间:
2017-05-24 16:09:10
阅读次数:
316
在得出random forest 模型后,评估参数重要性 importance() 示例如下 特征重要性评价标准 %IncMSE 是 increase in MSE。就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话, 预测的误差会增大,所以 误差的增加就等同于准确性的减少,所以MeanD ...
分类:
其他好文 时间:
2017-05-23 20:33:36
阅读次数:
412
随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制。 因为它是没有迭代过程的,不像AdaBoost那样需要迭代,不断更新每个样本以及子分类器的权重。因此模型相对简单点,不容易出现过拟合。 ...
分类:
其他好文 时间:
2017-05-20 22:35:36
阅读次数:
237
决策树 决策树学习采用的是自顶向下的递归方法, 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零, 此时每个叶节点中的实例都属于同一类。 决策树三种生成算法 回归树: 平方误差 最小 的准则 分类树: 基尼系数 最小的准则 最大优点: 可以自学习。在学习的过程中,不需要使用 ...
分类:
其他好文 时间:
2017-05-15 16:28:02
阅读次数:
271
树的节点将要预测的空间划分为一系列简单域,划分预测空间的规则可以被建模为一棵树,所以这种方法也叫决策树方法。 bagging,随机森林,boosting 是多棵决策树组合起来采用投票方式产生一个预测结果的方法。 以树为基础的方法可以用于回归和分类。 回归树: 输出是一个实数,如房子的价格等。 回归树 ...
分类:
其他好文 时间:
2017-04-24 14:36:10
阅读次数:
146
随机森林模型是一种数据挖掘模型,常用于进行分类预测。随机森林模型包含多个树形分类器,预测结果由多个分类器投票得出。 决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好,一个诸葛亮,玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠,希望最终的分类效果能够超过单个大师的一 ...
分类:
其他好文 时间:
2017-04-17 10:01:24
阅读次数:
637
1.11. Ensemble methods(集成学习) 目标: 相对于当个学习器,集成学习通过使用多个基学习器的预测结果来来提高学习预测的泛化性能以及鲁棒性; 集成学习的两个思路: 1)、通过使用并行的学习,得到多个学习模型然后取其平均结果目的在于减少方差,代表算法有随机森林。通常来说多个学习器的 ...
分类:
其他好文 时间:
2017-04-13 22:53:19
阅读次数:
801
曲线拟合多重共线性虚拟变量"导致的多重共线性在机器学习中的影响大吗?老师我在网上下的 kaggle 的数据解压失败了 老师重点讲解一下随机森林和SVM还有adaboost tensorflow 陈杰链接:http://pan.baidu.com/s/1i4PNJlr 密码:fz7e 简述一下多重共线 ...
分类:
编程语言 时间:
2017-04-10 23:30:46
阅读次数:
948