前言决策树可能是对于相关样本进行分类示性最为直观的一种方法,使用决策树方法来演示分类的过程对于读者而言可能也是最简单的一种方式,我们可以称之为它是白箱算法,所谓白箱就是直接可以对其进行观察、可以进行可视化;那么如何衡量哪一种决策树的形态是较好的分类方式,也..
分类:
其他好文 时间:
2017-10-27 16:02:34
阅读次数:
169
随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分 ...
分类:
其他好文 时间:
2017-10-26 11:40:26
阅读次数:
244
跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。 ...
分类:
编程语言 时间:
2017-10-24 11:34:57
阅读次数:
230
不需要对特征进行归一化或标准化处;能够自动进行特征选择;可以分布式并行计算。 XGBOOST框架是对GBDT的优化设计,它的优点主要有 ...
分类:
其他好文 时间:
2017-10-18 10:08:41
阅读次数:
117
本文用容易理解的语言和例子来解释了决策树三种常见的算法及其优劣、随机森林的含义,相信能帮助初学者真正地理解相关知识。 ...
分类:
其他好文 时间:
2017-10-17 18:59:36
阅读次数:
204
随机森林 用法: 1. 样本的相似度,认为在一个叶子节点的两个样本是相似的,来计算样本相似度矩阵。 2. 特征选择:修改节点的特征选择,看预测的结果有没有显著变化,有的话,说明被替换的特征比较重要,反之,不重要。 3. Isolation Forest: 随机选择特征,随机选择分割点生成一定深度的决 ...
分类:
其他好文 时间:
2017-10-17 10:03:43
阅读次数:
139
分类算法: 决策树: 对每一节点,根据feature进行分类。 选择信息增益最大的feature, 也就是选择将不确定性降低最多的feature。 随机森林: 多个决策树的投票机制来改善决策树,假设有m棵决策树,要有m个一定数量的样本集来训练一棵树(每棵决策树处理一个训练样本子集),如果用全样本来训 ...
分类:
编程语言 时间:
2017-09-17 13:39:41
阅读次数:
285
深度学习(NLP) LTR(Learn to Rank) 机器学习 boostting与随机森林 EM算法 LDA算法 协同过滤算法 聚类算法简述 ...
分类:
其他好文 时间:
2017-09-03 16:38:06
阅读次数:
125
ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文档视频技术支持 ...
分类:
其他好文 时间:
2017-09-01 12:53:01
阅读次数:
713
一。简介 随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。 比喻的说法: 每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M ...
分类:
其他好文 时间:
2017-08-27 11:06:08
阅读次数:
117