决策树是通过一系列规则对数据进行分类的过程,他提供一种在什么条件下会得到什么值的类似规则方法,决策树分为分类树和回归树,分类树对离散变量最决策树,回归树对连续变量做决策树如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上,样本所有特征中有一些特征在分类时起到决定性作用,决策树的构造过程就是找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树–决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一...
分类:
编程语言 时间:
2016-04-26 19:51:35
阅读次数:
271
简单地看了一些入门的资料。 随机森林似乎和CART有些联系。 随机森林的算法步骤: 1. 利用自助法(Bootstrap)从原始训练集中生成k个自助样本集,每个自助样本集是每棵分类树的全部训练数据。自助法(Bootstrap):从原始的样本容量为N的训练集合中随机抽取N个样本生成新的训练集,抽样的方 ...
分类:
其他好文 时间:
2016-04-20 00:41:21
阅读次数:
146
1.模型
提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型:
其中,表示决策树;为决策树的参数;M为树的个数
2.学习过程
回归问题提升树使用以下前向分布算法:
在前向分布算法的第m步,给定当前模型,需求解...
分类:
其他好文 时间:
2016-04-19 19:43:45
阅读次数:
328
题目链接 在黄学长博客上居然分类树形DP? 暴力,以每个点为根计算子树内答案,推推式子就维护两个S就可以啦
分类:
其他好文 时间:
2016-03-15 08:38:10
阅读次数:
191
摘要:说到分类树,第一个想到的算法肯定是C4.5,作为数据挖掘的十大算法之一,C4.5在ID3的基础上,从分裂的依据、数据的处理以及剪枝三个方面进行了优化,实现更加精准的预测和分类,本文将主要才能够上述三个方面对C4.5进行阐述,并给出C4.5的源代码。
分类:
其他好文 时间:
2016-01-12 22:54:32
阅读次数:
342
. 索引分类Ø 按存储方法分类B*树索引:B*树索引是最常用的索引,其存储结构类似书的索引结构,有分支和叶两种类型的存储数据块,分支块相当于书的大目录,叶块相当于索引到的具体的书页。一般索引及唯一约束索引都使用B*树索引。位图索引:位置索引储存在主要用来节省空间,减少Oracle对数据块的访问,它采...
分类:
数据库 时间:
2015-11-03 00:21:03
阅读次数:
233
1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代 Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大...
分类:
其他好文 时间:
2015-08-19 23:10:16
阅读次数:
817
参考于京东和天猫的分类树结构,整理了个人在做电商项目分类树的开发思路及演变过程: 第一种方式: ? ?纯粹的采用Java代码和SQL语句方式,不断的递归查询,其自身是否拥有子节点,这样有不好的缺点就是,访问时...
分类:
编程语言 时间:
2015-08-13 12:35:51
阅读次数:
208
这次关注的作业题目是Q13~Q20,主要是实现basic C&RT分类树,以及由其构成的Random Forest。其中basic C&RT分类树的实现思路如下:(一)先抽象出来几个功能:1)从local file读数据并转化成numpy.array的形式(考虑空行容错)(defread_input...
分类:
其他好文 时间:
2015-08-10 01:50:19
阅读次数:
367
提升树是以决策树为基分类器的提升方法,通常使用CART树。针对不同问题的提升树学习算法,主要区别在于使用的损失函数不同。1)分类问题:指数损失函数。可以使用CART分类树作为AdaBoost的基分类器,此时为分类提升树。2)回归问题:平方误差损失函数。3)决策问题:一般损失函数。1、提升树算法提升树...
分类:
编程语言 时间:
2015-07-31 21:44:07
阅读次数:
371