adaboost是boosting方法多个版本中最流行的一个版本,它是通过构建多个弱分类器,通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的,通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。
本文主要介绍了通过单层决策树构建弱分类器,同理,也可以用其他的分类算法构建弱分类器。
boost 算法系列的起源来自...
分类:
编程语言 时间:
2015-03-18 15:55:50
阅读次数:
222
Boosting原理众做周知,boosting就是所谓的有多个弱分类器组成一个强分类器。而什么叫做弱分类学习和什么时候需要使用弱分类学习呢?弱分类学习弱分类学习:识别一组概念的正确率仅比随机猜的概率高一点。
同理,当需要分类的训练组具有上述特点时,可以优先考虑使用boosting算法。...
分类:
编程语言 时间:
2015-03-14 06:15:32
阅读次数:
226
Bagging 和 Boosting 都是一种将几个弱分类器(可以理解为分类或者回归能力不好的分类器)按照一定规则组合在一起从而变成一个强分类器。但二者的组合方式有所区别。 一、Bagging Bagging的思想很简单,我选取一堆弱分类器用于分类,然后最终结果投票决定,哪个票数多就属于哪一...
分类:
其他好文 时间:
2015-03-11 10:41:39
阅读次数:
169
Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器。
首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率。计算该弱分类器的权重,如下:
然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重:
如果原本分类正确:
如果样本分类错误:
把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器...
分类:
编程语言 时间:
2015-03-05 10:48:44
阅读次数:
145
①起源:Boosting算法Boosting算法的目的是每次基于全部数据集,通过使用同一种分类器不同的抽取参数方法(如决策树,每次都可以抽取不同的特征维度来剖分数据集)训练一些不同弱分类器(单次分类错误率>0.5),然后将其组合起来,综合评估(默认认为每个分类器权重等价)进行分类。AdaBoost算...
分类:
其他好文 时间:
2015-02-22 06:44:38
阅读次数:
174
一、要理解GBDT当然要从GB(Gradient Boosting)和DT(Decision Tree)两个角度来理解了;
二、GB其实是一种理念,他并不是这一个具体的算法,意思是说沿着梯度方向,构造一系列的弱分类器函数,并以一定权重组合起来,形成最终决策的强分类器;注意,这里的梯度下降法是在函数空间中通过梯度下降法寻找使得LOSS最小的一个函数,区别于传统的梯度下降法选择一个方向;那么问题就来...
分类:
其他好文 时间:
2015-02-10 18:48:53
阅读次数:
410
main idea:用adaboost类似的方法,选出g,然后选出步长 Gredient Boosting for regression: h控制方向,eta控制步长,需要对h的大小进行限制 对(x,残差)解regression,得到h 对(g(x),残差)解regression,得到eta
分类:
其他好文 时间:
2015-02-03 00:27:33
阅读次数:
395
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
根据过滤子集来提升(Boosting Filtered Subsets)
回到在忽略TF/IDF(Ignoring TF/IDF)中处理的那个问题,我们需要根据每个度假酒店拥有的卖点数量来对它们的相关度分值进行计算。我们希望利用缓存的过滤器来影响分值,而function_...
分类:
其他好文 时间:
2014-12-28 00:34:32
阅读次数:
323
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
function_score查询
function_score查询是处理分值计算过程的终极工具。它让你能够对所有匹配了主查询的每份文档调用一个函数来调整甚至是完全替换原来的_score。
实际上,你可以通过设置过滤器来将查询得到的结果分成若干个子集,然后对每个子集使...
分类:
其他好文 时间:
2014-12-28 00:34:04
阅读次数:
341