码迷,mamicode.com
首页 >  
搜索关键字:训练样本    ( 415个结果
从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同
尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM ...
分类:其他好文   时间:2019-08-18 19:34:38    阅读次数:152
sklearn之随机森林
''' 集合算法: 1.正向激励 2.自助聚合:每次从总样本矩阵中以有放回抽样的方式随机抽取部分样本构建决策树,这样形成多棵包含不同训练样本的决策树, 以削弱某些强势样本对模型预测结果的影响,提高模型的泛化特性。 3.随机森林:在自助聚合的基础上,每次构建决策树模型时,不仅随机选择部分样本,而且还随... ...
分类:其他好文   时间:2019-07-14 17:49:54    阅读次数:100
降维与度量学习
降维与度量学习 K近邻学习 K近邻学习(k-Nearest Neighbor)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个"邻居"的信息来进行预测。通常,在分类任务中可使用"投票法",即选择这k个样本中出现最多的... ...
分类:其他好文   时间:2019-07-11 20:09:24    阅读次数:99
K近邻算法核心函数详解
#用于分类的输入向量是inX,输入的训练样本集为dataSet, #标签向量为 labels ,最后的参数 k 表示用于选择最近邻居的数目,其中标签向量的元素数目和矩阵 dataSet 的行数相同。 def classify0(inX,dataSet,labels,k): dataSetSize =... ...
分类:编程语言   时间:2019-07-09 15:13:51    阅读次数:131
机器学习与数据挖掘期末考试复习重点整理
分类: – 有类别标记信息, 因此是一种监督学习 – 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。 聚类: – 无类别标记, 因此是一种无监督学习 – 无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布 ...
分类:其他好文   时间:2019-06-30 09:28:26    阅读次数:90
0A04 无监督学习:聚类(1) k-means
这是一个非常简单的聚类算法,算法的目的就是找到这些中心点的合适坐标,使得所有样本到其分组中心点距离的平方和最小. K-means 的中心点向量不一定是训练样本中某成员的位置 import numpy as npfrom sklearn.cluster import KMeans # 引入K-mean ...
分类:其他好文   时间:2019-06-21 22:37:46    阅读次数:170
adaboost草稿
一、简介 这个方法主要涉及到2个权重集合: 样本的权重集合每个样本都对应一个权重。 在构建第一个弱模型之前,所有的训练样本的权重是一样的。第一个模型完成后,要加大那些被这个模型错误分类(分类问题)、或者说预测真实差值较大(回归问题)的样本的权重。依次迭代,最终构建多个弱模型。每个弱模型所对应的训练数 ...
分类:其他好文   时间:2019-06-14 18:26:15    阅读次数:90
机器学习之样本不均衡
以下内容是个人通过查阅网上相关资料总结出的内容 具体说明数据不均衡会带来的问题: 1)在一个二分类问题中,训练集中class 1的样本数比class 2的样本数是60:1。使用逻辑回归进行分类,最后训练出的模型可能会忽略了class 2,即模型可能会将所有的训练样本都分类为class 1。 2)在分 ...
分类:其他好文   时间:2019-05-26 11:13:10    阅读次数:336
机器学习——提升方法AdaBoost算法,推导过程
0提升的基本方法 对于分类的问题,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类的分类规则(强分类器)容易的多。提升的方法就是从弱分类器算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数据集的概率分 ...
分类:编程语言   时间:2019-05-09 21:45:32    阅读次数:200
机器学习算法学习---处理分类问题常用算法(二)
k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用范围:数值型、标称型。 工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将数据的每个特征与样本集中数据 ...
分类:编程语言   时间:2019-04-29 20:58:38    阅读次数:175
415条   上一页 1 ... 4 5 6 7 8 ... 42 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!