preprocess Logistic Regression LightGBM 1. 二分类 2.多分类 XGBoost 1. 二分类 处理正负样本不均匀的案例 主要思路 1. 手动调整正负样本比例 2. 过采样 Over Sampling 对训练集里面样本数量较少的类别(少数类)进行过采样,合成新 ...
分类:
其他好文 时间:
2018-10-06 21:36:54
阅读次数:
291
1.线性可分 对于一个数据集: 如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧,超平面如下: 那么数据集D就是线性可分的,否则,不可分。 w称为法向量,决定了超平面的方向;b为位移量,决定了超平面与原点的距离。 样本空间中的任意点x到超平面X的距离(不太熟悉的可以复习高数中空间几何那一 ...
分类:
编程语言 时间:
2018-09-03 10:32:55
阅读次数:
669
转自:watersink 1, Bootstrapping,hard negative mining最原始的一种方法,主要使用在传统的机器学习方法中。比如,训练cascade类型分类模型的时候,可以将每一级分类错误的样本继续添加进下一层进行训练。 比如,SVM分类中去掉那些离分界线较远的样本,只保留 ...
分类:
其他好文 时间:
2018-09-03 02:32:56
阅读次数:
518
Support Vector Machines(支持向量机) Optimization objective 与逻辑回归和神经网络相比,支持向量机,或者简称 SVM。在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。 这是逻辑回归里的,右边是S型激励函数,我们用z表示θTx 但y = 1 和 ...
分类:
其他好文 时间:
2018-02-10 00:05:44
阅读次数:
237
刚开始看这方面论文的时候对于各种评价方法特别困惑,还总是记混,不完全统计下,备忘。 关于召回率和精确率,假设二分类问题,正样本为x,负样本为o: 准确率存在的问题是当正负样本数量不均衡的时候: 精心设计的分类器最后算准确率还不如直接预测所有的都是正样本。 用Recall和Precision来衡量分类 ...
分类:
其他好文 时间:
2017-12-12 13:38:23
阅读次数:
114
目录 1. 简单描述SVM(线性可分SVM的求解) 2. 线性SVM 3. 非线性SVM 1. 简单描述SVM SVM是一个分类算法,通过寻找一个分离超平面,将正负样本分开,并且正负样本到超平面的间隔最大。分离超平面可以用y = wx + b来描述,样本到超平面的相对距离可以用函数间隔r = | w ...
分类:
其他好文 时间:
2017-10-02 00:19:57
阅读次数:
262
1、样本不平衡问题 正样本多余正样本: 1)欠采样,随机抽取负样本去除,使的正负样本比例平衡。缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息 2)过采样,增加一些正样本,使得正负样本比例接近。最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的方法 ...
分类:
其他好文 时间:
2017-09-01 20:22:55
阅读次数:
170
一背景首先举个例子:正样本(90)负样本(10)模型1预测正(90)正(10)模型2预测正(70)负(20)正(5)负(5)结论:模型1准确率90%;模型2准确率75%考虑对正负样本对预测能力,显然模型2要比模型1好,但对于这种正负样本分布不平衡对数据,准确率不能衡量分类器对好坏了..
分类:
其他好文 时间:
2017-07-03 15:01:07
阅读次数:
168
一 背景 首先举个例子: 正样本(90) 负样本(10) 模型1预测 正(90) 正(10) 模型2预测 正(70)负(20) 正(5)负(5) 结论: 模型1准确率90%; 模型2 准确率75% 考虑对正负样本对预测能力,显然模型2要比模型1好,但对于这种正负样本分布不平衡对数据,准确率不能衡量分 ...
分类:
其他好文 时间:
2017-07-02 10:26:54
阅读次数:
231
如需转载请注明本博网址:http://blog.csdn.net/ding977921830/article/details/47733363。 一 训练框架 训练人脸检測分类器须要三个步骤: (1) 准备正负样本集,分别放到两个目录里。我使用的是麻省理工的那个人脸库。大家能够网上搜一下。 (2)把 ...
分类:
其他好文 时间:
2017-06-04 21:14:42
阅读次数:
281