标签:学习 联合 info 两种 多个实例 选择 集成 ade 训练
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。
研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。
其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目的,进而降低数据不均衡给分类器带来的负面影响。
按照对样本数量的影响又可分为:
随机过抽样是一种按照下面的描述从少数类中速记抽样生成子集合 E 的方法。
用这样方法,$S_{min}$中的总样本数增加了$|E|$个新样本,且$S_{min-new}$的类分布均衡度进行相应的调整,如此操作可以改变类分布平衡度从而达到所需水平。
欠抽样技术是将数据从原始数据集中移除。
初看,过抽样和欠抽样技术在功能上似乎是等价的,因为它们都能改变原始数据集的样本容量且能够获得一个相同比例的平衡。
但是,这个共同点只是表面现象,这是因为这两种方法都将会产生不同的降低分类器学习能力的负面效果。
两个 informed 欠抽样算法:EasyEnsemble 和 BalanceCascade 算法,这两种方法克服了传统随机欠抽样方法导致的信息缺失的问题,且表现出较好的不均衡数据分类性能。
1. EasyEnsemble 核心思想是:
EasyEnsemble 算法被认为是非监督学习算法,因此它每次都独立利用可放回随机抽样机制来提取多数类样本
2. BalanceCascade 核心思想是:
标签:学习 联合 info 两种 多个实例 选择 集成 ade 训练
原文地址:https://www.cnblogs.com/34fj/p/9297851.html