码迷,mamicode.com
首页 > 其他好文 > 详细

NLP 语料分类不均衡/数据倾斜/data skew

时间:2019-11-21 22:39:49      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:bsp   nlp   learn   使用   同义词   处理   ted   oss   依赖   

数据层面:

过抽样

  • 直接复制,即不断复制类别样本数少的类别样本。
  • 插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。

欠抽样:

  • 直接删除,随机减少多数类样本的数量。

算法层面:

  • Weighted loss function,一个处理非平衡数据常用的方法就是设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重,提高少数类权重,例如设置为多数类的10倍

 

采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。

NLP 语料分类不均衡/数据倾斜/data skew

标签:bsp   nlp   learn   使用   同义词   处理   ted   oss   依赖   

原文地址:https://www.cnblogs.com/pocahontas/p/11908827.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!