码迷,mamicode.com
首页 > 其他好文 > 详细

NLP 文本预处理

时间:2019-07-02 16:15:03      阅读:135      评论:0      收藏:0      [点我收藏+]

标签:分析   travel   大量   停用   训练   practice   nbsp   作用   ref   

1、不同类别文本量统计,类别不平衡差异

 

2、文本长度统计

 

3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。

    同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。

 

4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的处理,则会严重制约模型效果指标的提升。

       通过对数据进行了大量的分析后,他们提出了一个简单有效的缓解样本不均衡问题的方法,基于标签传播的数据增强方法。

【如果标题A与标题B一致,而标题A与标题C一致,那么可以得出结论,标题B与标题C一致。

同理,如果标题A与标题B一致,而标题A与标题D不一致,那么可以得出结论,标题B与标题D也不一致。

此外,Travel团队还通过将新闻对中的两条文本相互交换位置,来扩充训练数据集。】

 

https://tech.meituan.com/2019/02/21/wsdm-cup-meituan-nlp-practice.html

NLP 文本预处理

标签:分析   travel   大量   停用   训练   practice   nbsp   作用   ref   

原文地址:https://www.cnblogs.com/Allen-rg/p/11121124.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!