码迷,mamicode.com
首页 > 其他好文 > 详细

5.22 有关游戏评论

时间:2020-05-22 19:21:39      阅读:54      评论:0      收藏:0      [点我收藏+]

标签:数字   https   name   file   nbsp   特征工程   游戏   rect   user   

1、特征工程原则:特征之间、特征和label之间不要有相关性,保持相对独立,有算法就专门为了识别强相关性特征只保留一个。

---多重共线性:在很多实际的数据当中,往往存在多个互相关联的特征,这时候模型就会变得不稳定,数据中细微的变化就可能导致模型的巨大变化(模型的变化本质上是系数,或者叫参数,可以理解成W),这会让模型的预测变得困难,这种现象也称为多重共线性。

2、jieba切词默认词库是有很多不存在的词的比如网络词,可以考虑词库的扩充

https://github.com/fxsjy/jieba

用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径

3、文本纠错 pycorrector

4、怎么处理表情语?比如:我【柠檬】了

5、emoji和数字会不会不替换比较好,比如:66666

6、大数据,一次epoch之后才做一次验证很容易过拟合的,应该每多少条数据做一次验证

 

5.22 有关游戏评论

标签:数字   https   name   file   nbsp   特征工程   游戏   rect   user   

原文地址:https://www.cnblogs.com/qingchen-forever/p/12938777.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!