码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘工作经验

时间:2018-07-26 19:50:48      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:ica   字符   量化   产生   默认值   现象   英文   集中   小数   

有趣的生日现象:一个银行系统,5%的用户是同一天出生的(系统录入有问题,有默认值)

对空缺值得处理:

对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。

数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

聚类分析当中,MIN(单链)Chameleon等技术可以处理任意形状的簇

日志数据挖掘
(一).去掉没用的信息
(二).日志的归类(k-means--k不好选择)字符串的相似度进行归类
所使用的算法:python-Levenshteinratio函数计算字符串相似度
余弦相似度的算法计算时间维度的相似性
分词:
针对英文:nltk
针对中文:jieba
分词后进行特征工程:(文本特征具有高度的稀疏性,你直接TF-IDF得到的维度太高,而且高稀疏。做聚类的话,建议先PCA降维到合适的维度。比如50,100,200,可以调参得到合适的维度。最后再进行聚类比较好。)
1.向量化
2.TF-IDF 使用完后就可以进行分类或者聚类分析。
3.Hash trick 就是非常常用的文本特征降维方法(因为哈希过后,已经不知道data代表的特征名字和意义,所以解释性差)哈希函数最常见的是选择一个较大的素数然后求余数得到hash值。当然也有其他的做法。所以一般会根据你要映射的高维维度选择一个附近的素数。这样我们就不用考虑hash函数的问题了
4.动态规划方法维特比算法
(三).
1.关联
2.分类
3.聚类(词袋模型有很大的局限性,因为它仅仅考虑了词频,没有考虑上下文的关系,因此会丢失一部分文本的语义。但是大多数时候,如果我们的目的是分类聚类,则词袋模型表现的很好。)

数据挖掘工作经验

标签:ica   字符   量化   产生   默认值   现象   英文   集中   小数   

原文地址:https://www.cnblogs.com/lgx-fighting/p/9373607.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!