数据挖掘工作经验

时间：2018-07-26 19:50:48 阅读：213 评论：0 收藏：0 [点我收藏+]

标签：ica 字符量化产生默认值现象英文集中小数

有趣的生日现象：一个银行系统，5%的用户是同一天出生的（系统录入有问题，有默认值）

对空缺值得处理：

对遗漏数据的处理方法主要有：忽略该条记录；手工填补遗漏值；利用默认值填补遗漏值；利用均值填补遗漏值；利用同类别均值填补遗漏值；利用最可能的值填充遗漏值。

数据规范化：指将数据按比例缩放(如更换大单位)，使之落入一个特定的区域（如0-1）以提高数据挖掘效率的方法。规范化的常用方法有：最大-最小规范化、零-均值规范化、小数定标规范化

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

聚类分析当中，MIN（单链）、Chameleon等技术可以处理任意形状的簇

日志数据挖掘
（一）.去掉没用的信息
（二）.日志的归类（k-means--k不好选择）字符串的相似度进行归类
所使用的算法：python-Levenshtein的ratio函数计算字符串相似度
余弦相似度的算法计算时间维度的相似性
分词：
针对英文：nltk
针对中文：jieba
分词后进行特征工程:（文本特征具有高度的稀疏性，你直接TF-IDF得到的维度太高，而且高稀疏。做聚类的话，建议先PCA降维到合适的维度。比如50,100,200，可以调参得到合适的维度。最后再进行聚类比较好。）
1.向量化
2.TF-IDF 使用完后就可以进行分类或者聚类分析。
3.Hash trick 就是非常常用的文本特征降维方法（因为哈希过后，已经不知道data代表的特征名字和意义，所以解释性差）哈希函数最常见的是选择一个较大的素数然后求余数得到hash值。当然也有其他的做法。所以一般会根据你要映射的高维维度选择一个附近的素数。这样我们就不用考虑hash函数的问题了
4.动态规划方法维特比算法
（三）.
1.关联
2.分类
3.聚类（词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。但是大多数时候，如果我们的目的是分类聚类，则词袋模型表现的很好。）

数据挖掘工作经验

标签：ica 字符量化产生默认值现象英文集中小数

原文地址：https://www.cnblogs.com/lgx-fighting/p/9373607.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行