一、用自己的话描述出其本身的含义: 1、特征选择 特征选择就是从所有特征中选择部分特征作为训练集,即对现有特征的“取其精华,去其糟粕”,特征在选择前后 可以改变值、也可以不改变值,只是选择后的特征维数肯定要比选择前小。 2、PCA PCA是一种分析、简化数据集的技术,主要是将数据的主成分(包含信息量 ...
分类:
其他好文 时间:
2020-04-27 19:31:34
阅读次数:
47
一、用自己的话描述出其本身的含义: 1、特征选择 2、PCA 答:特征选择:选择部分特征当做机器学习的相关数据。 PCA:PCA是一种分析,简化数据集的技术。,是数据维数压缩,尽可能尽可能降低原数据的维数(复杂度),损失少量信息,可以消减回归分析或聚类分析中特征的数量。 二、并用自己的话阐述出两者的 ...
分类:
其他好文 时间:
2020-04-27 19:06:50
阅读次数:
48
很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高 ...
分类:
其他好文 时间:
2020-04-27 09:27:36
阅读次数:
163
前言 在用数据对模型进行训练时,通常会遇到维度过高,也就是数据的特征太多的问题,有时特征之间还存在一定的相关性,这时如果还使用原数据训练模型,模型的精度会大大下降,因此要降低数据的维度,同时新数据的特征之间还要保持线性无关,这样的方法称为主成分分析(Principal component analy ...
分类:
其他好文 时间:
2020-04-14 00:36:27
阅读次数:
70
17 降维简介 当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一个分类模型。PCA和 ...
分类:
其他好文 时间:
2020-04-05 09:20:07
阅读次数:
179
PCA主成分分析 所谓主成分分析是要找到一组对原特征进行线性变换的变换向量。通过变换之后得到的新的变量,应该具有尽可能大的方差,这里的方差是在总体样本上计算的。 这里的变换向量的作用实际上就是线性组合的问题。 这种变换向量可能有多个,多种变换之间应该尽可能线性无关,实际上就是这些变换向量之间线性无关 ...
分类:
其他好文 时间:
2020-03-29 17:55:00
阅读次数:
69
背景 维数灾难是机器学习中常见的现象,具体是指随着特征维数的不断增加,需要处理的数据相对于特征形成的空间而言比较稀疏,由有限训练数据拟合的模型可以很好的适用于训练数据,但是对于未知的测试数据,很大几率距离模型空间较远,训练的模型不能处理这些未知数据点,从而形成“过拟合”的现象。 方案 既然维数灾难严 ...
分类:
其他好文 时间:
2020-03-28 23:13:58
阅读次数:
69
数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘。数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。在这里,小编跟大家介绍一下数据清洗的步骤和方法。 一、检查数据的质量 数据的完整性, ...
分类:
其他好文 时间:
2020-03-27 21:45:55
阅读次数:
105
莺嘴啄花红溜,燕尾点波绿皱。 指冷玉笙寒,吹彻小梅春透。 依旧,依旧,人与绿杨俱瘦。 ——《如梦令·春景》 秦观 更多精彩内容请关注微信公众号 “ 优化与算法 ” 1、背景 随着信息技术的发展,数据量呈现爆照式增长,高维海量数据给传统的数据处理方法带来了严峻的挑战,因此,开发高效的数据处理技术是非常 ...
分类:
其他好文 时间:
2020-03-15 16:26:40
阅读次数:
68
1 简介 scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。 SKlearn官网:http://scikit-lear ...
分类:
其他好文 时间:
2020-02-27 12:52:19
阅读次数:
78