当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一个分类模型。PCA和LDA有很多的相 ...
分类:
其他好文 时间:
2019-08-17 16:25:16
阅读次数:
117
降维算法应用:数据压缩、数据可视化。 主成分分析(PCA)是最常见的降维算法。 在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据 都投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点 的向量,而投射误差是从特征向量向该方 ...
分类:
其他好文 时间:
2019-08-16 00:53:54
阅读次数:
145
用通俗的语言讲解涵盖算法模型的机器学习,主要内容包括机器学习通用概念、三个基本科学计算工具、有监督学习、聚类模型、降维模型、隐马尔可夫模型、贝叶斯网络、自然语言处理、深度学习、强化学习、模型迁移等。在深入浅出地解析模型与算法之后,介绍使用Python相关工具进行开发的方法、解析经典案例,能理解、能设 ...
分类:
其他好文 时间:
2019-08-11 09:18:05
阅读次数:
4754
主成分分析法 [TOC] 主成分分析法:(Principle Component Analysis, PCA),是一个非监督机器学习算法,主要用于数据降维,通过降维,可以发现便于人们理解的特征,其他应用:可视化和去噪等。 一、主成分分析的理解 ? 先假设用数据的两个特征画出散点图,如果我们只保留特征 ...
分类:
其他好文 时间:
2019-08-10 14:12:24
阅读次数:
99
导读:本文根据实际使用情况,简要分析了精准测试和类Jacoco等传统白盒工具在设计理念、功能和应用场景的异同点,并阐述了覆盖率技术如何在新型企业开发体系中,发挥应有的重要作用。 覆盖率技术可以说是测试理论中最基本的技术体系,但由于传统覆盖率并没有很好的适应新型软件开发模型,导致应用场景越来越窄。比如:Jacoco等同类工具,仍停留在传统白盒覆盖技术的技术演化层面,目前基本仅适用在瀑布模式的开发体系
分类:
其他好文 时间:
2019-08-10 09:54:33
阅读次数:
87
概念 在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。 降维方法有很多,而 ...
分类:
其他好文 时间:
2019-08-06 21:25:15
阅读次数:
141
(1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM。 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 ...
分类:
其他好文 时间:
2019-08-02 20:16:08
阅读次数:
82
Q1动机一:数据压缩 将特征进行降维,如将相关的二维降到一维: 三维变二维: 以此类推把1000维数据降成100维数据。减少内存占用的空间 Q2动机二:数据可视化 如50个维度的数据是无法进行可视化的,使用降维的方法可以使其降到2维,然后进行可视化。 降维的算法只负责减少维度,新产生的特征的意义就必 ...
分类:
其他好文 时间:
2019-08-02 13:12:29
阅读次数:
85
1. 线性回归 1.1 算法原理 (1)情景:给定一定数量的数据点,通过拟合得到其回归直线,使得所有点到这个直线的距离之和(损失函数)最小。 即:已知各个点的坐标,反求直线表达式的最优系数解。 假定直线参数为θ,则直线表达式为: 得到的直线(平面)表达式应使得损失函数最小,其中损失函数表达式: (2 ...
分类:
其他好文 时间:
2019-07-23 15:32:54
阅读次数:
113