注:以下的默认为2分类1、SVM原理:(1)输入空间到特征空间得映射所谓输入空间即是输入样本集合,有部分情况输入空间与特征空间是相同得,有一部分情况二者是不同的,而模型定义都是定义到特征空间的,特征空间是指所有的输入特征向量,特征向量是利用数值来表示的n维向量,输入空间到特征空间的映射,也就是对所用...
分类:
其他好文 时间:
2015-07-09 19:27:48
阅读次数:
223
PCA算法算法步骤:
假设有m条n维数据。
1. 将原始数据按列组成n行m列矩阵X
2. 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3. 求出协方差矩阵C=1/mXXT
4. 求出协方差矩阵的特征值以及对应的特征向量
5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6. Y=PX即为降维到k维后的数据实例
以这个为例,我们用PCA...
分类:
编程语言 时间:
2015-06-20 10:38:22
阅读次数:
448
k近邻法(k-nearest neighbor,k-NN) 输入:实例的特征向量,对应于特征空间的点;输出:实例的类别,可以取多类。 分类时,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。 实例类别已定,不具有显式的学习过程。k近邻法实际上利用训练数据集对特征 向量空间进行划分,并作...
分类:
其他好文 时间:
2015-06-11 21:05:23
阅读次数:
227
首先将本节主要内容记录下来,然后给出课后习题的答案。
笔记:
1:首先我想推导用SVD求解PCA的合理性。
PCA原理:假设样本数据X∈Rm×n,其中m是样本数量,n是样本的维数。PCA降维的目的就是为了使将数据样本由原来的n维降低到k维(k<n)。方法是找数据随之变化的主轴,在Andrew
Ng的网易公开课上我们知道主方向就是X的协方差所对应的最大特征值所对应的特征向量的...
分类:
其他好文 时间:
2015-06-09 11:56:02
阅读次数:
200
本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组
Vector分为两种,分别是密集型和稀疏型
创建方式如下: val array:Array[Double] = ...
val vector...
介绍在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术。在这篇文章的末尾,出于证明的目的提供了Matlab源代码。在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据。接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除。如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中消除最小的判别特征。通过各种贪婪...
分类:
其他好文 时间:
2015-05-22 17:07:33
阅读次数:
2951
这里我省去了很多的数学知识,建议数学比较薄弱的读者可以先看看信息检索导论>第18章。主要的数学知识包括方阵的特征值、特征向量;方阵的对角化;一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)和LSA(潜在语义结构分析)。
PCA:
之前有详细讲过PCA,http://blog.csdn.net/lu597203933/article/details/415445...
分类:
其他好文 时间:
2015-05-22 00:38:18
阅读次数:
1027
Naive Bayes
在GDA模型中,特征向量xx是连续的实数向量,在这一讲里,我们将要讨论另外一种算法用来处理特征向量xx是离散值的情况。
我们先考虑一个例子,用机器学习的方法建立一个垃圾邮件过滤器,我们希望用一种算法来甄别邮件的信息以确定该邮件是不是垃圾邮件,通过学习这个算法,我们将能建立自己的垃圾邮件过滤器帮我们对邮件进行分类,邮件分类只是一系列我们称之为\textbf{文本分类}中的...
分类:
其他好文 时间:
2015-05-21 19:41:05
阅读次数:
247
数学学了好多年,从学会解各种方程组到计算二重三重积分,从代数到几何,从二维平面到三维空间,从线性代数到概率统计……学会了各种机械的解法,但很多基本概念的意义却不知道。比如说我会很容易的求得一个矩阵的特征值跟特征向量,但是他们到底有什么含义,我们为什么要求一个矩阵的特征值??一头雾水。。 这是在...
分类:
其他好文 时间:
2015-05-17 23:14:45
阅读次数:
275
想用机器学习的方法,那么思路其实也很明确,问题是那一天用户是买还是不买,那么可以看成是二分法。通过用户行为方式来判断是否会购买。就是把用户行为等抽象成特征向量得到训练集,扔进机器学习算法训练出一个模型,然后用测试集预测出结果。虽然机器学习的算法有不少,而且需要不断的调整参数和优化,但是我认为特征向量的选取才是最关键的,很显然我们到最后也没搞好~~~...
分类:
移动开发 时间:
2015-05-17 12:20:50
阅读次数:
155