在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧...
分类:
其他好文 时间:
2015-08-09 15:27:47
阅读次数:
178
第2章 感知机感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利...
分类:
其他好文 时间:
2015-07-26 10:59:12
阅读次数:
253
《Aggregating local descriptors into a compact image representation》论文笔记
在论文中,提取到VLAD特征后,要对特征向量进行PCA降维,就是用一个大小为D’ * D的矩阵M,对VLAD特征向量x做变换,降维后的vector是x’ = Mx,x’的大小是D’维。矩阵M是由原样本的协方差矩阵的D’个特征向量构成。
为什么M要是特征...
分类:
其他好文 时间:
2015-07-25 23:02:41
阅读次数:
220
http://scikit-learn.org/stable/modules/feature_extraction.html
4.2节内容太多,因此将文本特征提取单独作为一块。
1、the bag of words representation
将raw data表示成长度固定的数字特征向量,scikit-learn提供了三个方式:
tokenizing:给每一个token(字、词...
分类:
其他好文 时间:
2015-07-22 10:53:22
阅读次数:
191
感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面。为此,导入基于误分类的损失函数,利用梯度下降法对损失...
分类:
其他好文 时间:
2015-07-22 06:47:05
阅读次数:
178
矩阵及其变换、特征值与特征向量的物理意义最近在做聚类的时候用到了主成分分析PCA技术,里面涉及一些关于矩阵特征值和特征向量的内容,在网上找到一篇对特征向量及其物理意义说明较好的文章,整理下来,分享一下。一、矩阵基础[1]:矩阵是一个表示二维空间的数组,矩阵可以看做是一个变换。在线性代数中,矩阵可以把...
分类:
其他好文 时间:
2015-07-21 16:39:32
阅读次数:
143
转自csdn,加上一些自己的理解。基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本章节讲...
分类:
其他好文 时间:
2015-07-17 20:42:49
阅读次数:
1713
什么是感知机二分类的线性分类模型,输入是实例的特征向量,输出是实例的类别,取-1和+1两值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机是神经网络和支持向量机的基础。模型的使用条件数据集需要是线性可分的,同时,如果数据集是线性可分的话,经过一定的迭代次数一...
分类:
其他好文 时间:
2015-07-14 17:13:43
阅读次数:
91
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法。
令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,
1.欧几里得距离(Euclidean distance)-EuclideanDistance...
分类:
其他好文 时间:
2015-07-12 23:23:09
阅读次数:
957