知道原理的同学这部分可以略过直接看实践部分 什么是TD-IDF? 构造文档模型 我们这里使用空间向量模型来数据化文档内容:向量空间模型中将文档表达为一个矢量。 用特征向量(T1,W1;T2,W2;T3, W3;…;Tn,Wn)表示文档。 Ti是词条项,Wi是Ti在文档中的重要程度, 即将文档看作是由 ...
分类:
其他好文 时间:
2020-01-22 14:35:25
阅读次数:
138
习题 4.1 试证明对于不含冲突数据 (即特征向量完全相同但标记不同) 的训练集, 必存在与训练集一致 (即训练误差为 0)的决策树. 既然每个标记不同的数据特征向量都不同, 只要树的每一条 (从根解点到一个叶节点算一条) 枝干代表一种向量, 这个决策树就与训练集一致. 4.2 试析使用 "最小训练 ...
分类:
其他好文 时间:
2020-01-20 20:56:27
阅读次数:
459
1、概念 VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型, 整数索引,代表向量setIndices()的索引。 ...
分类:
其他好文 时间:
2020-01-18 16:23:28
阅读次数:
101
一、矩阵 1、系数矩阵 前面学习了矩阵很多基础知识,那么遇到具体的线性方程组该怎么办呢?该怎么转换为矩阵来求解呢?如下图所示,A为系数矩阵,X是未知数矩阵,B是常数矩阵。 2、矩阵转置 简单来说就是矩阵的行元素和列元素互相调换一下。 下面列出一些矩阵转置常用的公式 这些都没有什么好说的,都比较好理解 ...
分类:
其他好文 时间:
2020-01-12 23:35:23
阅读次数:
181
1. 直推式的PCA 基本步骤: 对样本数据进行中心化处理(这步操作比较重要,特别是对推导公式) 求样本的协方差矩阵; 对样本的协方差矩阵进行特征值分解,并通过前k个特征值对应的特征向量进行映射: PCA的优化目标是: X = D + N,即低秩矩阵D和独立同分布的Gaussian噪声; 1 def ...
分类:
编程语言 时间:
2020-01-10 22:12:25
阅读次数:
95
谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比: 具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的; 其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法。谱聚类算法将数据集中的每个对 ...
分类:
其他好文 时间:
2020-01-01 20:18:49
阅读次数:
97
逻辑回归(Logistic Regression) 在这节课中,我们会重温逻辑回归学习算法,该算法适用于二分类问题,本节将主要介绍逻辑回归的Hypothesis Function(假设函数)。 对于二元分类问题来讲,给定一个输入特征向量X,它可能对应一张图片,你想识别这张图片识别看它是否是一只猫或者 ...
分类:
其他好文 时间:
2019-12-26 17:53:12
阅读次数:
85
PCA(主成分分析)方法浅析 降维、数据压缩 找到数据中最重要的方向:方差最大的方向,也就是样本间差距最显著的方向 在与第一个正交的超平面上找最合适的第二个方向 PCA算法流程 上图第一步描述不正确,应该是去中心化,而不是中心化 具体来说,投影这一环节就是:将与特征值对应的k个特征向量分别作为行向量 ...
分类:
其他好文 时间:
2019-11-30 21:07:21
阅读次数:
116
均值:描述的是样本集合的中间点。 方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方 ...
分类:
其他好文 时间:
2019-11-26 23:00:38
阅读次数:
113
这一部分我们关注正的矩阵,矩阵中的每个元素都大于零。一个重要的事实: 最大的特征值是正的实数,其对应的特征向量也如是 。最大的特征值控制着矩阵 $A$ 的乘方。 假设我们用 $A$ 连续乘以一个正的向量 $\boldsymbol u_0=(a, 1 a)$, $k$ 步后我们得到 $A^k\bold ...
分类:
其他好文 时间:
2019-11-26 22:36:21
阅读次数:
68