文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:
其他好文 时间:
2020-05-15 00:17:01
阅读次数:
75
在使用机器学习模型对数据进行训练的时候,需要考虑数据量和数据维度,在很多情况下并不是需要大量的数据和大量的数据维度,这样会造成机器学习模型运行慢,且消耗硬件设备。除此之外,在数据维度较大的情况下,还存在”维度灾难“的问题。在本篇博客里不对数据质量的判定,以及数据的增删做详细的介绍,只介绍对于数据的降 ...
分类:
其他好文 时间:
2020-05-14 22:43:45
阅读次数:
281
LDA原理 LDA思想 这里的LDA是指Linear Discriminant Analysis,简称LDA,全称线性判别分析。要与自然语言处理领域的LDA(Latent Dirichlet Allocation)隐含狄利克雷分布区分开来。 LDA是一种监督学习降维技术,它的数据集的每个样本是有类别 ...
分类:
其他好文 时间:
2020-05-13 17:17:16
阅读次数:
76
1. 尽管1x1的卷据不会捕捉空间特征(spatial features/patterns,直观点说就是2D平面图的纹理特征),但是他们能很好基于通道(channel-wise/along the depth dimension)的特征学习; 2. 由于是基于通道上的学习,因此他们能输出更少的特征图 ...
分类:
其他好文 时间:
2020-05-11 21:50:57
阅读次数:
60
本文转自公众号《数据科学家联盟》 一、主成分分析法的思想及其原理 1、PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。 其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,发现更便于人类理解的特 ...
分类:
其他好文 时间:
2020-05-03 18:41:03
阅读次数:
154
一、用自己的话描述出其本身的含义: 1、特征选择 通过人工选择特征筛选删除相关系数较低的特征,从而达到降维的作用让模型更加准确。 2、PCA 分析、简化数据集,用特征降维的方法减少特征数降低数据复杂的,减少过度拟合的可能性。 二、并用自己的话阐述出两者的主要区别 特征选择后是原来的特征集;PCA选择 ...
分类:
其他好文 时间:
2020-05-03 15:01:58
阅读次数:
52
一、用自己的话描述出其本身的含义: 1、特征选择 特征选择就是在一大堆数据中删除相关性系数比较低对结果没什么影响的特征,从而降维优化计算程度。 减少特征具有重要的现实意义,不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型 ...
分类:
其他好文 时间:
2020-05-02 11:32:32
阅读次数:
118
一、用自己的话描述出其本身的含义: 1、特征选择 一般是减少样本中不相关的特征,加快模型的训练速度和效率,比如预测今天是否会下雨,其中性别比例就是多余的特征。 2、PCA 就是识别数据中主要的特征,然后通过分析特征值,确定出需要保留的主成分个数,舍弃其他主成分,从而实现数据的降维。 二、并用自己的话 ...
分类:
其他好文 时间:
2020-05-02 09:20:48
阅读次数:
53
一、用自己的话描述出其本身的含义: 1、特征选择:原始数据中,有许多特征值是一样的,去除不相关的特征,可以降低学习任务的难度,只留下关键特征,才可以更容易看清真相。 2、PCA:即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 二、并用 ...
分类:
其他好文 时间:
2020-05-01 22:16:31
阅读次数:
60
9.主成分分析 一、用自己的话描述出其本身的含义: 1、特征选择 2、PCA 二、并用自己的话阐述出两者的主要区别 答:一、特征选择就是特征降维中进行人工选择的方式,主观性剔除不要的特征。而PCA则是特征降维中除了特征选择的另一种降维方法,中文名为主成分分析技术,他的作用是尽可能降低原数据的维数,简 ...
分类:
其他好文 时间:
2020-05-01 19:02:44
阅读次数:
72