做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 一、什么是自然语言处理 一、什么是自然语言处理 一 ...
分类:
其他好文 时间:
2019-02-04 20:56:40
阅读次数:
276
恢复内容开始 对于图像的分类 线性分类器的组成:1.评分函数:将原始图像数据到类别分值的映射。2.损失函数:用来量化预测分类标签的得分与真实标签之间一致性的。该方法可转化为一个最优化问题,在最优化过程中,将通过更新评分函数的参数来最小化损失函数值。 一. 从原始图像到标签类别分值的参数化映射 评分函 ...
分类:
其他好文 时间:
2019-02-01 21:11:03
阅读次数:
224
[TOC] 1. 分类数据准备 需要的文件列表: 按照以下目录结构进行构造: 其中训练和测试的比例设置: 1. 如果数据集比较小(10,000左右),那么设置的比例为:训练:测试 = 80% : 20% 2. 如果数据集比较大(100,000左右),那么设置的比例为:训练:测试 = 99% :1% ...
分类:
Web程序 时间:
2019-01-31 16:58:21
阅读次数:
635
1.向量内积: (1)假设有u和v这两个二维向量:,接下来看一下u的转置乘以v的结果,u的转置乘以v也叫做向量u和向量v的内积,u是一个二维向量,可以将其在图上画出来,如下图所示向量u: 在横轴上它的值就是某个u_1,在纵轴上它的高度就是某个值u_2,即U的第二个分量,那么现在就容易得出向量u的范数 ...
分类:
其他好文 时间:
2019-01-30 15:57:05
阅读次数:
237
1.下面是支持向量机(SVM)的代价函数: 上图左边是cost1(z)函数,用于正样本,右边画出了关于z的代价函数cost0(z),函数的横轴是z,现在我们想一下怎么样才能使得这些代价函数变得更小呢?当有一个正样本的时候,y=1,那么仅当z大于等于1的时候,cost1(z)=0,换句话说,如果有一个 ...
分类:
其他好文 时间:
2019-01-30 14:10:31
阅读次数:
154
最近在看《机器学习实战》这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,选择了这本书进行学习。 一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有 ...
分类:
编程语言 时间:
2019-01-28 14:04:19
阅读次数:
186
matlab2016版本无法兼容matlab2018版本Classification Learner创建的分类器 在java环境下,使用matlab2016版本调用matlab2018版本Classification Learner创建的分类器,步骤如下: 保持matlab java版本与系统版本一 ...
分类:
编程语言 时间:
2019-01-27 21:57:29
阅读次数:
353
1. 引言 HOG(Histogram of Oriented Gradient),即方向梯度直方图。它通过计算和统计局部区域的梯度方向直方图来构成特征,一般与SVM分类器结合用于目标的图像识别。由于人体姿势和外表的多变,在图像中检测人体是一项具有挑战性的工作,要在不同的光照和背景下都能清晰的识别出 ...
分类:
其他好文 时间:
2019-01-26 22:37:52
阅读次数:
221
数据的特征预处理 数据的特征预处理 单个特征 (1)归一化 归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm, ...
分类:
其他好文 时间:
2019-01-17 22:42:23
阅读次数:
302
目的:为了让训练效果更好 bagging:是一种并行的算法,训练多个分类器,取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法,根据前一次的结果,进行加权来提高训练效果 stacking; 是一种堆叠算法,第一步使用多个算法求出结果,再将结果作为特征输入到下一 ...
分类:
编程语言 时间:
2019-01-17 14:03:48
阅读次数:
272