1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 00:36:52
阅读次数:
72
监督学习的数据就是有标签数据,无监督学习的数据就是无标签数据。 有标签的数据应该就是采用有监督学习方式,像线性分类器,神经网络等;无标签的数据采用非监督学习方式,比如聚类等方法。 半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如:照片分类,但是只有部分照片带有标签(如,狗、猫和人), ...
分类:
其他好文 时间:
2020-05-21 09:38:17
阅读次数:
275
1.池化的作用: ①降级图像感受野; ②降维; 2.使用场景 avgpool: 当feature map中的信息都应该有所贡献的时候用avgpool, 例如图像分割中常用global avgpool来获取全局上下文关系, 再例如224*224图像分类将最后的7*7map进行avgpool而不是max ...
分类:
其他好文 时间:
2020-05-18 13:57:54
阅读次数:
563
文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:
其他好文 时间:
2020-05-15 00:17:01
阅读次数:
75
背景 文本分类属于文本挖掘。文本挖掘从已知文本提取未知的知识,即从非结构的文本中提取知识。文本挖掘主要领域:搜索和信息检索;文本聚类;文本分类;Web挖掘;信息抽取;自然语言处理;概念提取。[1] 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。 文本聚类:使用聚类方法,对词汇,片段 ...
分类:
其他好文 时间:
2020-05-14 23:50:55
阅读次数:
113
[TOC] 1、感知机模型 感知机是一个线性分类器,感知机的公式是 $$ f(x) = sign(wx+b) $$ 其中 $$ \operatorname{sign}(x)=\left\{\begin{array}{ll} +1, & x \geqslant 0 \\ 1, & x 关于$wx+b$ ...
分类:
其他好文 时间:
2020-05-13 15:23:41
阅读次数:
65
[TOC] 做haar特征的原因 1. 有些深度学习的目标检测算法有时候在物体非常相近的时候,误检率会非常高。所以我们可以先进行深度学习然后检测出大概的区域,然后再使用传统的机器学习算法来检测 2. opencv里面只有眼,脸之类的分类器,如果要实现自己的分类器就需要自己训练 https://blo ...
分类:
其他好文 时间:
2020-05-10 15:09:33
阅读次数:
83
集成学习(ensemble learning)—bagging—RF Bagging主要关注降低方差。(low variance)Boosting关注的主要是降低偏差。(low bias) bagging是对许多强(甚至过强)的分类器求平均。在这里,每个单独的分类器的bias都是低的,平均之后bia ...
分类:
其他好文 时间:
2020-05-10 12:54:21
阅读次数:
77
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类就是按照数据的属性给对象贴上标签,再根据标签来分类,属于无监督学习,聚类就是指事先定义好类别,然后通过某种度量(比如距离)将他们分类。 简述什么是监督学习与无监督学习。 监督学习 利用一组已知类别的样本调整分类器的参数,使 ...
分类:
编程语言 时间:
2020-05-07 22:34:35
阅读次数:
68
交叉验证 当我们构建分类器时,有可能会存在过拟合现象。如何利用有限的数据降低模型的过拟合?——交叉验证 我们把每个数据集分成两个子集 一个用于构建分类器(模型),称为训练集(training set) 另一个用于评估分类器,称为测试集(test set) 根据训练集和测试集的挑选方法,一般可分为简单 ...
分类:
其他好文 时间:
2020-05-07 17:03:08
阅读次数:
159