JAVA验证识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本 工具准备: jTessBoxEditorFX下载:https://github.com/nguyenq/jTessBoxEditorFX Tesseract-OCR下载:https://sourceforge ...
分类:
编程语言 时间:
2018-08-13 19:37:40
阅读次数:
1288
PCA和LDA都是经典的降维算法。PCA是无监督的,也就是训练样本不需要标签;LDA是有监督的,也就是训练样本需要标签。PCA是去除掉原始数据中冗余的维度,而LDA是寻找一个维度,使得原始数据在该维度上投影后不同类别的数据尽可能分离开来。 PCA PCA是一种正交投影,它的思想是使得原始数据在投影子 ...
分类:
其他好文 时间:
2018-08-11 01:40:09
阅读次数:
334
1、集成方法概述 集成学习(Ensemble Learning)有时也被笼统地称作提升(Boosting)方法,广泛用于分类和回归任务。它最初的思想很简单:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。也就是常说 ...
分类:
其他好文 时间:
2018-08-02 01:55:22
阅读次数:
432
摘要 大多数实例分割算法都要求为所有的训练样本分配一个分割掩码标签。为新类别打标签是一件费时费力的事情,所以这篇文章提出了一个新的偏监督学习训练范例,使用权值迁移函数来训练拥有大量边框标注但是有很少分割标注的实例分割模型。这些改进可以让Mask R-CNN检测和分割3000个视觉概念,通过使用Vis ...
分类:
其他好文 时间:
2018-07-31 23:41:07
阅读次数:
364
一、KNN算法的介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量;然后根据距离计算待测试样本和每个训练样本的距离,选择距离最小的K个样本作为近邻样本;最后根据K个近邻样本判断待分 ...
分类:
编程语言 时间:
2018-07-28 20:34:04
阅读次数:
586
1. 算法核心思想: 通过计算每个训练样本到待分类样本的距离,选取和待分类样本的距离最近的 K 个训练样本,K个样本中那个类别的训练样本占据着多数, 则表明待分类的样本就属于哪一个类别。 KNN算法在类别的决策中, 只与极少数的相邻样本相关。因此,对于类别的样本交叉或重叠较多的待分类样本集来说, K ...
分类:
编程语言 时间:
2018-07-19 13:35:17
阅读次数:
421
数据集 样本 特征 特征取值 维数 训练数据 训练样本 泛化:学得的模型适用于新样本的能力 归纳与演绎:前者是从特殊到一般的泛化过程,即从具体的事实归结出一般性的规律后者是从一般到特殊的“特化”过程,即从基础原理推演出具体情况。 假设空间 版本空间:可能有多个假设集合与训练集一致,即存在一个与假设即 ...
分类:
其他好文 时间:
2018-07-16 15:04:49
阅读次数:
152
当看过一些简单的机器学习算法或者模型后,对于具体问题该如何评估不同模型对具体问题的效果选择最优模型呢。 1. 经验误差、泛化误差 假如m个样本中有a个样本分类错误 错误率:E = a / m; 精度: 1 - E 训练误差: 又叫经验误差,是指算法/模型在训练样本上的误差 泛化误差:算法/模型在新样 ...
分类:
其他好文 时间:
2018-07-14 11:46:54
阅读次数:
154
批梯度下降算法: 训练样本为一个时:更新Θi 让代价函数最小,利用沿梯度下降方向函数会变得越来越小。这个函数是代价函数J关于(Θi )的。这里并没有在讨论x,y。 关于为什么式子(图是复制的)可以让代价函数趋向于最小值。参考博客:https://blog.csdn.net/ZengDong_1991 ...
分类:
其他好文 时间:
2018-07-09 23:15:59
阅读次数:
193
9.1代价函数 (1)假设神经网络的训练样本有m个,每一个包含一组输入x和一组输出信号y,L表示神经网络的层数,Sl表示每一层的神经元个数,SL代表最后一层中处理单元的个数。 则代价函数为(同样不对θ0正则化): 9.2反向传播算法 前向传播算法: 用δ表示误差,则δ(4)=a(4)-y 前一层的误 ...
分类:
其他好文 时间:
2018-07-02 20:22:50
阅读次数:
149