caffe本身是没有数据集的,但在data目录下有获取数据的一些脚本。MNIST,一个经典的手写数字库,包含60000个训练样本和10000个测试样本,每个样本为28*28大小的黑白图片,手写数字为0-9,因此分为10类。 1.获取数据 这个是在caffe的目录下执行的。运行成功后,在caffe/d ...
分类:
数据库 时间:
2017-10-25 11:37:45
阅读次数:
405
这里给出的只是一些常见的机器学习方法。了解每个方法的思想,数据可以前往UCI数据库(http://archive.ics.uci.edu/ml/index.php)下载。 监督学习: 通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个 ...
分类:
数据库 时间:
2017-10-22 21:11:41
阅读次数:
258
一. 装完caffe当然要来跑跑自带的demo,在examples文件夹下。 先来试试用于手写数字识别的mnist,在 examples/mnist/ 下有需要的代码文件,但是没有图像库。 mnist库有50000个训练样本,10000个测试样本,都是手写数字图像。 caffe支持的数据格式为:LM ...
支持向量机分类器(Support Vector Classifer),根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。 使用支持向量机分类器处理Scikit-learn内部继承的手写体数字图片数据集。 #coding=UTF-8 ######手写体数据读取代码样例 #从sklearn.da ...
分类:
其他好文 时间:
2017-09-29 11:01:08
阅读次数:
193
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样 ...
分类:
编程语言 时间:
2017-09-24 23:38:56
阅读次数:
329
权重向量W,训练样本X 1.把权重向量初始化为0,或把每个分量初始化为[0,1]之间的任意小数 2.把训练样本输入感知器,得到分类结果(-1或者1) 3.根据分类结果更新权重向量 感知器算法适用于图一的可线性分隔开的数据样本 ...
分类:
编程语言 时间:
2017-09-24 09:45:51
阅读次数:
185
有错欢迎指正,别让小弟继续错下去。 我们在使用机器学习过程中,经常会overfiting,训练样本大的话,还好,不用考虑这个 问题。但是,当数据量小的时候,加上模型的结构还不想改变。比如,你想尝试使用vgg16 网络进行训练,对于vgg的VC维来说是比较大的,但是,你只有几百张图片,这样,的话就很 ...
分类:
其他好文 时间:
2017-09-17 20:59:47
阅读次数:
292
首先谈谈什么是“经验误差”与“过拟合”。我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”;而在新样本上的误差称为“泛化误差”,显然,我们希望得到泛化误差小的学习器,但是若学习的太好是,就有可能把训练样本自身的一些特点当做了所有潜在 ...
分类:
其他好文 时间:
2017-09-17 18:46:28
阅读次数:
118
KNN算法 存在一个训练样本集合,里面有n个训练数据,每个训练数据有m个特征。每个训练数据都标明了相对应的分类。比如: 其中一条数据有四个特征:体重,翼展等,也有相对应的种属。 则KNN算法就是将一条未知种属的数据的每个特征与训练样本集合中的每条数据对应的特征进行比较,然后算法提取样本集合特征最相似 ...
分类:
编程语言 时间:
2017-09-17 15:22:08
阅读次数:
171
分类算法: 决策树: 对每一节点,根据feature进行分类。 选择信息增益最大的feature, 也就是选择将不确定性降低最多的feature。 随机森林: 多个决策树的投票机制来改善决策树,假设有m棵决策树,要有m个一定数量的样本集来训练一棵树(每棵决策树处理一个训练样本子集),如果用全样本来训 ...
分类:
编程语言 时间:
2017-09-17 13:39:41
阅读次数:
285