分类器分类器是一种计算机程序。他的设计目标是在通过学习后,可自动将数据分到已知类别。平面线性分类器一个简单的分类问题,如图有一些圆圈和一些正方形,如何找一条最优的直线将他们分开?我们可以找到很多种方法画出这条直线,但怎样的直线才是最优的呢?距离样本太近的直线不是最优的,因为这样的直线对噪声敏感度高,...
分类:
其他好文 时间:
2015-01-02 16:01:27
阅读次数:
2090
对于PCA,一直都是有个概念,没有实际使用过,今天终于实际使用了一把,发现PCA还是挺神奇的。在OPENCV中使用PCA非常简单,只要几条语句就可以了。1、初始化数据//每一行表示一个样本CvMat* pData = cvCreateMat( 总的样本数, 每个样本的维数, CV_32FC1 );C...
分类:
其他好文 时间:
2015-01-02 15:51:35
阅读次数:
152
样本=总体接受不精确发现有价值的数据源是一个很有挑战的任务数据科学家在未来可能很有市场在数据科学家中,专门解决数据源问题的一类应该很火如何让普通人成为数据科学家?需要一个word一样将普通人变为作者的系统这个系统的一些重要的质量属性包括:一个方便的采集系统将采集以后的数据进行方便的转换的系统对于不用...
分类:
其他好文 时间:
2014-12-31 14:31:30
阅读次数:
219
三种类型:不喜欢的-1,魅力一般的-2,极具魅力的-3。样本特征:每年获得的飞行常客里程数,玩视频游戏所耗时间百分比,每周消费的冰淇淋公升数。 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 ...
分类:
Web程序 时间:
2014-12-30 21:55:44
阅读次数:
267
看到母校论坛上铺天盖地的年终总结,突然发现转眼间又过了一年,除了感慨时间过得快,感觉自己也需要静下心来,总结一下今年的得失。得:1.坦白的说,工作方面的收获的确不少,但是和自己规划的很不一样。本来是想在研究领域的深度上有所进步的,但是今年基本上都是在拓宽自己的广度。总的来说,通过一个内部网站项目,学...
分类:
其他好文 时间:
2014-12-30 18:38:34
阅读次数:
285
k-近邻算法(kNN):测量不同特征值之间的距离方法进行分类。 kNN的工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说,只选择样本数据...
分类:
其他好文 时间:
2014-12-30 16:48:27
阅读次数:
209
在模式识别中,我们会考虑到距离distance的问题,就是一个样本和另一个样本在空间中的距离。根据距离的大小来判断分类。那么,也存在这样的一类问题:我们只知道空间中的点(样本)的距离,那么怎么来重构这些点的相对位置呢? 显然欧式距离是最直观的距离,那么我们就会想使用欧式距离来进行计算重构,我们还希望能够在不同维度上进行重构,比如2维或者3维。 怎么做? 有这么个解决方法叫做MDS 全称为 Mult...
分类:
其他好文 时间:
2014-12-29 12:11:00
阅读次数:
205
动笔 听闻前辈讲述写博客的诸多好处,早有开始写「技术博客」的想法,但囿于自身浅薄的「技术」,以及轻微的强迫症——总想准备充分后下笔——比如这篇文章已经...
分类:
其他好文 时间:
2014-12-28 01:44:43
阅读次数:
190
zaish上一节讲了线性回归中L2范数的应用,这里继续logistic回归L2范数的应用。 先说一下问题:有一堆二维数据点,这些点的标记有的是1,有的是0.我们的任务就是制作一个分界面区分出来这些点。如图(标记是1的样本用+表示,0的用红点表示): 这其实是一个二分类问题,然后我们就想到了logis...
分类:
其他好文 时间:
2014-12-27 15:07:33
阅读次数:
293
之前写了两篇文章一个是KNN算法的C++串行实现,另一个是CUDA计算向量的欧氏距离。那么这篇文章就可以说是前两篇文章的一个简单的整合。在看这篇文章之前可以先阅读前两篇文章。
一、生成数据集
现在需要生成一个N个D维的数据,没在一组数据都有一个类标,这个类标根据第一维的正负来进行标识样本数据的类标:Positive and Negative。
#!/usr/bin/python
i...
分类:
编程语言 时间:
2014-12-26 16:40:41
阅读次数:
200