所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因...
分类:
其他好文 时间:
2015-03-09 15:55:05
阅读次数:
114
KNN即K-Nearest Neighbor,是数据挖掘中一种最简单的分类方法,即要判断某一个样本属于已知样本种类中的哪一类时,通过计算找出所有样本中与测试样本最近或者最相似的K个样本,统计这K个样本中哪一种类最多则把测试样本归位该类。如何衡量两个样本的相似度?可以用向量的p-范数来定义。
假设有两个样本X=(x1, x2, ..., xn),Y=(y1, y2, ..., yn),则他们之间的相似度可以用以下向量p-范数定义:...
分类:
其他好文 时间:
2015-03-08 17:22:38
阅读次数:
208
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼....
分类:
其他好文 时间:
2015-03-08 11:43:34
阅读次数:
196
利用opencv的hog+svm实现细胞识别分类器
图像处理中的细胞识别和人脸识别可以这样来类比,图像中的一张张人脸就是一个个细胞。
模式识别的关键在于样本库的选取,识别率也只能在和样本库比较接近的环境下才能保证。主要工作是三部分一是特征提取,二是样本库的训练train,三是目标检测detect。
一.特征提取
特征提取采用的是HOG特征即HOG描述子,该特征在行人检测中效果非常好。...
分类:
其他好文 时间:
2015-03-08 00:11:35
阅读次数:
819
区别于线性回归,不是把每个特征直接乘以系数,而是用一个S型函数(Logistic函数)。如下:
使用这种形式函数的原因(概率、求导)。
代价函数,也不是线性回归中的误差平方和,而是基于对数似然函数,如下:
单个样本的后验概率为:(y = 0, 1) 类似于二项分布的概率密度函数。
整个样本集的后验概率:
对数似然函数对于代价函数,如下:
梯度下降法...
分类:
编程语言 时间:
2015-03-05 10:52:23
阅读次数:
239
Logistic回归用来分类,线性回归用来回归。
线性回归是把让样本的属性前面加系数,相加。代价函数是误差平方和形式。所以,在最小化代价函数的时候,可以直接求导,令导数等于0,如下:
也可以使用梯度下降法,学习的梯度和Logistic回归形式一样。
线性回归的优点:计算简单。
缺点:不好处理非线性数据。...
分类:
编程语言 时间:
2015-03-05 10:48:54
阅读次数:
154
Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器。
首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率。计算该弱分类器的权重,如下:
然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重:
如果原本分类正确:
如果样本分类错误:
把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器...
分类:
编程语言 时间:
2015-03-05 10:48:44
阅读次数:
145
SVM的本质是寻找最大间隔的分割超平面。
SVM的假设也是在样本的每个属性前面乘以一个系数,代价函数是基于LR演化而来的。LR中是S型函数的假设,SVM中是分段函数cost的形式,再包括正则项,最后SVM的代价函数为:
当C一般要设置地很大,这样子的SVM才能够找到最大间隔的超平面,thetaT*x>=1或者thetaT*x
我们构建拉格朗日函数:
分别对...
分类:
编程语言 时间:
2015-03-05 10:47:48
阅读次数:
257
我在看《Hadoop权威指南》时,里面提供了NCDC天气数据样本,提供的下载链接是:点击打开链接,但是里面只提供了1901和1902这两年的数据,这未免也太少了点!完全称不上“BIG DATA”,于是我现在提供一个方法获取1901年到2014年的天气数据样本。在网站:点击打开链接中提供了这些数据包,...
分类:
其他好文 时间:
2015-03-04 22:29:32
阅读次数:
257
static使用方法小结 statickeyword是C, C++中都存在的keyword, 它主要有三种使用方式, 当中前两种仅仅指在C语言中使用, 第三种在C++中使用(C,C++中详细细微操作不尽同样, 本文以C++为准).(1)局部静态变量(2)外部静态变量/函数(3)静态数据成员/成员函数...
分类:
其他好文 时间:
2015-03-04 20:49:34
阅读次数:
134