码迷,mamicode.com
首页 >  
搜索关键字:样本    ( 4292个结果
协方差与协方差矩阵
本文讲的主要内容是协方差以及协方差矩阵。   在统计学中,我们见过的最基本的三个概念是均值,方差,标准差。假定给定了n个样本的集合,那么公式如下           均值是描述样本的平均值,标准差描述的是样本集合的各个点到均值距离的平均,体现了样本的散步程度。而方 差仅仅是标准差的平方。     实际上,上述的方差是针对一维数据的情况进行统计描述。考虑这样一种情况:假设我们需...
分类:其他好文   时间:2015-04-21 16:15:30    阅读次数:191
概率论与数理统计复习
概率论与数理统计复习第一章概率论的基本概念一.基本概念随机试验E:(1)可以在相同的条件下重复地进行;(2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;(3)进行一次试验之前不能确定哪一个结果会出现.样本空间S: E的所有可能结果组成的集合. 样本点(基本事件):E的每个结果.随机...
分类:其他好文   时间:2015-04-21 12:44:58    阅读次数:280
你每天微信阅读超过40分钟了吗[微信数据]
由中国新闻出版研究院发起的第十二次全国国民阅读调查结果显示,我国成年人手机阅读群体的微信阅读使用频率为每天两次,有超过六成的成年通过手机,进行过微信阅读,微信阅读接触群体人均每天微信阅读时长为40.98分钟。 第十二次全国国民阅读调查从2014年9月至11月开展样本城市抽样工作,2014年12...
分类:微信   时间:2015-04-21 09:25:58    阅读次数:316
机器学习中的相似性度量(转载)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼....
分类:其他好文   时间:2015-04-20 16:35:11    阅读次数:128
过度拟合(overfilting)
过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类。原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差....
分类:其他好文   时间:2015-04-19 17:41:42    阅读次数:137
机器学习___ELM
一.带有随机隐藏节点的单隐层前馈神经网络1.相关条件: N个不同样本(xi,tix_i,t_i), xix_i =[xi1,xi2,xi3,........,xin]T[x_{i1},x_{i2},x_{i3},........,x_{in}]^T, tit_i =[ti1,ti2,ti3,........,tim]T[t_{i1},t_{i2},t_{i3},........,t_{im}]^T...
分类:其他好文   时间:2015-04-18 08:52:20    阅读次数:319
机器学习 第三讲:从矩阵和概率的角度解释最小均方误差函数
最小均方误差函数 第一讲里,我们提到了最小均方误差函数,给出一组有 mm 个样本的训练集,我们希望找到合适的参数 θ\boldsymbol{\theta}, 使得预测值 hθ(x)h_\theta(x) 与目标值尽可能接近。为了估计参数 θ\boldsymbol{\theta}, 我们定义如下的 cost function: J(θ)=12∑i=1m(hθ(xi)?yi)2\begin{equ...
分类:其他好文   时间:2015-04-17 18:17:15    阅读次数:151
Stat1—浅谈协方差矩阵
今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵。统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标...
分类:其他好文   时间:2015-04-17 15:36:50    阅读次数:177
机器学习--kNN算法案例
一、改进约会网站的配对效果        想要预测的目标变量:不喜欢的人、魅力一般的人、极具魅力的人        样本特征:每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数        约会数据信息存放在文本文件datingTestSet.txt中,每个样本数据占据一行,共有1000行。   实现步骤 1、将文本文件中的数据进行解析 ##########...
分类:编程语言   时间:2015-04-17 14:04:25    阅读次数:239
机器学习--k-近邻(kNN)算法
一、基本原理         存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。 我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。 二、算法流程...
分类:编程语言   时间:2015-04-17 11:44:08    阅读次数:162
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!