一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}。而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计参数估计的方法>。
二:最小二乘法:
基本思想:
简单地说,最小二乘的思想就是要使得观...
分类:
其他好文 时间:
2015-04-13 22:58:32
阅读次数:
173
之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具——参数估计。参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程。...
分类:
其他好文 时间:
2015-04-06 11:31:17
阅读次数:
219
Maximum Likelihood 最大似然估计这个算法解决的问题是,当我们知道一组变量的密度分布函数与从总体采样的个体的时候,需要估计函数中的某些变量。假设概率密度函数如下:一般来说,为了计算的方便性,我们会采取对数的方式现在的目标是要使得上面函数取最大值,自变量为Θ,并且可以是一个向量。求上面...
分类:
其他好文 时间:
2015-04-01 23:13:56
阅读次数:
178
本节知识点: 贝叶斯统计及规范化 在线学习 如何使用机器学习算法解决具体问题:设定诊断方法,迅速发现问题 贝叶斯统计及规范化(防止过拟合的方法) 就是要找更好的估计方法来减少过度拟合情况的发生。 回顾一下,线性回归中使用的估计方法是最小二乘法,logistic 回归是条件概率的最大似然估计,朴素贝叶...
分类:
其他好文 时间:
2015-03-13 22:08:45
阅读次数:
417
这种算法用于含有隐变量的概率参数模型的最大似然值估计或极大后验概率估计。第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。M 步上找到的参数估计值被用于下一个 E 步计算中,这个过程不断交替进行。本人不太...
分类:
编程语言 时间:
2015-03-13 18:06:26
阅读次数:
120
已经介绍了统计参数的举估计,下面介绍另外一种估计,并且比较这两者。
对于一组样本,它们无条件是独立的。那么考虑到联合分布函数与边缘分布函数的关系,利用乘法原理,我们发现,样本的联合分布函数是:
(离散)
(连续)
又发现,它们是与总体同分布的:,那么连续的情况还可以写作:
现如今上面的式子中存在未知的参数,。把 L 换做以众多未知参数为元,就得到了:
...
分类:
其他好文 时间:
2015-01-18 13:13:01
阅读次数:
188
极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况?举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估...
分类:
其他好文 时间:
2015-01-16 23:40:51
阅读次数:
238
求解最大似然估计时发现有两种表示方法
from:Gregor Heinrich - Parameter estimation for text analysis
from:http://blog.csdn.net/pipisorry/article/details/42649657
有上述两种方法表示的原因
p(x|theta)不总是代表条...
分类:
其他好文 时间:
2015-01-14 21:27:13
阅读次数:
213
下面是转载http://blog.csdn.net/yanqingan/article/details/6125812博客的内容最大似然估计学习总结1. 作用在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。2. 离散型设为离散型随机变量,...
分类:
其他好文 时间:
2015-01-13 12:15:27
阅读次数:
246
古德-图灵估计可以解决n元语法模型(n-gram)中的数据的稀疏问题。主要的思想是把非零的n元语法的概率降低匀给一些低概率n元语法,以修改最大似然估计与真实概率之间的偏离。是实用比较多的平滑算法。 图:从左到右的变化:把一部分看得见的事件的概率匀给未看见的事件 ...
分类:
其他好文 时间:
2014-12-20 23:16:52
阅读次数:
548