标签:归一化 stop 注意 isp level 学习 情况 run logs
目录
5.中心极限定理(Central Limit Theorem, CLT)
对任意两个时间A和B,则有:
P(A , B) = P(A∩B) = P(B)P (A|B) = P(A)P (B|A)
当P(B)>0时,给定B发生时,A的条件概率是:
A1, …, AK为A的一个子集,则对任意事件B,有:
注:可以把B事件发生的概率看作是所有在A条件下发生B的概率的权重之和,P(A)可以看成一个权重。
A1, …, AK为A的一个子集,k=1,2, …,K。若P(B)>0,P(A)>0,则有
随机变量是一个函数,将一个实数值映射到一个试验的每一个输出。即将每一个事件映射到衡量这个事件的每一个数据。是随机事件与数据之间的联系起来的纽带:
f(事件) = 数据
f()称为随机变量。
注:
1)数据是随机变量的具体值
2)统计量是数据或者随机变量的任何函数
3)任何随机变量的函数仍然是随机变量
设X为一个随机变量,x为X的一具体值(即数据),则随机变量X的累积分布函数(cumulative
distribution function, CDF)的定义:
F(X) = P(X ≤ x ) (F:R->[0,1])
CDF包含了随机变量的所有信息。
离散型随机变量的概率函数(probability mass function, pmf))的定义:
p(x) = P(X=x)
性质:
1)对于所有x∈R,p(x) ≥ 0
连续型随机变量X的概率密度函数(probability density function, pdf))的定义:
对所有的x满足:
则称p为概率密度函数。
性质:
1)p(x)不必≤1
2)CDF与pdf间的关系:
单值描述来刻画某个分布的性质:
(1) 位置描述
期望、中值、众数、分位数
(2) 散布程度描述
方差、四分位矩(IQR)
(1)实质
随机变量的平均值,即概率的加权平均,一阶矩。
(2)连续情况下的定义:
(3)离散情况下的定义:
(4)期望的性质
1)线性运算
E(aX + b) = aE(X) + b
2)加法规则
X1,…,Xn是随机变量,a1,…,an是常数,则:
3)乘法规则
X1,…,Xn是相互独立的随机变量,则:
定义:随机变量次数出现最多的位置,即随机变量出现概率最大的位置:
设随机变量X有密度p(x),存在x0满足:
则称x0为随机变量X的众数。
随机变量的累积分布函数(CDF)为0.5时的随机变量的值:
当P(X ≤ x0 ) = 0.5 时,x0称为随机变量X的中值。
定义:分位数(分位函数quantile function)是随机变量X的CDF的反函数:
其中,α∈[0,1],inf表示下界。
性质:
(1)k阶矩
随机变量X的k阶矩定义为 E(Xk)
(2)方差
方差,即为二阶矩:
标准差:
(3)实质
刻画随机变量X围绕均值的离散程度, 方差越大,X的变化越大。
(4)方差的性质
2)a,b是常数,V(aX+b) = a2V(X)
25%分位数到75%分位数之间的区间
n次试验,事件发生的数目X满足二项分布,记为:x ~ Bin(n,θ):
特性:
(1) 期望:μ=nθ
(2) 方差:V=nθ(1-θ)
如果二次分布只进行一次试验,则为Bernoulli分布。Bernoulli分布又名0-1分布,若试验成功则随机变量X取1,否则X取0,成功的概率为θ,即:
P(X=1) = θ,P(X=0) = 1-θ,θ∈[0,1]
参数为θ的Bernoulli分布,记为x ~ Ber(θ):
特性:
(1) 期望:μ=θ
(2) 方差:V=θ(1-θ)
假设某个试验一共可能发生j个事件,第j个事件发生的概率为θj,令θ= (θ1, …,θk),如果一共进行n次试验,X=(x1, …, xk)为随机向量,其中xk表示事件发生次数,X的分布为多项分布:x~Mu(n, θ)。
X ~ Uniform(a, b):
X ~ N (μ, δ2 ):(μ:期望,δ2:方差):
特性:
(1) 高斯分布的CDF:
(2) 当μ=0,δ2=1时,称为标准正态分布,记为Z ~ N(0,1),标准化:
拉布拉斯分布的pdf:
特性:
(1) 期望:μ
(2) 方差:2b2
(3) 拉布拉斯分布比高斯分布更鲁棒,高斯分布对噪声敏感。
x ~ Ga(shape=a, rate=b):
其中Γ(x)为Gamma函数,a为形状参数,b为比率度参数。
或者:
反Gamma分布(反Gamma分布用于正态分布方差的共轭先验):
其中Gamma函数为:
特性:
(1) Gamma分布
1)均值:a/b
2)众数:(a-1)/b
3)方差:a/b2
(2) 反Gamma分布
1)均值:b/(a-1)
2)众数:b/(a+1)
3)方差:b2/(a-1)2(a-2)
其中:
特性:
1)均值:a/(a+b)
2)众数:(a-1)/(a+b-2)
3)方差:(ab)/(a+b)2(a+b+1)
将Beta分布扩展到多维,即得到Dirichlet分布。其pdf为
其中:
注:Dirichlet分布在文档分析中的主题模型LDA(Latent Dirichlet Allocation )用到。
特性:
混合分布(mixture distribution)由一些组件(component)分布构成,由哪个组件分布构成取决于从一个多项分布中采样的结果。每次实验,样本是:
其中p(c)是对各组件的一个多项(Multinomial)分布.
高斯混合模型(Gaussian Mixture Model,GMM)是概率密度的万能近似器(universal approximator),任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近:
(1) 组件p(x|c=k)是高斯分布
(2) 每个组件用自己的参数:均值、方差-协方差矩阵
(3) 组件也可以共享参数:每个组件的方差-协方差矩阵相等
定义:
满足:
随机变量X1,…,XN互相独立且有相同的边缘分布F(记为X1,…,XN ~ F)
的随机变量X1,…,XN,称为独立同分布(Independent Identically Distribution, IID)样本。
诠释:
IID表示X1,…,XN是从相同的分布独立抽样,也称X1,…,XN是分布F的随机样本,若F有密
度p,也可记为X1,…,XN ~ F
假设X1,…,XN为独立同分布样本(IID),其均值和方差分别为μ和δ2。则样本均值:
为一统计量,也是随机变量,因此也可对其进行分布进行描述,该分布称为统计量的抽样分布。
假设X1,…,XN为独立同分布样本(IID),
则样本的期望为:
样本的方差为:
又有随机变量X1,…,XN的期望μ=E(Xi),方差δ2=V(Xi),则有
说明了和分别为μ和δ2的很好估计(无偏估计):样本数N越大,样本均值越接近随机变量实际的均值μ。
独立同分布(IID)的随机变量X1,…,XN,其期望:μ=E(Xi),其方差:δ2=V(Xi)
(1) 样本均值
依概率收敛于期望μ,即对任意ε>0,有:
(3) 实质:当样本的数量足够大时,样本的均值和方差收敛于随机变量的期望和方差。
独立同分布(IID)的随机变量X1,…,XN,其期望:μ=E(Xi),其方差:δ2=V(Xi)
则样本均值:
近似服从期望为μ,方差为δ2/N的正态分布,即
其中,标准差δ可用样本的标准差代替,即
其中
实质:任意随机变量的分布,其样本均值近似服从正态分布。
已知分布的类型,但参数未知。
方法:
(1) 将输入空间划分为M个箱子(bin), 箱子的宽度为h=1/M,则这些箱子为:
(2) 计算落入箱子b中的样本数目Vb,则落入箱子b的比率为:
(3) 则直方图估计为:
其I(x ∈ Bb) 表示落到箱子中的计数值。
直方图估计的缺点:箱中每个样本的权重相等,因此直方图不连续。
每个样本的权重随其到目标点的距离平滑衰减。
其中,参数h称为带宽(bandwidth),K为任意平滑的核函数,其满足:
对样本点施以不同的权,用加权来代替通常的计数。
2.2.4常见的核函数
(1)Epanechnikov 核
使风险最小的核函数,亦被称为抛物面核或者叫做二次核函数。
(2)高斯核
(1)主要思想
在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。
(2)实质
约束:符合已知知识(特征的统计量)
极大熵:关于未知分布最合理的推断 = 符合已知知识最不确定或最随机的推断
(1)统计量
给定数据xN = (x1, …, xN), 假设其统计量为:
例如:
(2)充分统计量
统计量(向量)包含了计算参数所需的所有信息:
只要知道了充分统计量,就可以估计处出样本。
给定训练样本xN = (x1, …, xN) ~ p(x),使用极大熵原理,推导出其密度q(x)的估计:
(1) 得到数据的M个统计量:
(2) 当样本数N增加时,样本均值会接近真正的期望:
我们使用密度函数q(x)来估计p(x),则一个很合理的假设是这两者的期望相同:
(3) 附加另外一个约束:
(4) 已知M+1个已知知识(约束),应该选取符合这些知识但熵值最大的概率分布:
则满足最大熵情况下的q(x)为:
且满足条件:
(5) 使用Lagrange乘子法求解上式:
求解得到:
其中,Z为归一化常数,参数λ= (λ1, …, λM)
注意:
参数可以通过MLE求解。选取的统计量越多,q(x)越接近p(x)。给定的N个有限的数据,M<N,否则会过拟合。通常M=O(logN)。
如果我们取两个统计量:
将得到的指数分布族为高斯分布:
因此高斯分布是给定均值和协方差情况下的最大熵分布。
- tany 2017年10月6日于杭州
标签:归一化 stop 注意 isp level 学习 情况 run logs
原文地址:http://www.cnblogs.com/tan-v/p/7633106.html