码迷,mamicode.com
首页 > 系统相关 > 详细

Pattern Recognition And Machine Learning (模式识别与机器学习) 笔记 (1)

时间:2015-12-10 21:23:20      阅读:434      评论:0      收藏:0      [点我收藏+]

标签:

By Yunduan Cui

这是我自己的PRML学习笔记,目前持续更新中。

第二章 Probability Distributions 概率分布

本章介绍了书中要用到的概率分布模型,是之后章节的基础。已知一个有限集合 \(\{x_{1}, x_{2},..., x_{n}\}\), 概率分布是用来建立一个模型:\(p(x)\). 这一问题又称作密度估计( density estimation ).

主要内容
1. Binomial and Multinomial distributions 面向离散随机变量的伯努利分布与多项分布
2. Gaussian distribution 面向连续随机变量的高斯分布
3. 针对高斯分布的参数估计:频率学派/贝叶斯学派
4. 共轭先验,以及各个概率分布的统一
5. 参数/无参数方法

2.1 Binary Variables 二进制变量

  • 伯努利分布(Bernoulli distribution)

定义二进制随机变量 \(x \in \{0, 1\}\),伯努利分布满足:

\(Bern(x|\mu)=\mu^{x}(1-\mu)^{1-x}\)

其中 \(\mu\) 是控制该分布的参数,符合:

\(p(x=1|\mu)=\mu\).

伯努利分布的期望与方差满足:

\(\mathbb{E}[x] = \mu\)
\(var[x] = \mu(1-\mu)\)

当有一个观测集合 \(\mathcal{D}=\{x_{1}, x_{2},..., x_{n}\}\) 并假设观测之间都是相互独立的,我们就能得到一个关于 \(\mu\) 的似然函数(likelihood function):

\(p(\mathcal{D}|\mu)=
\displaystyle{\prod_{n=1}^{N}}p(x_{n}|\mu)=\displaystyle{\prod_{n=1}^{N}}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\)

在求最大似然函数时,这种形式非常不方便运算,我们对\(p(\mathcal{D}|\mu)\)的对数式进行计算(转化连乘为连加):

\(\ln{p(\mathcal{D}|\mu)}=
\displaystyle{\sum_{n=1}^{N}}\ln{p}(x_{n}|\mu)=\displaystyle{\sum_{n=1}^{N}}\{x_{n}\ln{\mu}+(1-x_{n})\ln{(1-\mu)}\}\)

求其最大值,得到 \(\mu_{ML}=\frac{1}{N}\displaystyle{\sum_{n=1}^{N}}x_{n}\) 这就是在该观测集上伯努利分布的最大似然估计。等价于经验风险最小化

最大似然估计也有缺陷,假如观测集合太少,过拟合就极易发生(比如投掷硬币三次若都是头像朝上的话,最大似然估计将直接判断向上的概率为\(100\%\),这显然不对)。 我们可以通过引入先验 \(\mu\) 来避免这种情况。变成了最大后验估计即结构风险最小化——详见后面的贝塔分布

  • 二项分布(binomial distribution)

伯努利分布中观测集合 \(\mathcal{D}\) 是给定的,当我们仅知道 \(x=1\) 的观测次数是 \(m\) 时,我们能推导出二项分布:

\(Bin(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}=\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}\)

这是关于某事件发生多少次的概率。二项分布的期望与方差满足:

\(\mathbb{E}[m] = \displaystyle{\sum_{m=0}}mBin(m|N,\mu)=N\mu\)
\(var[m] = \displaystyle{\sum_{m=0}}(m-\mathbb{E}[m])^{2}Bin(m|N,\mu)=N\mu(1-\mu)\)

  • 贝塔分布(beta distribution)

这一节考虑怎么引入先验信息到二进制分布中,并介绍共轭先验(conjugacy prior)

贝塔分布是作为先验概率分布被引入的,它由两个超参数 \(a, b\) 控制。

\(Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)

\(\Gamma(x)\equiv \int_{0}^{\infty}u^{x-1}e^{-u}du\)

其中的系数保证了贝塔分布的归一性 \(\int_{0}^{\infty}Beta(\mu|a,b)d\mu=1\). 贝塔分布的期望与方差满足:

\(\mathbb{E}[\mu] = \frac{a}{a+b}\)
\(var[m] = \frac{ab}{(a+b)^{2}(a+b+1)}\)

待续

Pattern Recognition And Machine Learning (模式识别与机器学习) 笔记 (1)

标签:

原文地址:http://www.cnblogs.com/iamdaqiao/p/PRML_1.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!