绪论|机器学习推导系列（一）

时间：2020-07-22 21:00:17 阅读：102 评论：0 收藏：0 [点我收藏+]

一、频率派 vs 贝叶斯派

机器学习主要解决从数据中获取其概率分布的问题，通过一些机器学习的算法可以从大量数据中找到一定的规律，从而建立模型来解决实际问题，因此机器学习中主要使用数据来求解其参数：

data:\(X\)
\(X= \left[ \begin{matrix} x_1 & x_2 & \cdots & x_N\ \end{matrix} \right]^T_{N \times p} = \left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1p}\ x_{21} & x_{22} & \cdots & x_{2p}\ \vdots & \vdots & \ddots & \vdots \ x_{N1} & x_{N2} & \cdots & x_{Np}\ \end{matrix} \right]_{N \times p} \)
parameter: \(\theta\)

频率派认为参数\(\theta\)是一个固定的常数（constant），而数据\(X\)是随机变量，而贝叶斯派认为参数\(\theta\)是随机变量（random variable），其服从某个概率分布\(P(\theta)\)，这个概率分布称为先验。

二、频率派

频率派认为参数\(\theta\)是一个固定的常数（constant），频率派常用的求解方法为极大似然估计法：

极大似然估计:
\(\theta_{MLE}=\underset{\theta}{argmax}logP(X|\theta)\)，其中\(L(\theta)=logP(X|\theta)\)。

频率派的求解步骤为：1.建立模型；2.定义损失函数；3.最优化损失函数。

三、贝叶斯派

贝叶斯学派认为参数\(\theta\)是一个随机变量（random variable），其拥有一个概率分布\(P(X)\)，称为先验分布，在取样结果为\(X\)时，其后验概率：

\[\underset{posterior}{\underbrace{P(\theta |X)}}=\frac{\overset{likelihood}{\overbrace{P(X|\theta)}}\overset{prior}{\overbrace{P(\theta )}}}{P(X)} \]

\[其中P(X)=\int_{\theta }P(X|\theta )P(\theta )\mathrm{d}\theta \]

\[所以{P(\theta |X)}\propto P(X|\theta)P(\theta ) \]

最大后验估计MAP:

\[\theta _{MAP}=\underset{\theta}{argmax}P(\theta|X)=\underset{\theta}{argmax}P(X|\theta)P(\theta ) \]

公众号同步更新

技术图片

绪论|机器学习推导系列（一）

标签：最优贝叶斯先验分布随机推导微信公众号 cimage over ons

原文地址：https://www.cnblogs.com/CcQun/p/13362417.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行