【科普入门】概率与分布密度贝叶斯理论入门数据挖掘基础入门

时间：2020-05-22 00:15:35 阅读：51 评论：0 收藏：0 [点我收藏+]

标签：有关就是衡量 variable 通过入门数据库 MTA 情况下

概率Probability，先验概率Prior，后验概率Posterior

概率是一个衡量不确定性的工具。

一个例子：我们来估测某一个人的生日是十月份的概率，在没有任何数据样本的情况下，我们可以估计这个概率是\(Pr(October) = \frac{1}{12}\approx8.3%\).

现在假设我们有了几万个样本，通过统计这几万个样本的生日月份，绘制出数据分布图：
技术图片

然后通过计算，根据这个数据样本，发现总共有7%的人的生日是十月份的，这就与没有数据的8.3%的估计不同了。\(Pr(October|D)=7\%\)。

这里的先验概率Prior，就是没有数据样本时候的估计概率，就是8.3%；
后验概率Posterior，就是有了数据样本的估计概率7%。

概率分布

概率分布就是probability distribution
如果这个随机变量X是离散的，就是像上面的例子一样，一月二月三月这样离散的，那么就叫做概率分布probability distribution
如果这个随机变量X是一个连续变量，那么就叫做概率密度分布probability density function

累积分布函数CDF

Cumulative distribution function累积分布函数
按照上面生日的例子来说，累积分布函数就是前面概率的累加，\(Pr(X\leq October)\)，就是这个人的出生的月份在1月到10月之间的概率，就是把概率分布累加起来了。

多元随机变量Multivariate Random Variable

对于多元随机变量，概率分布就叫做联合概率分布joint distribution。如果多元随机变量是连续的，那么就是联合概率密度分布Joint density distribution.

独立independent

对于多元随机变量而言，随机变量之间是要考虑是否独立。两个变量之间没有关系，就是独立。

If there is no relationship between two random variables, they are called independent.
条件独立conditionally independent就是给定一个条件Z，X和Y才是独立的。

这里注意几个概念：

Correlation和relationship不一样，relationship一般就是指是否独立independence。
Correlation是指两个变量之间的相关性，与独立没有必然联系。
因果性causaation，一般也是指relationship和independence。
Correlation可能存在，但是因果性不存在；correlation可能不存在，但是因果性存在，两者之间不存在必然关系。但是一般来说因果性存在，那么correlation应该是存在。

模型与样本

技术图片
从数据挖掘的角度来说，我们并不是用线性回归、神经网络这些模型去拟合样本。上图中的MODEL不是指线性归回这些的模型，而是一种更加本质的东西，是万物运行的机理。我们这些样本就是从这万物机理中获得到的观测数据，我们无法直接获得到这个本质的机理，所以只能通过观测获取样本，然后用样本训练模型去拟合这个本质的机理。