标签:统计 isp 电影网站 用户数 -- 理解 开始 技术 algo
标签(空格分隔): 博客园 统计 打分系统 待完成
上一节我们聊了聊用Wilson区间估计来处理小样本估计,但从原理上来说这种方法更像是一种Trick,它没有从本质上解决样本量小的时候估计不置信的问题,而是给估计加上一个和样本量相关的置信下界,然后用这个下界替代估计进行打分。
想要从本质上解决小样本估计不置信的问题,一个更符合思维逻辑的方法是我们先基于经验给出一个预期估计,然后不断用收集到的样本来对我们的预期进行更新,这样在样本量小的时候,样本不会对我们的预期有较大影响,估计值会近似于我们预先设定的经验值,从而避免像小样本估计不置信的问题。
假设\(\theta\)是我们要给出的估计,x是我们收集的数据, \(\pi(\theta)\)是我们基于经验给出的预期。贝叶斯表达式如下:
\[ \begin{align} p(\theta|x) \propto p(x|\theta) * \pi(\theta) \end{align} \]
原理看似简单,但落实到实际应用就会出现几个问题:
让我们继续用之前点赞的例子,一个一个解答上面的问题
样本分布抽象 \(p(x|\theta)\)
我们上一章已经讨论如何对用户的点赞拍砖行为进行抽象。简单来说每一个用户是否点赞\(\sim Bernoulli(p)\),用户间相互独立,所以N个用户对某一篇文章点赞量\(\sim Binomial(n,p) = \left(\! \begin{array}{c} n \\ k \end{array} \! \right)p^k(1-p)^{(n-k)}\)
抽象出了样本的概率分布,,我们要如何用这些样本对我们想要估计的参数p(点赞率)进行更新呢?
预期分布抽象- 共轭分布\(\pi(\theta)\)
这就涉及到另一个概念- 共轭先验分布。名字非常高大上难以记住(刚刚wiki过才找到对应的中文...)。简单解释如果你的先验分布和后验分布一致,它们就分别是共轭先验和共轭后验。这个性质之所以如此吸引人就在于,可以持续用新样本更新先验分布。因为如果分布不变 \(p(\theta|x_i) \propto p(x_i|\theta) * \pi(\theta)\)就可以一直连着乘下去\(x_i , i \in (1,2,..N)\)
有这种性质的分布有几种,而适用于二项分布的就是Beta分布。把先验分布设为beta分布,不断用二项分布的样本数据去更新先验分布,后验分布还是beta分布。
记忆卡片~Beta分布
Beta函数: \(Beta(a,b) = \frac{(a-1)!(b-1)!}{(a+b-1)!}\)
Beta分布概率密度 \(f(x;a,b) = x^{(a-1)}(1-x)^{(b-1)}/Beta(a,b)\)
Beta分布统计值:\(\mu = \frac{a}{a+b}\)
上述我们对用户的行为做了一个最简单的抽象,只包括点赞和拍砖两种行为。现实情况往往更复杂,比如用户打分(五星评分),这种情况我们应该如何使用贝叶斯来得到更加稳健的分数估计呢?
让我们对照着上面二项分布的思路来梳理一下
样本分布抽象 \(p(x|\theta)\)
假设用户的评分从1分-5分,用户最终打了3分,则可以抽象成一个有5种可能的多项分布,用户的选择用向量表示就是 \((0,0,1,0,0)\) 。多项分布的表达式如下
\[
\begin{align}
P(x|\theta) &= \begin{pmatrix} N \\ x_1,...,x_5 \\ \end{pmatrix} \prod_{i=1}^5 \theta_i^{x_i} \score &= \sum_{i=1}^5 p_i * i
\end{align}
\]
其中N是用户量,\(x_i\)是选择打i分的用户数,满足$\sum_{i=1}^5 x_i = N $, \(\theta_i\)是打i分的概率,满足 \(\sum_{i=1}^5 \theta_i = 1\)
我们通过收集到的用户打分来给出打1分-5分的概率,最终用多项分布的期望作为最终打分。
共轭先验
和二项分布一样,现在我们需要找到多项分布的共轭先验分布 - Dirchlet分布,也就是beta分布推广到多项。Dirchlet的分布概率密度如下:
\[
Dir(\theta|\alpha) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_K)} \prod_{k=1}^K \theta^{\alpha_k-1}
\]
其中\(\alpha_0 = \sum_i^K \alpha_k\),当K=2的时候Dirchlet就是beta分布。和Beta分布相同, 其中\(\alpha_i\)可以理解为对打分为i的预期先验。
贝叶斯更新
确定了先验分布和后验分布,我们用和beta相同的方法用收集到的样本对参数进行更新。
\[
\begin{align}
Dir(\theta|D) &\propto P(D|\theta) * Dir(\theta|\alpha)\Dir(\theta|D) &= \frac{\Gamma(\alpha_0 + N)}{\Gamma(\alpha_1 + m_1)...\Gamma(\alpha_K + m_k)} \prod_{k=1}^K \theta^{\alpha_k + m_k-1}\\end{align}
\]
上述的条件概率可以被简单理解为,当我们收集到N个样本其中\(m_i\)个样本打了i分,则打i分的概率会从预置的先验概率\(\frac{\alpha_i}{\sum_i^k\alpha_i}\)被更新为 \(\frac{\alpha_i + m_i}{\sum_i^k\alpha_i + N }\)
有了后验概率,我们就可以得到最终打分如下
\[
\frac{\sum_{i=1}^K i * (\alpha_i + m_i)}{\sum_i^k\alpha_i + N }
\]
贝叶斯平均
针对小样本打分一种很常用的方法叫做贝叶斯平均,许多电影网站的打分方法都来源它。让我们先写一下表达式:
\[
x = \frac{C*m + \sum_{i=1}^K{x_i}}{C+N}
\]
其中C是预置样本量(给小样本加一些先验样本), N是收集的样本量,m是先验的总体平均打分,\(x_i\)是每个用户的打分。贝叶斯平均可以简单理解为用整体的先验平均打分来对样本估计进行平滑。
但其实让我们对上述基于Dirchlet分布给出的打分式进行一下变形 $\sum_{i=1}^K i * \alpha_i = C *m $, \(\sum_{i=1}^K i * m_i = \sum_{i=1}^K x_i\), 会发现两种计算方式是完全一致的!!
针对打分我们分别讨论了时间衰减,以及两种解决小样本估计不置信的方法。 但这只是打分系统很小的一部分,还有一块很有趣的是如何基于偏好调整最终的打分。以后有机会再聊吧
To be continue
Reference
标签:统计 isp 电影网站 用户数 -- 理解 开始 技术 algo
原文地址:https://www.cnblogs.com/gogoSandy/p/11031234.html