码迷,mamicode.com
首页 > 其他好文 > 详细

Variational Image Compression With a Scale Hyperprior(ICLR 2018) - Video Compression Paper Reading

时间:2020-07-05 13:53:21      阅读:95      评论:0      收藏:0      [点我收藏+]

标签:之间   factor   耦合   方法   均值   参数   phi   没有   nal   

对变分推理做了点拓展(待精读)

\(\hat{y}\)间存在明显的空间相关性(spatial dependencies)。它们的尺度在空间上是耦合的。对一组目标变量之间的依赖关系进行建模的标准方法是引入假定目标变量独立的潜在变量,因此本文引入了一组额外的随机变量\(\tilde{z}\)来捕捉空间相关性

将每个元素\(\tilde{y}_i\)建模为均值为0,标准差为\(\sigma_i\)的高斯分布。其中标准偏差通过用参数转换\(h_s\)\(\tilde{z}\)进行预测

\[\begin{aligned} p_{\tilde{\boldsymbol{y}} \mid \tilde{\boldsymbol{z}}}\left(\tilde{\boldsymbol{y}} \mid \tilde{\boldsymbol{z}}, \boldsymbol{\theta}_{h}\right)=& \prod_{i}\left(\mathcal{N}\left(0, \tilde{\sigma}_{i}^{2}\right) * \mathcal{U}\left(-\frac{1}{2}, \frac{1}{2}\right)\right)\left(\tilde{y}_{i}\right) \& \text { with } \tilde{\boldsymbol{\sigma}}=h_{s}\left(\tilde{\boldsymbol{z}} ; \boldsymbol{\theta}_{h}\right) \end{aligned}\]

也就是在\(y\)的顶部简单的叠加另一个参数变换\(h_a\)来扩展推理模型

\[\begin{aligned} q\left(\tilde{\boldsymbol{y}}, \tilde{\boldsymbol{z}} \mid \boldsymbol{x}, \boldsymbol{\phi}_{g}, \boldsymbol{\phi}_{\boldsymbol{h}}\right)=& \prod_{i} \mathcal{U}\left(\tilde{y}_{i} \mid y_{i}-\frac{1}{2}, y_{i}+\frac{1}{2}\right) \cdot \prod_{j} \mathcal{U}\left(\tilde{z}_{j} \mid z_{j}-\frac{1}{2}, z_{j}+\frac{1}{2}\right) \& \text { with } \boldsymbol{y}=g_{a}\left(\boldsymbol{x} ; \boldsymbol{\phi}_{g}\right), \boldsymbol{z}=h_{a}\left(\boldsymbol{y} ; \boldsymbol{\phi}_{h}\right) \end{aligned}\]

由于对超先验没有先验知识,因此我们现在使用先前用于\(\tilde{y}\)的非参数、全因子密度模型(non-parametric, fully factorized density model)对\(\tilde{z}\)进行建模

\[p_{\tilde{\boldsymbol{z}} \mid \boldsymbol{\psi}}(\tilde{\boldsymbol{z}} \mid \boldsymbol{\psi})=\prod_i \left(p_{z_{i} \mid \boldsymbol{\psi}^{(i)}}\left(\boldsymbol{\psi}^{(i)}\right) * \mathcal{U}\left(-\frac{1}{2}, \frac{1}{2}\right)\right)\left(\tilde{z}_{i}\right) \]

其中向量\(\psi^{(i)}\)封装了每个单变量分布\(p_{z_i|\psi^{(i)}}\)(统称为\(\psi\))的参数。

该模型的损失函数为:

\[\begin{aligned} {\mathbb{E}_{\boldsymbol{x} \sim p_{\boldsymbol{x}}} D_{\mathrm{KL}}\left[q \| p_{\tilde{\boldsymbol{y}}, \tilde{\boldsymbol{z}} \mid \boldsymbol{x}}\right]=\mathbb{E}_{\boldsymbol{x} \sim p_{\boldsymbol{x}}} \mathbb{E}_{\tilde{\boldsymbol{y}}, \tilde{\boldsymbol{z}} \sim q}\left[\log q(\tilde{\boldsymbol{y}}, \tilde{\boldsymbol{z}} \mid \boldsymbol{x})-\log p_{\boldsymbol{x} \mid \tilde{\boldsymbol{y}}}(\boldsymbol{x} \mid \tilde{\boldsymbol{y}})\right.}{\left.-\log p_{\tilde{\boldsymbol{y}} \mid \tilde{\boldsymbol{z}}}(\tilde{\boldsymbol{y}} \mid \tilde{\boldsymbol{z}})-\log p_{\tilde{\boldsymbol{z}}}(\tilde{\boldsymbol{z}})\right]+\text { const. }} \end{aligned}\]

同样,第一项是零,因为\(q\)是单位宽度均匀密度的乘积。第二项(似然)包含了失真。第三项和第四项分别表示编码\(\tilde{y}\)\(\tilde{z}\)的交叉熵。与传统的变换编码类似,第四项可以看作是表示边缘信息。

Variational Image Compression With a Scale Hyperprior(ICLR 2018) - Video Compression Paper Reading

标签:之间   factor   耦合   方法   均值   参数   phi   没有   nal   

原文地址:https://www.cnblogs.com/hhhhhxh/p/13245762.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!