【语义分割】Stacked Hourglass Networks

时间：2019-10-11 01:34:33 阅读：115 评论：0 收藏：0 [点我收藏+]

Stacked Hourglass Networks（级联漏斗网络）

姿态估计（Pose Estimation）是 CV 领域一个非常重要的方向，而级联漏斗网络的提出就是为了提升姿态估计的效果，但是其中的经典思想可以扩展到其他方向，比如目标识别方向，代表网络是 CornerNet（预测目标的左上角和右下角点，再进行组合画框）。

CNN 之所以有效，是因为它能自动提取出对分类、检测和识别等任务有帮助的特征，并且随着网络层数的增加，所提取的特征逐渐变得抽象。以人脸识别为例，低层卷积网络能够提取出一些简单的特征，如轮廓；中间卷积网络能够提取出抽象一些的特征，如眼睛鼻子；较高层的卷积网络则能提取出更加抽象的特征，比如完整的人脸。这些将有助于我们理解级联漏斗模型（Stacked Hourglass Model，简称SHM）为什么有效。

做姿态估计，需要预测身体不同的关节点，手臂这种线条简单的结构，可能在中间卷积网络更容易被识别；而面部这种线条复杂的结构，可能在高层卷积网络才更容易被识别。因此，如果我们只使用最后一层的 feature map，就会造成一些信息的丢失。SHN 的主要贡献——利用多尺度特征来识别姿态。

Single Hourglass Network

技术图片

上图是单个漏斗网络的结构。该结构与全卷积网络和其它设计（以多尺度方式处理空间信息，并进行密集预测）紧密相连。然而漏斗网络与其它设计有什么不同呢？由图可以看出，其自底向上（从高分辨率到低分辨率）处理和自顶向下（从低分辨率到高分辨率）处理之间的容量分布（这里实在不知道怎么翻译。。。）更加对称。另外还有一点需要注意，在自顶向下处理过程中，使用的不是 unpooing（一种常见的上采样操作）或者 deconv layers（可称为去卷积层），而是采用nearest neighbor upsampling（最近邻上采样）和 skip connections。这些操作需要在源码中理解。

Stacked Hourglass Networks

技术图片

上图是单个漏斗网络后面的一些设计以及两个漏斗网络的连接细节。

块1 是上面介绍的单个沙漏网络，在它后面是一个 1 \(\times\) 1 的全卷积网络，即块2；块2 后面分离出上下两个分支（块3 和块4）：上分支（块3）依然是一个 1 \(\times\) 1 的全卷积网络，下分支（块4）为 Heat map（下面重点介绍）。块5 是对块4 进行 channal 上的扩增，以方便块3、块5 和上个漏斗网络的输出进行合并，一起作为当前漏斗网络的输出，同时是下一个漏斗网络的输入。

这里对 Heat map 进行解释：大部分姿态检测的最后一步是对 feature map 上的每个像素做概率预测，计算该像素是某个关节点的概率。

【语义分割】Stacked Hourglass Networks

标签：nal 分类因此 inf shm 渐变 layer 效果思想

原文地址：https://www.cnblogs.com/xxxxxxxxx/p/11651437.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行