码迷,mamicode.com
首页 > 其他好文 > 详细

soft-argmax将热点图转换为数值坐标应用于人体姿态估计

时间:2018-08-24 02:10:50      阅读:436      评论:0      收藏:0      [点我收藏+]

标签:一体化   意义   https   display   pos   ural   argmax   产生   work   

人体姿态估计常用预测热点图的方法预测x和y的坐标值,热点图可以理解为概率响应图,通过求热点图最大值所在位置坐标,就可以得到该关键点的位置坐标

热点图法的缺点

  1. 量化产生的精度损失:卷积网络下采样使模型的计算量减小,输出可能是输入图像大小的四分之一,而坐标经过量化[x/n]再还原回去,就不可避免的产生偏差

  2. 监督热点图标签,不是直接的监督坐标,有一定问题,如下图。(为什么不直接回归坐标呢?实验证明直接输出坐标不如监督热点图,如何结合起来?于是有了soft-argmax

技术分享图片

soft-argmax


思想就是如何通过热点图,用某种计算方法得到坐标。

在文献【2】中叫积分法,图像中的积分是累加和,我的理解就是加权求和。下面按照文献【3】中的描述具体介绍

  1. 对关键点的热点图作归一化,目的是使得下一步的加权求和范围在0-1之间

\[\Phi \left ( h_{i,j} \right )=\frac{e^{h_{i,j}}}{\sum_{k=1}^{M}\sum_{l=1}^{H}e^{h_{k,l}}}\]

  1. 分别用x,y两个与热点图大小一样的卷积核对归一化后的热点图加权就和,等价于对应元素相乘再相加,等价于卷积运算

技术分享图片

形象的看一下x和y的参数W是怎样的,颜色渐变,白色表示权重大,实际上就是反应坐标位置。

总结:概率响应图上个响应值利用对应坐标作为权值,加权求和...

技术分享图片
技术分享图片

优缺点


优点:一定意义上缓解了量化精度损失问题,可以直接学习热点图和位置坐标,学习的目标更直接。网络可以直接输出所需目标,一体化程度高。

个人的实验发现,实现soft-argmax可以采用分组卷积,即输入是k个通道(k表示关键点个数),则分组为k,分组卷积指通道上不做卷积的聚合。

缺点:会增加训练所需时间,毕竟加了一层运算,如果输入热点图的尺寸较大如128,应该是会增加一点时间的。测试时间影响不大,因为没有soft-argmax也要用argmax,所以测试速度应该影响不大。

参考文献

Numerical Coordinate Regression with Convolutional Neural Networks
Integral Human Pose Regression
Human Pose Regression by Combining Indirect Part Detection and Contextual Information

soft-argmax将热点图转换为数值坐标应用于人体姿态估计

标签:一体化   意义   https   display   pos   ural   argmax   产生   work   

原文地址:https://www.cnblogs.com/xiongzihua/p/9527276.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!