标签:不能 池化 tail anti 权重 标签 经典 ssi 鼓励
CVPR 2020
1. 以前的分割网络都是只关注像素级别的预测,忽略了像素分组。但本文认为语义分割可以分为explicit pixel-wise prediction and implicit pixel grouping. 。为了解决像素分组的问题,论文引入了SA model,并且其结果还可以更好的指导像素的预测
2. 受Squeeze-and-Excitation Networks【SENet】的启发,该文中SANet扩展SENet并引入了channel attention通过通道之间的相关性把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。
(1)SA模块的注意通道采用平均池化的方法下采样本特征图,得到的是attention convolution channel,然后再上采样到主干网络中,【上采样的目的是为了和RESNet有相同的维度】
(2)SE model不能保持spatial information,而SA model以扩张的FCN作为主干网络,增加了spatial features来进行pixel level prediction【SA保留了spatial information】
Model
w(欧米伽)用于重新标定输入的feature map通道的学习权重。【怎么重新标定的呢?见下图】
备注:1、蓝色-Squeeze操作,Global average pooling用来计算channel-wise的统计量;粉色-Excitation操作;黄色-Reweight操作;
图片来源于:https://blog.csdn.net/Z199448Y/article/details/88866965
可以看到作者语义分割网络一共三个损失,其中Lmask 和Lden计算每个像素的分类损失并求平均,也就是经典的语义分割损失。而Lcat计算的是图像多标签二分类的分类损失
1. 论文作者没有提到用Sigmoid或Softmax计算注意力,而是直接用卷积结果作为注意力
2.grouping在哪里体现? 感觉本质上还是per-pixel classification,只是从softmax变成了每类的二分类。
Squeeze-and-Attention Networks for Semantic Segmentation
标签:不能 池化 tail anti 权重 标签 经典 ssi 鼓励
原文地址:https://www.cnblogs.com/spore/p/13374035.html