码迷,mamicode.com
首页 > 其他好文 > 详细

各层的特征的差异性

时间:2021-06-06 19:51:11      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:ati   data   ogre   对比   style   oss   optimize   特征   tac   

motivation

不同层之间的特征分布有什么关系?

settings

STD

Attribute Value
batch_size 128
beta1 0.9
beta2 0.999
dataset cifar10
description STD=STD-sgd-0.1=128=default
epochs 164
learning_policy [82, 123] x 0.1
loss cross_entropy
lr 0.1
model resnet32
momentum 0.9
optimizer sgd
progress False
resume False
seed 1
stats_log True
transform default
weight_decay 0.0002

AT

Attribute Value
attack pgd-linf
batch_size 128
beta1 0.9
beta2 0.999
dataset cifar10
description AT=AT-sgd-0.1=pgd-linf-0.0314-0.25-10=128=default
epochs 100
epsilon 0.03137254901960784
learning_policy [50, 75] x 0.1
loss cross_entropy
lr 0.1
model resnet32
momentum 0.9
optimizer sgd
progress False
resume False
seed 1
stats_log True
steps 10
stepsize 0.25
transform default
weight_decay 0.0005

results

对比STD 和 AT, 有一些结果是预期的, 显然AT的最后logits是变化是很小的, 而STD的变化很大. 不过有意思的是, 其实STD的前面的层, 变化也都不大, 到了pooling前后变化一下子打了起来, 所以如果对pooling前加以限制是否能提高鲁棒性? 感觉会是跷跷板啊.

注: AT比STD多了一层, 是把输入作为第一层添加进去了.

STD

max

技术图片

min

技术图片

mean

技术图片

norm1

技术图片

norm2

技术图片

norminf

技术图片

AT

max

技术图片

min

技术图片

mean

技术图片

norm1

技术图片

norm2

技术图片

normlinf

技术图片

各层的特征的差异性

标签:ati   data   ogre   对比   style   oss   optimize   特征   tac   

原文地址:https://www.cnblogs.com/MTandHJ/p/14855987.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!