论文阅读 | Universal Adversarial Triggers for Attacking and Analyzing NLP

时间：2019-09-19 00:50:03 阅读：108 评论：0 收藏：0 [点我收藏+]

标签：维数运行初始化任务并且 batch 计算机视觉问题 rsa

[code] [blog]

主要思想和贡献

以前，NLP中的对抗攻击一般都是针对特定输入的，那么他们对任意的输入是否有效呢？

本文搜索通用的对抗性触发器：与输入无关的令牌序列，当连接到来自数据集的任何输入时，这些令牌序列触发模型生成特定的预测。

例如，触发器导致SNLI隐含精度从89.94%下降到 0.55%， 72%的“为什么”问题在SQuAD中回答“杀死美国人”，而gps -2语言模型即使在非种族背景下也会输出种族主义。

本文设计了一个基于令牌的梯度引导搜索。搜索迭代地更新触发序列中的标记，以增加批量样本的目标预测的可能性(第2节)。我们发现，当将文本分类、阅读理解和条件文本生成的输入连接在一起时，短序列成功地触发了目标预测。

例如：

技术图片

通用的对抗触发器

不需要白盒的方法攻击目标模型。

最后，通用攻击是一种独特的模型分析工具，因为与典型攻击不同，它们是上下文无关的。因此，它们突出了通过模型学习到的一般输入-输出模式。我们利用这一点来研究数据集偏差的影响，并确定由模型学习的启发式(第6节)。

攻击模型和目标

技术图片

触发器搜索算法

首先，选择触发器长度：长的更有效，短的更隐蔽。接下来，通过重复单词“the”、子单词“a”或字符“a”来初始化触发器序列，并将触发器连接到所有输入的前端/末端。

然后，我们迭代地替换触发器中的令牌，以最小化对批量示例的目标预测的损失。为了确定如何替换当前的令牌，我们不能直接应用计算机视觉中的对抗攻击方法，因为令牌是离散的。相反，我们构建在HotFlip (Ebrahimi et al.， 2018b)的基础上，这是一种近似于使用梯度替换标记的效果的方法。为了应用这种方法，将触发器标记t_adv嵌入到一个热向量中形成e_adv。

技术图片