论文阅读 | COMPRESSING BERT: STUDYING THE EFFECTS OF WEIGHT PRUNING ON TRANSFER LEARNING

时间：2020-03-13 18:58:15 阅读：49 评论：0 收藏：0 [点我收藏+]

模型压缩相关

本文研究对BERT的剪枝。结论：BERT可以在预训练时进行一次修剪，而不是在不影响性能的情况下对每个任务进行单独修剪。

针对不同水平的修剪：

低水平的修剪(30-40%)根本不会增加训练前的损失或影响下游任务的转移。中等水平的修剪会增加训练前的损失，并阻止有用的训练前信息传递给下游任务。这些信息对每个任务不是同等级别地有用; 任务随训练前损失线性下降，但速度不同。根据下游数据集的大小，高水平的修剪可能会通过阻止模型拟合下游数据集而进一步降低性能。最后，我们观察到，在特定任务上微调BERT并不能提高它的修剪能力，也不能显著地改变修剪的顺序。

几个词解释剪枝：Compression, Regularization, Sparse Architecture Search，压缩，正则化，稀疏结构搜索。

权重修剪：

过程：

1. 选择一个目标的权重比例裁剪, 如50%。

2. 计算一个阈值，使50%的权重大小低于该阈值。

3. 删除这些权重。

4. 继续训练网络恢复精确度的损失。

5. 可选地，返回到步骤1并增加修剪的权重的百分比。

可以对所有网络参数整体计算阈值并进行剪枝(全局剪枝)，也可以对每个权值矩阵分别进行剪枝(矩阵-局部剪枝)。这两种方法将修剪到相同的稀疏性，但在全局修剪中，稀疏性可能不均匀地分布在权重矩阵中。

[相关tensorflow package]

实验

BERT-Base由12层编码器组成，每一个都包含6 个可剪枝矩阵：4个多头self-attention和2层的前馈网络的输出。

self-attention第一层输入为key query value。虽然每个注意头都有一个单独的键、查询和值矩阵，但实现通常会将每个注意头的矩阵堆叠起来，结果只有3个参数矩阵: 一个用于键，一个用于值，一个用于查询。我们分别对这些矩阵进行修剪，计算每个矩阵的阈值。我们还修剪了线性输出的matrix，它将每个注意力头的输出合并为一个单独的embedding。

修剪Word embedding 的方式和修剪FFN(feed-foward networks) 和self-attention的参数的方式相同。如果一个词的嵌入值接近于0，我们可以假设它是0，并将其存储在一个稀疏矩阵中。这是很有效的，因为token/subword embeddings往往占自然语言模型内存的很大一部分。在BERT BASE中，embedding的占模型内存的21%。