码迷,mamicode.com
首页 > 其他好文 > 详细

bert 压缩优化方向的论文

时间:2020-07-10 11:26:30      阅读:54      评论:0      收藏:0      [点我收藏+]

标签:pen   self   led   ref   stand   image   task   原来   info   

bert 瘦身版本,基于知识蒸馏:

https://arxiv.org/abs/1909.10351

 

蒸馏的其他用法

因为蒸馏只是一种将知识提取注入的技巧,所以它不光可以用来给模型减肥。也可以让模型大小保持不变,但通过从集成模型蒸馏,或者其他一些蒸馏技巧加强单一模型的表现。可以参考下面两个论文:

论文:Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

论文:BAM! Born-Again Multi-Task Networks for Natural Language Understanding

 

用动态轻量卷积替代self-attention的工作

在NMT达到同样质量的前提下 提升了训练速度,长句子下 由原来的长度平方复杂度,降低到了长度线性复杂度,应该是ICLR 2019上的

https://openreview.net/pdf?id=SkVhlh09tX

 

用超低精度压缩 BERT,量化

提出 group-wise quantization 加上基于二次阶Hessian信息的混合方法:

论文:Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

 

优化方式汇总论文:

技术图片

 

bert 压缩优化方向的论文

标签:pen   self   led   ref   stand   image   task   原来   info   

原文地址:https://www.cnblogs.com/tfknight/p/13278153.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!