码迷,mamicode.com
首页 > 移动开发 > 详细

论文阅读(11)RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

时间:2020-10-19 22:16:31      阅读:49      评论:0      收藏:0      [点我收藏+]

标签:性能   训练   预处理   choices   超过   parameter   论文   处理   param   

RoBERTa: A Robustly Optimized BERT Pretraining Approach(一种鲁棒优化的 BERT预训练方法)

细读,半天

Motivation

  • hypeparameter choices 对我们最终结果影响很大。

  • 提出一项 BERT预处理的replication study:

    • 仔细测量了 许多 key hyperparameters 和 training data size 的影响

    • 发现BERT的训练明显不足,可以匹配或超过其后发布的每个模型的性能。

    • RoBERTa在 GLUE,RACE,SQuAD上获得好的效果。

论文阅读(11)RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

标签:性能   训练   预处理   choices   超过   parameter   论文   处理   param   

原文地址:https://www.cnblogs.com/douzujun/p/13837707.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!