标签:性能 训练 预处理 choices 超过 parameter 论文 处理 param
RoBERTa: A Robustly Optimized BERT Pretraining Approach(一种鲁棒优化的 BERT预训练方法)
细读,半天
hypeparameter choices 对我们最终结果影响很大。
提出一项 BERT预处理的replication study:
仔细测量了 许多 key hyperparameters 和 training data size 的影响
发现BERT的训练明显不足,可以匹配或超过其后发布的每个模型的性能。
RoBERTa在 GLUE,RACE,SQuAD上获得好的效果。
论文阅读(11)RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)
标签:性能 训练 预处理 choices 超过 parameter 论文 处理 param
原文地址:https://www.cnblogs.com/douzujun/p/13837707.html