标签:coder for 左右 str nta code pre 重要 sed
提出了一个新的语言表示模型(language representation), BERT: Bidirectional Encoder Representations from Transformers。不同于以往提出的语言表示模型,它在每一层的每个位置都能利用其左右两侧的信息用于学习,因此,它具有强大的表示能力,所以,BERT在预训练之后,只需要加一个简单的输出层,并在新结构上fine-tuned 就能获得 SOTA的结果。
语言模型预训练在自然语言处理任务中占据着越来越重要的位置。当前有两种方法将预训练的特征表示用于具体的任务,分别是:1. feature based. 2. fine-tuning
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
标签:coder for 左右 str nta code pre 重要 sed
原文地址:https://www.cnblogs.com/mata123/p/11198075.html