标签:没有 比较 embed mbed 意思 规模 基本 ber ota
跨语言BERT目前还处在大力出奇迹的状态。
首先mBERT发现BERT训练在多语言语料的时候,可以用一种语言微调,测试在另一种语言上。
此后XLM就改进了一下,加入了language embedding。
然后后来发现并没有什么用,还不如增大训练规模来得厉害,于是有了XLM-R,基本上是目前的SOTA了。
目前有一些比较有意思的探索工作,如2004.09205、2005.00052,后面有时间研究一下。
标签:没有 比较 embed mbed 意思 规模 基本 ber ota
原文地址:https://www.cnblogs.com/sqlkrad/p/13166834.html