https|陈丹琦带着清华特奖学弟发布新成果：打破谷歌BERT提出的训练规律( 二 )

文章插图
然而，在之前的很多NLP模型中，基本都直接采用了PMI-Masking或是Span Masking等更复杂的掩码来训练。
这也说明，NLP大模型的预训练效果不能一概而论，光是训练方法就值得进一步研究。
作者介绍论文的几名作者均来自陈丹琦团队。

文章插图
一作高天宇，目前是普林斯顿大学的二年级博士生，本科毕业于清华大学，曾经获得清华本科特等奖学金。
本科时，高天宇就在刘知远教授团队中搞科研了，期间一共发表了4篇顶会论文（两篇AAAI，两篇EMNLP）。

文章插图
共同一作Alexander Wettig，普林斯顿大学一年级博士生，本硕毕业于剑桥大学，对NLP的泛化能力方向感兴趣。

文章插图
钟泽轩（Zexuan Zhong），普林斯顿大学博士生，硕士毕业于伊利诺伊大学香槟分校，导师是谢涛；本科毕业于北京大学计算机系，曾在微软亚研院实习，导师是聂再清。
通过这一发现，不少NLP大模型说不定又能通过改进训练方法，取得更好的效果了。
论文地址：
https://gaotianyu.xyz/content/files/2022/02/should_you_mask_15-1.pdf
参考链接：
[1]https://twitter.com/gaotianyu1350/status/1493919318668713986【 https|陈丹琦带着清华特奖学弟发布新成果：打破谷歌BERT提出的训练规律】
[2]https://www.cs.princeton.edu/~awettig/
[3]https://www.cs.princeton.edu/~zzhong/
[4]https://gaotianyu.xyz/about/
— 完 —
量子位 QbitAI · 头条号签约