Raki的读paper小记:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
Abstract & Introduction & Related Work
- 研究任务
- 预训练语言模型
- 已有方法和相关工作
- 面临挑战
- 越来越大的模型需要更多的计算资源和时间去训练
- 创新思路
- 因子化嵌入参数化
- 跨层参数共享
- 用SOP替换NSP
- 实验结论
- sota
ALBERT用了两个很重要的技术来减少参数规模
THE ELEMENTS OF ALBERT
MODEL ARCHITECTURE CHOICES
Factorized embedding parameterization
BERT,RoBERTa,XLNet用的都是wordpiece embedding,E的大小与隐藏层的大小H相联系
出于建模和实际的原因,这一决定似乎是次优的,具体如下
从建模的视角,wordpiece embedding意思是去学习上下文独立的表示,但是隐藏层的embedding是学习上下文依赖的表示
正如关于语境长度的实验所表明的那样(Liu等人,2019),类似BERT的表征的力量来自于使用语境来提供学习这种依赖语境的表征的信号。因此,将WordPiece嵌入大小E与隐藏层大小H分开,可以使我们更有效地使用总的模型参数,这是由建模需求决定的,H>>E
因此把embedding矩阵从 O ( V × E ) O(V \times E) O(V×E) 分解成 O ( V × E + E × H ) O(V \times E + E \times H) O(V×E+E×H),E<<H。
我们选择对所有的wordpiece使用相同的E,因为与whole-word embedding相比,它们在文档中的分布更加均匀,在whole-word embedding中,不同的词有不同的嵌入大小(Grave等人(2017);Baevski & Auli(2018);Dai等人(2019))是重要的
Cross-layer parameter sharing
ALBERT的默认跨层共享所有参数
Inter-sentence coherence loss
我们推测NSP任务作用不大是因为它过于简单,因为负样例是从不同的文档采样过来的
我们坚持认为,句间建模是语言理解的一个重要方面,但我们提出了一个主要基于连贯性的损失。也就是说,对于ALBERT,我们使用了一个句序预测(SOP)损失,它避免了主题预测,而是专注于句子间的连贯性建模。SOP损失使用与BERT相同的技术(来自同一文件的两个连续片段)作为正样例,并使用相同的两个连续片段作为负样例,但其顺序被调换。这迫使模型学习关于话语层面一致性属性的更精细的区分。正如我们在第4.6节中所显示的,事实证明NSP根本不能解决SOP的任务(也就是说,它最终学习了更容易的话题预测信号,并在SOP任务中表现为随机水平),而SOP可以在合理的程度上解决NSP的任务,大概是基于分析错位的一致性线索。因此,ALBERT模型持续改善了多句子编码任务的下游任务表现
MODEL SETUP
一些超参数的设定
EXPERIMENTAL RESULTS
DISCUSSION
虽然ALBERT-xxlarge的参数比BERT-large少,得到的结果也明显更好,但由于其结构更大,计算成本更高。因此,下一步的重要工作是通过稀疏注意(Child等人,2019)和块状注意(Shen等人,2018)等方法,加快ALBERT的训练和推理速度。一个正交的研究路线,可以提供额外的表示能力,包括硬例挖掘(Mikolov等人,2013)和更有效的语言建模训练(杨等人,2019)。此外,尽管我们有令人信服的证据表明,句子顺序预测是一项更加持续有用的学习任务,可以带来更好的语言表征,但我们假设,可能有更多的维度尚未被目前的自我监督训练损失所捕获,可以为所产生的表征创造额外的表征能力
Remark
减少参数量,而且work,是好文明!
因篇幅问题不能全部显示,请点此查看更多更全内容