作者已在ReadPaper上回答好了论文十问
https://readpaper.com/paper/3170863103?channel=bili_iclr2022
ICLR 2022线上分享会最后一场的嘉宾是微软亚洲研究院自然语言处理组研究员董力
他带来的论文是
BEiT: BERT Pre-Training of Image Transformers
以下是论文简介:
近年来,大规模自监督预训练在自然语言领域率先取得了突破性进展,带来了全新的“预训练-微调”范式。在GPT、BERT等一系列 “出圈” 工作中,生成式自监督占绝对优势。但在计算机视觉领域,大多数工作沿着对比学习的思路进行推进,而生成式自监督预训练一直没有得到应有的重视。基于这个观察,我们提出了BEiT自监督模型,使用掩码图像建模 (Masked Image Modeling) 这一任务,对Vision Transformers进行预训练。BEiT首次验证了生成式预训练可以取得比对比学习更好的微调结果,并在图像分类以及语义分割上取得了优异结果。更重要的是,通过摆脱对监督式预训练的依赖,BEiT可以高效使用无标注图片将Vision Transformers扩展到巨大的模型规模。相信BEiT在视觉领域所引发的“生成式自监督复兴”,会加速领域到达“the BERT moment of CV”。