旋转和掩模图像建模:一种优越的自监督分类方法

333
0
2023-12-04 12:08:17
正在缓冲...
13
4
5
分享
在基于Transformer的视觉模型中,当前的主流自监督方法为Masked Image Modeling(MIM)。MIM主要通过随机mask和进行重建来构建自监督假任务。然而,在所有的MIM方法中,未mask的图像块都不参与损失计算。这限制了预训练模型在小数据集上的学习能力,使其无法在有限的数据量中学习到足够的知识用于后续微调。我们提出了拥有两个假设任务的RotMIM方法,它保留了MIM中的任务,同时还利用未mask的图像块进行设计了一个新的任务(在编码器中将未mask的图像块进行随机旋转,并在解码器中预测其旋转角度)。这种双任务方法,使模型可以在小数据集上充分利用数据。此外,为了适用RotMIM,我们还提出了一种新的数据增强方法FeaMix。
一群热爱计算机视觉、人工智能、深度学习的同学
接下来播放
自动连播
客服
顶部
赛事库 课堂 2021拜年纪