其实最后呢 clip这篇文章我最想讲的一个章节呢就是这个第六章 limitation,就是尽管你clip这个模型这么强大,你肯定还是有很多不足的地方,你肯定还是有很多做不了的事情,来分析一下这些不足和这些局限性,其实比这篇文章到底怎么做的,之前那些好的结果是怎么来的,都要有意义的多,因为这些不足和局限性啊才能引发更多的思考,而让整个领域呢向前走。
1.跟sota还差10几个点,性能不够强悍
加上这个章节呢其实也是写论文很好的,或者说必不可少的一个步骤,审稿人呢是很爱看的,而且现在呢有越来越多的审稿人去要求这个作者写一些他们的局限和不足。那接下来呢我们就来看一看作者写了哪些局限性和不足之处。

第一点呢作者说clip啊在很多数据集上啊平均下来看,它是可以和一个比较简单的基线模型打成平手的,也就是我们反复说的那个 imagenet上训练的res50的模型,但是呢在大多数这个数据集上呢这个 rise50的模型呢其实根本就不是state of art,如果跟现在最好的那个模型比起来呢这个 rise50要比state of the art差很远,那imagenet也是如此,嘛 clip zero short就是76.2,跟这个基线的rise50呢打个平手,但是你要跟noise student比啊八十八点几,或者你跟最新最大的那个vision transformer或者mae一比呢都是88 89,甚至都上90了,差了十几个点,所以clip的这个性能啊强,但是也没有强到不可一世的地步。
作者这里说呢文章中也做了实验,就是如果你加大这个数据集,而且加大这个模型,就是你去扩大这个规模,clip的性能呢是还能继续提高的,但是如果你想把这十几个点的差距都弥补上,作者预估呢你还要在现在训练clip这个计算量的基础上要乘以一个1000,那这个代价就太大了。作者在这里说呢即使对open AI来说,用现有的这种硬件条件呢他们也是没办法训练的。所以如果你想走扩大clip规模的这种方式去弥补这十几个点的差距,让clip在所有数据集上呢都达到sota的这个效果的话,那肯定需要有新的方法,然后在这个计算和数据的这个高效性上进行进一步的提高。
2.不好做细分类任务

那另外一个局限之处,作者就是说clip啊在有些数据集上,它的这个 zero shot的结果呢也并不好,比如在某些这种细分类的数据集上,clip的效果呢也是低于这个有监督训练rise50的极限网络的,另外呢不光是这种细分类的任务clip,还无法处理这种就是特别抽象的概念或者说更难的这些任务。比如说去数一数这个图片里到底有多少个物体,或者说在监控视频里区分当前这一帧是异常还是非异常,因为clip模型啊虽然很擅长去分类这个物体,但是他完全不了解什么叫异常,什么叫安全,所以作者最后总结说啊他们坚信啊还有很多很多很多领域,clip这个 zoro short的性能啊其实是跟瞎猜一样的,也就是说在很多情况下呢 clip都不行,它并不是一个万能的方法。
3.不能处理极度 分布偏移的情况

那第三个局限性呢作者这里,说clip虽然说放泛化做得很好,对于很多这种自然图像的这个分布偏移,模型还是相对稳健的,但是呢如果你在做推理的时候,这个数据真的跟你训练的数据啊差得非常远,就这个数据啊真的已经out of distribution了,那 clip的模型啊泛化照样也很差。作者这里举了一个例子,就是在mnist的这个数据集上,clip的准确率只有88%,那作者说这个就尴尬了,因为MS的这个数据集特别小,而且是几十年前就提出来的,随随便便一个分类器在上面都有99%的准确度,而且就连一个超级简单的一个极限模型,就这里说的啊自直接在这个像素点上去做了logistic regression,最后的结果呢就比zero shot上的clip还要高,这个呢在作者看来,甚至在我们读者看来呢其实都是很不可思议的一件事情。

然后作者呢就深入的研究了一下,他呢就用各种去重的方法去看看他们搜集的这个4个亿图片的数据集里呢到底有没有跟MNIST的相似的图片。结果发现呢非常神奇的是,即使他们的训练数据集啊有4亿个训练样本,但是呢就是没有跟这个 MNIST的数据长得像,因为MNIST就是123456789这种合成的数据集,嘛所以跟自然图像呢还是有很大差距的。所以这就导致MNIST的数据对于clip模型来说呢就是一个out of distribution的数据。所以这其实也就从侧面反映clip这个模型啊也没什么大不了的,它跟普通的这些深度学习的模型啊都非常的脆弱。
4.还是从给定类别去分类

然后第四个局限性呢作者这里就是说做完clip呢可以去做这种zero short的分类任务,但他呢还是从你给定的那些类别里去做的,选择那相比而言呢一种更灵活的方式就直接去生成图像的这个标题,那这样的话呢一切都是这个模型在处理,所有的呢都自动化,它是可以给你生成一个新的输出的,而不是像clip一样,你得给他一个新的类别,然后他告诉你跟这个图片类似不类似,所以作者这里呢还是不忘open AI的老本行啊还是想把一切呢都gpt化,都做成生成式的模型(前面是预测型),但可惜呢受限于这个计算资源的问题,他们没办法去训练一个图像题目生成的这个基线网络。
作者说啊以后呢可能会有这么一个简单的想法,就是说把这个对比学习的目标函数和这个生成式的目标函数呢合在一起,那这样的话呢你就有可能把两个方法的优势呢结合在一起,就是既有了对比学习这个训练模型的这个高效性,又有了这个生成式模型的这个灵活性。
5.利用数据不高效,需要大量数据

接下来呢作者又讨论了第五个局限性,就是说clip呢对这种数据的利用呢并不是很高效,就是他还跟别的这个深度学系里的网络一样,需要大量大量的数据去投喂作者这里形象的描述了一下他们这个数据集啊到底有多大,那在他们训练的过程中,他们一共训练了32个epoch,那每个一park要过4亿个图片,嘛所以说最后一共就相当于是跑了128亿张图片,那如果我们这个 data loader的速度呢是每秒钟出一张图片,那这个模型啊要把所有的这些图片全看完,就需要花405年的时间,所以作者感叹说啊这用的数据啊实在是太多了,如果能减少一下这个数据用量呢那当然是极好的,那怎么减少这个数据用量?
呢简单一点的方式当然就是做数据增强了。那另外呢最近还有两种比较常见的方式,一种呢就是用自监督的方式,另一种呢就是用伪标签的方式,这两种方式呢都能比监督学习有更好的这个数据利用效率。
6.用了imagenet数据集做调参 参考

那作者接下来说的第六个局限性呢还跟数据有关,但是呢是跟下游任务的这个测试数据集有关。它的意思是说呢虽然我整篇文章都在说zero shot zero shot啊 clip做zero shot的效果最好,但是呢在我们整个研发clip的这个过程之中,我们为了能跟别人呢去做这种公平的比较,也为了得到一些回馈,所以我们往往呢是在整个这个测试数据集上就不停的做测试,比如说clip这里,imagenet上的分这么高,它并不是第一次训练出来分就这么高的,它肯定是测试了很多变体,做了很多超参的调整,最后才定下的这套网络结构和这套超参数,而在整个这个研发的过程中,他其实每次都用imagenet这个测试集呢去做了指导,所以这里面呢已经无形之中就已经带入了偏见了,而且呢并不是真正的这种zero short的情况。
另外呢作者还说他们整篇文章里啊不停的用到27个数据集去做测试,但其实数据集千千万万,那为什么只选这27个呢?这27个也不一定就具有代表性,所以整个clip的这个研发过程呢也是跟这27个数据集息息相关的。那最后作者总结了一下,就是说如果能真的在创建一个新的数据集,而这个数据集呢就是用来测试各种各样的这个 zero shot上的迁移的能力的,那就太好了。如果只是像他们现在一样简单的啊重复使用,已有的这种做有监督训练的数据集,就难免会有这种局限性。
7.可能模型有数据偏见

那第七个局限性啊就是open A I经常说的这个局限性了,因为他们的这个数据啊都是从网上爬的,不论是图片还是文字,那这些爬下来的图片文本堆呢基本是没有经过清洗的,就是既没有被过滤过,也没有被审查过,所以这就导致啊最后学得的这个 clip模型它很有可能就带了一些社会上的这种偏见,比如说性别、啊肤色、啊宗教,所以作者这里呢还专门写了一个第七章去讨论了一下clip,模型有可能带来的这种巨大的社会影响力,以及它模型里可能隐藏的这种偏见,有可能会带来的这种不当的使用,

8.few shot可能更好,但不是本文目标
那最后呢作者还提到了另外一个局限性,那就说啊虽然整篇论文他们都在宣传啊 clip这个工作到底有多么的灵活,利用这种自然语言处理到底有多么的牛逼,但其实呢它还是有局限性的,因为很多很复杂的这种任务或者是很复杂的这种概念,其实即使用语言也无法描述的,如果你能在做下游任务做这种泛化的时候,提供一些这种训练样本还是非常有帮助的。
但可惜呢 clip这个模型的提出啊并不是为了few shot的这种情况而提出的,也不是为了它优化的,所以就导致了一个非常奇怪的现象。之前我们也看过,就是当给clip提供了一些训练样本, one shot,two shot,four shot的时候,它这个结果反而还不如直接用zero shot,这个就很耐人寻味了。你不给他提供训练样本,它反而效果很好,你给他提供一些训练样本,它反而效果还差了,那这个跟我们人的学习呢就截然不同了。因为在第四个章节的时候,我们跟人的那个表现也做过对比,如果你给这些参加实验的人呢就看一张图片,它这个分类的准确度呢最后都会大幅提升,而不可能是说你给他更多的训练样本,那反而这个分类的准确度还下降了,所以说啊之后的这个工作还有很多,怎么能让clip既在这种zero shot的情况下工作得很好,也能在给他提供一些训练样本的时候,他few shot做的也很好。