Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

709
0
2023-11-14 21:42:44
正在缓冲...
5
投币
1
5
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 【论文简述】 本论文介绍了Florence-2,一种具有统一的、基于提示的表示的视觉基础模型,适用于各种计算机视觉和视觉语言任务。与现有的大型视觉模型在迁移学习方面表现出色不同,它们往往难以通过简单的指令执行多样化的任务,这种能力意味着需要处理各种空间层次和语义粒度的复杂性。Florence-2的设计目标是以文本提示作为任务指令,生成以文本形式呈现的理想结果,无论是标题生成、目标检测、定位还是分割。这种多任务学习设置要求大规模高质量的注释数据。为此,我们合作开发了FLD-5B,该数据集包含了5.4亿个全面的视觉注释,涵盖了1.26亿张图像,使用了自动图像注释和模型优化的迭代策略。我们采用了序列到序列的结构来训练Florence-2,以执行多功能和全面的视觉任务。对多项任务进行的广泛评估表明,Florence-2是一个具有空前的零样本和微调能力的强大视觉基础模型候选。 【引导阅读的问题】 Florence-2模型在哪些方面表现出了突出的能力? 【论文链接】 https://arxiv.org/pdf/2311.06242
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。
客服
顶部
赛事库 课堂 2021拜年纪