投稿

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

709

0

2023-11-14 21:42:44

未经作者授权，禁止转载

正在缓冲...

【加群】一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 【彩蛋】可以试试/ask + 你的提问和本篇论文进行交流【论文标题】 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 【论文简述】本论文介绍了Florence-2，一种具有统一的、基于提示的表示的视觉基础模型，适用于各种计算机视觉和视觉语言任务。与现有的大型视觉模型在迁移学习方面表现出色不同，它们往往难以通过简单的指令执行多样化的任务，这种能力意味着需要处理各种空间层次和语义粒度的复杂性。Florence-2的设计目标是以文本提示作为任务指令，生成以文本形式呈现的理想结果，无论是标题生成、目标检测、定位还是分割。这种多任务学习设置要求大规模高质量的注释数据。为此，我们合作开发了FLD-5B，该数据集包含了5.4亿个全面的视觉注释，涵盖了1.26亿张图像，使用了自动图像注释和模型优化的迭代策略。我们采用了序列到序列的结构来训练Florence-2，以执行多功能和全面的视觉任务。对多项任务进行的广泛评估表明，Florence-2是一个具有空前的零样本和微调能力的强大视觉基础模型候选。【引导阅读的问题】 Florence-2模型在哪些方面表现出了突出的能力？【论文链接】 https://arxiv.org/pdf/2311.06242

多任务学习

计算机视觉

PaperWeekly 发消息

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

顶部