最近微软宣布开源Florence-2,这是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。
Florence-2使用了一个包含1.26亿张图像和54亿个数据标注的超大数据集FLD-5B,这也是其拥有如此多的视觉功能和强大的泛化能力的原因。同时该数据集使用了自动化图像标注技术与模型迭代的结合,通过多个模型协作确保了数据的高质量和多样性。
Florence-2基于Transformer并采用了序列到序列(seq2seq)的学习方法,模型的这一部分由编码器和解码器组成,编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。这种设计不仅提高了模型处理任务的灵活性,也使得模型能够以一种统一的方式来处理各种视觉任务。
其他关键模块如下:
1、图像编码器
主要负责将输入图像转换为视觉token嵌入。Florence-2使用DaViT作为图像编码器,这种编码器通过注意力机制捕捉图像特征,为后续的处理提供了丰富的视觉信息。
2、多模态编码器-解码器
采用标准的Transformer架构,通过自注意力机制实现多模态信息的融合。这种融合使得模型能够更好地理解和生成与视觉内容相关的文本。
3、位置编码
为Florence-提供了区域级别的空间信息,在目标检测和分割等任务中尤为重要,使得模型能够识别图像中的具体区域。
4、统一表示
这是Florence-2的一大创新亮点,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。
研究人员在COCO、ADE20K、Flickr30k Entities等知名基准测试平台对
这是Florence-2进行了综合评估,结果显示,Florence-2在零样本学习和微调学习设置下都展现出了卓越的性能,例如,在COCO目标检测和实例分割任务中,它超越了先前的最佳模型,显示了更强的识别精度和分割能力。
此外,Florence-2在ADE20K语义分割测试任务中也有着优异的表现。尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。