苹果开源最新通用多模态视觉模型AIMv2

苹果的研究人员最近开源了最新通用多模态视觉模型AIMv2,它是一系列开放式视觉编码器,包含19个不同参数大小的模型——从300M到2.7B,支持224、336和448像素的分辨率,适用于手机、PC等不同类型的设备。

AIMv2

AIMV2使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。简而言之,就是AIMV2不再局限于仅处理视觉信息的传统模式,而是将图像和文本整合为统一的序列进行预训练。

在这个过程中,图像被划分为一系列不重叠的Patches,形成图像token序列。文本则被分解为子词令牌序列,然后将两者拼接在一起。这种独特的拼接方式使得文本令牌能够关注图像令牌,实现了视觉与文本信息的交互融合。

AIMV2技术架构介绍

AIMV2的核心技术在于其多模态自回归预训练框架。这一框架将图像和文本整合到一个统一的序列中,使得模型能够自回归地预测序列中的下一个标记,无论它属于哪种模态。

在预训练阶段,AIMV2使用一个因果多模态解码器,首先回归图像块,然后以自回归的方式解码文本标记。这种简单的方法有几个巨大技术优势:AIMV2易于实现和训练,不需要非常大的批量大小或特殊的跨批次通信方法;AIMV2的架构和预训练目标与LLM驱动的多模态应用非常吻合,可以实现无缝集成;AIMV2从每个图像块和文本标记中提取训练信号,提供了比判别目标更密集的监督。

在预训练目标方面,AIMV2定义了图像和文本领域的单独损失函数。文本领域的损失函数是标准的交叉熵损失,用于衡量每一步中真实标记的负对数似然。图像领域的损失函数是像素级的回归损失,模型预测的图像块与真实图像块进行比较。整体目标是最小化文本损失和图像损失的加权和。这种损失函数的设计旨在平衡模型在图像和文本两个领域的性能,同时鼓励模型学习到能够准确预测两个模态的表示。

在性能测试方面,AIMV2在多个领域展现出了卓越的性能。

在图像识别方面,AIMV2在ImageNet-1k数据集上达到了89.5%的准确率,这还是在冻结模型主干的情况下完成的。

此外,与其他视觉语言预训练基线模型相比,AIMV2同样展现出了高度竞争的性能。

行业动态

微软开源多模态AI Agent基础模型Magma

2025-2-26 9:32:25

行业动态

OpenAI发布最新模型GPT-4.5

2025-2-28 9:59:32

相关推荐