最近,微软在官网开源了多模态AI Agent基础模型——Magma。与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。
Magma模型的技术架构具有显著的创新性。它采用了先进的深度学习算法,能够自动学习和提取多模态数据中的特征,实现不同模态之间的信息互补和协同。
Magma架构介绍
Magma使用了视觉与大语言模型的混合架构,是其实现多模态能力的关键所在。视觉模块使用了ConvNeXt,能够将输入的图像和视频数据编码为一系列离散的tokens。这些标记捕捉了视觉信息的核心特征,包括物体的形状、颜色、位置以及它们之间的空间关系。在编码过程中,ConvNeXt不仅关注单个图像帧的内容,还能处理视频中的时间序列信息,从而为模型提供丰富的视觉上下文。
在处理动态视频时,能连贯地跟踪画面中的物体运动和场景变化,生成有序的标记序列,为后续的处理提供坚实的基础。这些编码后的视觉标记会与编码任务描述的语言标记,一起输入到一个仅解码器的大语言模型中,然后将视觉标记和语言标记结合起来,生成统一的、语义丰富的表示,使得模型能够理解用户的需求,并将其与视觉场景联系起来。
Magma模型的自回归解码过程是实现从多模态理解到行动转化的核心机制。在解码阶段,模型根据输入的视觉和语言标记序列,逐步生成输出。该过程是自回归的,模型在生成每个输出标记时,都会考虑之前已经生成的内容,使得模型能够根据输入信息的复杂性,动态地调整输出,生成合理的动作指令或回答。然后,语言模型将这些视觉信息与任务描述中的语言指令结合起来,生成一个包含动作序列的输出。
Set-of-Mark:用于动作grounding,并预测必要的原子动作。Set-of-Mark(SoM)灵感来源于SoM prompting,最初被提出用于增强GPT-4V的grounding能力。具体来说,对于给定的图像输入,SoM的目标是提取一组可操作的候选区域或点P={p1,...,pk},如UI中的可点击按钮或机器人操作中的目标物体。然后将这些候选区域/点用数字标签进行标记和叠加,生成标记图像IM。有了这些标记图像,智能体模型就可以在一个原子动作中选择这些带有原始坐标的标记,从而简化了动作grounding的难度。
Trace-of-Mark:进一步提出了Trace-of-Mark(ToM)技术用于动作planning,从而使智能体模型具备更长远的规划和利用无标注视频数据的能力。ToM扩展了overlaying marks策略,把静态图像的标记扩展到动态视频轨迹。具体来说,对于视频帧序列I={I1,...,It},ToM的目标是预测未来l帧中标记的轨迹T={Mt+1,...,Mt+l}。
通过这些创新和技术,Magma模型为AI智能体在多模态任务中提供了强大的支持,为未来的智能体发展开辟了新的可能性。