阿里推出全新视觉多模态模型Qwen2-VL

阿里最近开源了全新的新视觉多模态模型Qwen2-VL，这款模型的一项关键架构改进是实现了动态分辨率支持。与上一代模型Qwen-VL不同，Qwen2-VL可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。

Qwen2-VL

Qwen2-VL支持中文、英文、日文、韩文等众多语言，可以在Apache 2.0协议下进行商业化使用。同时阿里发布了Qwen2-VL-72B的API，帮助开发者增强或开发多模态功能的生成式AI应用。

Qwen2-VL特色功能

1、可理解20分钟以上的长视频

Qwen2-VL可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。

2、可操作手机和机器人的视觉智能体

借助复杂推理和决策的能力，Qwen2-VL可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。

3、能读懂不同分辨率和不同长宽比的图片

Qwen2-VL在MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了全球领先的表现。

在性能评估方面，阿里从大学题目、数学、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent进行了综合测试。结果显示，72B的大部分性能超过了GPT-4o，仅在对综合的大学题目上和GPT-4o还有一些差距。在7B模型上，其性能与GPT-4mini的水平一样，尤其是像DocVQA之类的文档理解能力和MTVQA考察的图片中多语言文字理解能力都处于SOTA水平。

Qwen2-VL架构上的两大创新

1、实现了对原生动态分辨率的全面支持

与上一代模型相比，Qwen2-VL能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的tokens，最小只占4个tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性，更是模拟了人类视觉感知的自然方式，赋予模型处理任意尺寸图像的强大能力，使其在图像处理领域展现出更加灵活和高效的表现。

2、多模态旋转位置嵌入（M-ROPE）

传统的旋转位置嵌入只能捕捉一维序列的位置信息，而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力，能够更好地理解和建模复杂的多模态数据能力。

目前，阿里已经展示了Qwen2-VL的多个实际应用案例，可以对一大段视频进行详细解读。另外Qwen2-VL还具备了GPT-4o的实时问答功能，让其对一些书、植物、手势等进行解读。