阿里国际发布最新开源多模态模型Ovis

行业动态
2024年9月20日
0
编辑

阿里国际AI团队宣布发布多模态大模型Ovis，据悉Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。

阿里国际发布Ovis

Ovis模型创新了架构设计，首次引入将连续的视觉特征转换为概率化的视觉token，再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像，兼容高分辨率图像。覆盖了多方向数据集覆盖，包括Caption、VQA、OCR、Table、Chart等各个多模态数据方向。

根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，赶超MiniCPM-V-2.6等行业优秀大模型。

Ovis模型的优势

1、创新架构设计

可学习的视觉嵌入词表：首次引入，将连续的视觉特征转换为概率化的视觉token，再经由视觉嵌入词表加权生成结构化的视觉嵌入，克服了大部分MLLM中MLP连接器架构的局限性，大幅提升多模态任务表现。

2、高分图像处理

动态子图方案：支持处理极端长宽比的图像，兼容高分辨率图像，展现出色的图像理解能力。

3、全面数据优化

多方向数据集覆盖：全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向，显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能

Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型；在幻觉等任务中，Ovis-1.6的幻觉现象和错误率显著低于同级别的模型，展现了更高的生成文本质量和准确性。

5、全部开源可商用

Ovis系列模型License采用Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源，可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域，多模态大模型的应用场景非常广泛，包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息，也被视为朝向通用人工智能的下一个步骤。

阿里发布了史上最大规模的Qwen2.5系列模型

2024-9-19 9:40:59

IBM发布Docling模型可快速转换PDF文档格式

2024-9-23 9:47:35

相关推荐

TOP1

阿里云一键部署个人专属AI应用
50分钟前
TOP2

OpenAI开源全新AI Agent评测基准PaperBench
2小时前
TOP3

2025年好用的控制面板软件合集
17小时前
阿里云快速部署DeepSeek个人站点方案
21小时前
域名抢注常见问题及答案
2025年4月2日
腾讯云GPU云服务器部署满血版DeepSeek模型教程
2025年4月1日