法国人工智能初创公司Mistral近日宣布了一系列重磅的产品更新,不仅推出了全新的多模态模型Pixtral Large,还发布了一个多模态AI助手le Chat,使得文图生成与处理能力达到新的高度。
多模态模型Pixtral Large拥有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手le Chat目前正在使用的视觉模型。此外Pixtral Large还支持中文、法文、英文等十多种主流语言。
在MMMU、MathVista、ChartQA、DocVQA、VQAv2等基准测试中,Pixtral Large超过了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B,成为目前最强的开源多模态模型。
多模态AI助手le Chat现已具备网络搜索功能,能够提供附带引文出处的搜索结果,这一点与OpenAI的ChatGPT相似。同时支持PDF理解、网络搜索、Canvas、AI Agent、图片生成等多种功能。
Pixtral Large介绍
Pixtral Large是基于Mistral Large 2开发而成的拥有1230亿参数多模态解码器和10亿参数视觉编码器的多模态模型。
1、多模态解码器
1230亿参数的多模态解码器作为Pixtral Large的核心,主要负责整合和处理来自视觉编码器的图像信息以及文本数据。
Pixtral Large的多模态解码器将视觉特征与文本信息结合起来,使得模型不仅能够理解图像中的内容,还能够理解这些内容如何与文本数据相互作用和关联,它允许模型在处理多模态输入时动态地调整其关注点。
2、视觉编码器
10亿参数的视觉编码器是Pixtral Large处理图像数据的关键,专门设计用于将图像转换为模型可以理解的高维特征表示。
Pixtral Large的视觉编码器采用了先进的变换器架构,能够有效地处理不同分辨率和宽高比的图像。
3、序列打包技术
Pixtral Large采用的新颖的序列打包技术,使得模型能够在单个批次中高效地处理多张图像。通过构建块对角掩码来确保不同图像之间的特征不会相互干扰,从而提高了模型处理多图像数据的效率和准确性。
4、128K的上下文窗口
Pixtral Large拥有128K的上下文窗口,这使得模型能够处理大量的文本和图像数据。这对于理解和总结长篇文档或处理包含多个图像的复杂场景至关重要。
le Chat介绍
在这次le Chat的更新中,引入了网络搜索和引用功能、全新的Canvas功能、图像生成技术Flux Pro、AI Agent功能、投机性编辑技术等多种功能,极大地提升用户的体验感。
1、网络搜索和引用功能
通过引入网络搜索和引用功能,用户可以直接在聊天界面中搜索互联网上的最新信息,并获取带有引用链接的答案。
2、全新的Canvas功能
Le Chat的Canvas功能支持想法的构思允许内联编辑和导出,极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容,并将其导出为各种格式,方便进一步使用。
3、图像生成技术Flux Pro
Le Chat还与Black Forest Labs合作,整合了领先的图像生成技术Flux Pro,使用户可以直接在Le Chat中生成高质量的图像。这一功能特别适用于创意设计和营销领域,用户可以快速生成符合需求的图像,提高工作效率。
4、AI Agent功能
用户可以将特定类型的工作流程编码为Agent,然后发布并与团队成员共享,实现更高效的工作流管理和自动化操作。
5、投机性编辑技术
Le Chat通过投机性编辑技术显著提高了响应速度,用户可以更快地获得高质量的回答和建议,提高了整体的工作效率。
此外,Le Chat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。