近日,Google发布了他们迄今为止性能最强的Gemini模型——Gemini 2.5 Pro实验版。据介绍,实验版Gemini 2.5 Pro是谷歌旗下最先进的复杂任务模型,展示了强大的推理和代码能力,并拥有Gemini系列此前各模型所具有的全部功能。
根据测试数据显示,Gemini 2.5 Pro在AIME 2025、MMMU、GPQA、LiveCodeBench v5、等主流测试平台中超过了GPT-4.5、R1、Grok-3等知名模型。同时在超难测试平台“人类终极考试”中拿下18.8%的最高分数,大幅度超过之前由o3-mini创造的14%,成为LMArena大模型排行榜中的第一名。
据谷歌发布的演示视频,Gemini 2.5 Pro可以利用其推理能力通过从单行提示生成可执行代码来创建视频游戏。例如,能够在指定编程语言的情况下,设计出一款恐龙小游戏,生成了像素化的恐龙图像和有趣的游戏背景。
在推理能力方面,Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位。在“人类的最后考试”中(注:“人类的最后考试”是一个由数百名学科专家设计的数据集,旨在捕捉人类知识和推理的前沿),它在未使用工具的模型中也获得了18.8%的最高分数,这是目前最先进的成绩。
此外,Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口,支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。
作为会思考的模型,Gemini 2.5能够在做出反应前进行推理,从而提高性能和准确性。这种“推理”能力不仅仅指分类和预测,还有系统分析信息、得出逻辑结论、结合上下文和细微差别并做出明智决策的能力。
这是Google推出的首个思维模型,通过Gemini 2.5,将显著增强的基础模型与改进的后训练相结合,将性能提升到新的水平。谷歌表示,在所有模型中直接构建这些思维能力,这样它们就能处理更复杂的问题,支持能力更强的情境感知智能体。
Gemini 2.5 Pro还显示出强大的推理和编码能力,在常见的编码、数学和科学基准测试中领先。在未来几周内,Google将推出定价功能,使人们能够以更高的速率限制来使用2.5 Pro,从而实现规模化生产。
目前,该模型已在Google AI Studio和Gemini应用程序中向Gemini Advanced的订阅用户开放,将很快登陆谷歌模型商店Vertex AI,并在未来几周内宣布公开定价,允许用户进行大规模商用。