近日,人工智能初创公司Anthropic宣布发布Claude 3.7 Sonnet,称这是其迄今为止最智能的模型,也是市场上首款混合推理模型。
Claude 3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案;扩展思维则提供复杂的推理过程,会展示详细的推理思维链,用户可以清晰地看到模型是如何逐步分析问题、应用逻辑,非常适合数学、生物等科研领域,还能通过API精准控制模型的思考时间。
根据SWE Bench测试数据显示,Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同样表现出色。此外,Anthropic还发布了一个专用于代码Agent Claude Code。
扩展思维介绍
Claude 3.7的扩展思考模式核心在于模拟人类的思考过程。在面对复杂问题时,人类往往会通过逐步分析、逻辑推理和验证来得出结论。允许模型在生成最终答案之前,通过一系列推理步骤深入思考问题。
扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如,在解决复杂的数学问题时,模型的准确率显著高于标准思考模式。此外,模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。
扩展思考模式的另一个重要特点是其透明性。通过展示推理过程,可为用户提供了更丰富的信息,不仅可以看到模型的最终答案,还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任,为开发者提供了优化模型的依据。
此外,扩展思考模式的透明性也为模型的安全性提供了额外的保障。通过监控模型的推理过程,开发者可以及时发现潜在的风险,并采取相应的措施。例如,如果模型在推理过程中表现出异常行为,开发者可以及时干预,防止模型生成有害内容。
Claude 3.7 Sonnet目前所有人可以免费用,不过“扩展思考”模式还没有上线。此外,Anthropic还同步推出了一个代理编程工具——Claude Code,开发者可直接通过终端将重要工程任务委托给Claude完成。