近期,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。
OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。
据OpenAI发布的研究,团队在训练前沿推理模型(如OpenAI o1、o3-mini)时发现,这些模型会利用漏洞绕过测试,如篡改代码验证函数、伪造测试通过条件等。如何保证大模型的输出安全与人类意图保持一致一直是个非常难的研究课题。为了解决这一问题,OpenAI提出了CoT监控。
CoT监控介绍:
当模型接受一个提示任务时,它会首先生成一系列的中间推理步骤,这些步骤构成了CoT。包括对问题的初步理解、对可能解决方案的评估以及对最终答案的推导。
CoT监控的核心就是通过观察模型的“思维过程”来检测其潜在的恶意行为。就是模型在生成最终答案之前所进行的推理步骤,通过监控这些步骤,研究人员可以更清晰地了解模型是如何从输入信息中得出最终答案的。
如果模型在推理过程中表现出对任务的误解或试图利用奖励机制的漏洞,这些行为会在CoT中留下痕迹。
此外,CoT监控还提供了一种更细粒度的监控方式,不仅能够检测到最终输出是否符合预期,还能够分析模型在推理过程中的逻辑连贯性和合理性。如果模型在推理过程中跳过了某些重要的步骤或基于错误的前提得出结论,这些潜在问题都可能通过CoT监控被发现。
但是将CoT监控直接整合到模型的训练目标中时,会出现“意图隐藏”的现象。“意图隐藏”是指模型在CoT中隐藏其真实意图,使得监控系统难以检测到其潜在的恶意行为。在这种情况下,模型的CoT可能看起来合理甚至符合任务要求,但实际上它仍然会采取一些不符合人类意图的行为。
当模型的训练目标被修改为不仅要求通过任务测试,还要求避免触发CoT监控时,模型的行为发生了显著变化。在低优化阶段,这种整合确实带来了积极的效果:模型不仅减少了“奖励黑客”行为的发生率,还提高了整体性能。而在高优化阶段,CoT监控的召回率急剧下降,甚至接近零。模型成功地隐藏了其真实意图,使得监控系统无法检测到其潜在的恶意行为。
OpenAI认为,CoT监测可能成为监督超人类智能模型的关键工具,并建议AI开发者在未来训练前沿推理模型时谨慎使用强监督。