斯坦福&牛津联合发布高效的大模型攻击框架BoN

最近,斯坦福大学联合牛津大学、Tangentic、UCL等研究人员联合开发了一种高效的大模型攻击框架——Best-of-N Jailbreaking(简称BoN),该框架可以用来测试大模型的安全性。

BoN

BoN框架主要通过对输入提示进行多样化的变换,检测大模型在不同模态下的安全漏洞。据悉,当使用10,000个增强样本时,Claude 3.5 Sonnet的被攻击的成功率达到了78%,GPT-4o则达到了89%。若不使用BoN方法,大模型几乎不会被攻破。

BoN的技术原理并不复杂,主要通过重复采样和变体生成的方式,不断尝试不同的提示变化,直到找到一个可以引发有害响应的输入为止。BoN的攻击流程始于对一个有害请求的多次增强。这些增强是随机选择的,并且以组合的方式应用到请求上。目的是在不改变请求本质的前提下,增加输入的多样性,从而增加引出有害响应的可能性。

一旦增强后的请求被生成,就会被提交给目标大模型进行处理。大模型的输出随后会被一个分类器评估,以确定是否包含了有害内容。如果输出被认为是有害的,那么这个增强请求就被认为是成功的攻击。如果没有,算法就会继续尝试新的增强组合,直到达到预设的最大尝试次数或成功引出有害响应。

BoN的攻击成功率依赖样本数量。样本增加时,攻击成功概率按幂律分布上升,即便样本量大时,增加少量样本也能显著提升。这种缩放行为利于攻击者,可据计算资源预测攻击成功率。

在技术实现上,BoN完全在黑盒环境下运作,不需要对模型的内部结构有任何了解。攻击者只需通过模型的输入输出接口与模型交互就能实施攻击。这种黑盒特性使得BoN具有很高的实用性,因为可以直接应用于任何大模型,而无需知道其任何内部信息。

支持多模态攻击是BoN的另外一个优势。通过为不同的输入模态设计特定的增强技术,BoN可以针对文本、视觉和音频模态的AI系统进行攻击。

行业动态

OpenAI推出AI智能体Operator

2025-1-24 9:08:11

行业动态

GitHub的AI编程助手Copilot迎来重磅更新

2025-2-11 9:29:55

相关推荐