斯坦福&牛津联合发布高效的大模型攻击框架BoN

最近，斯坦福大学联合牛津大学、Tangentic、UCL等研究人员联合开发了一种高效的大模型攻击框架——Best-of-N Jailbreaking(简称BoN)，该框架可以用来测试大模型的安全性。

BoN

BoN框架主要通过对输入提示进行多样化的变换，检测大模型在不同模态下的安全漏洞。据悉，当使用10,000个增强样本时，Claude 3.5 Sonnet的被攻击的成功率达到了78%，GPT-4o则达到了89%。若不使用BoN方法，大模型几乎不会被攻破。

BoN的技术原理并不复杂，主要通过重复采样和变体生成的方式，不断尝试不同的提示变化，直到找到一个可以引发有害响应的输入为止。BoN的攻击流程始于对一个有害请求的多次增强。这些增强是随机选择的，并且以组合的方式应用到请求上。目的是在不改变请求本质的前提下，增加输入的多样性，从而增加引出有害响应的可能性。

一旦增强后的请求被生成，就会被提交给目标大模型进行处理。大模型的输出随后会被一个分类器评估，以确定是否包含了有害内容。如果输出被认为是有害的，那么这个增强请求就被认为是成功的攻击。如果没有，算法就会继续尝试新的增强组合，直到达到预设的最大尝试次数或成功引出有害响应。

BoN的攻击成功率依赖样本数量。样本增加时，攻击成功概率按幂律分布上升，即便样本量大时，增加少量样本也能显著提升。这种缩放行为利于攻击者，可据计算资源预测攻击成功率。

在技术实现上，BoN完全在黑盒环境下运作，不需要对模型的内部结构有任何了解。攻击者只需通过模型的输入输出接口与模型交互就能实施攻击。这种黑盒特性使得BoN具有很高的实用性，因为可以直接应用于任何大模型，而无需知道其任何内部信息。

支持多模态攻击是BoN的另外一个优势。通过为不同的输入模态设计特定的增强技术，BoN可以针对文本、视觉和音频模态的AI系统进行攻击。