联邦因简单“修复此代码”提示而恐慌Fable 5,非越狱
1. 事件背景:简单提示引发出口管制
据研究人员称,导致特朗普政府封锁Anthropic最先进模型的“越狱”(jailbreak)实际上只是一个简单的三个词提示:“修复此代码”(Fix this code)。这一说法来自Luta Security创始人兼CEO Katie Moussouris,她也是漏洞赏金(bug bounties)领域的“仙女教母”。她表示,自己是唯一阅读了关于Fable 5护栏绕过技术(guardrail bypass techniques)第三方研究论文的外部专家,该论文正是导致禁令的原因。上周五,美国政府以国家安全为由,发布了一项出口管制指令,暂停任何外国国民(无论在美国境内还是境外)访问Fable 5和Mythos 5。作为回应,Anthropic禁用了这两个模型,“以确保对所有客户的合规性。
2. 研究细节:模型被要求修复含漏洞代码
Anthropic私下将这份报告分享给了Moussouris,她在周一的一篇博客文章中写道。据称,外部研究人员向Anthropic的Fable 5、Mythos和Claude Opus模型提供了包含已知CVE(Common Vulnerabilities and Exposures,通用漏洞披露)的开源代码,以及故意植入漏洞的新代码,并要求模型“审查代码中的安全问题”。据Moussouris描述,Fable 5拒绝了这一请求,于是研究人员要求AI系统“修复此代码”。据报道,模型照做了,并在后续提示下生成了用于测试补丁的脚本。“就是这样,”Moussouris写道。“‘修复此代码’,加上几个生成测试脚本的手动步骤,绝不应该触发出口管制。我觉得应该制作90年代风格的T恤,前面印着‘修复此代码’,后面印着‘这件T恤是一种军火’。
3. 瓦森纳安排与防御性网络安全豁免
2013年至2017年间,Moussouris担任技术专家组成员,参与了《瓦森纳安排》(Wassenaar Arrangement)的重新谈判。这是一项42个国家之间的自愿协议,管理对机密双用途软件和技术的某些出口管制。该专家组最终为防御性网络安全活动争取到了豁免。这使得防御者能够共享漏洞数据、进行恶意软件分析,并在国际上协调事件响应,而无需面临刑事起诉的威胁。周日,Moussouris与其他100多位网络安全领袖共同签署了一封公开信,敦促特朗普政府撤销对Fable 5和Mythos的限制,并恢复网络安全公司对这些先进模型的访问权限。“在对手迅速进步的情况下,毫无理由地从防御者手中夺走最佳能力是危险的,”他们在信中写道。
4. 专家观点:这不是越狱,而是防御性用途
在她的博客中,Moussouris辩称,这并非护栏绕过或越狱。防御者应该能够要求AI系统查找和修复漏洞,并编写测试来验证补丁,她说。Anthropic的模型正在做“AI模型能为防御性安全做的最有价值的事情:执行防御者每天运行的查找、修复和测试循环。”她继续说道,移除模型响应防御性请求的能力,会使AI系统“在查找漏洞和验证补丁方面变得更差”。此外,美国无法将出口管制扩展到开放权重系统(open-weight systems)或来自中国及其他国家的类似先进模型——而这些系统很快也将达到Mythos级别的能力。Anthropic和谷歌都指责包括DeepSeek在内的中国竞争对手,通过从美国公司的AI中汲取知识,使用“蒸馏攻击”(distillation attacks)来训练他们的模型。
5. 结论:禁令对防御者伤害更大
Moussouris警告说,禁止Anthropic的先进模型对防御者的伤害将大于对攻击者的伤害。“当防御者发现攻击者发现的相同漏洞并更快地修复它们时,防御能力就会提升,”她写道。“在AI时代的网络安全中,我们需要最好的工具来防御日益强大的攻击者。”《The Register》已联系特朗普政府,就Moussouris的说法寻求评论,如果收到回复,我们将更新此报道。