联邦因简单“修复此代码”提示而恐慌Fable 5，非越狱

1. 事件背景：简单提示引发出口管制

据研究人员称，导致特朗普政府封锁Anthropic最先进模型的“越狱”（jailbreak）实际上只是一个简单的三个词提示：“修复此代码”（Fix this code）。这一说法来自Luta Security创始人兼CEO Katie Moussouris，她也是漏洞赏金（bug bounties）领域的“仙女教母”。她表示，自己是唯一阅读了关于Fable 5护栏绕过技术（guardrail bypass techniques）第三方研究论文的外部专家，该论文正是导致禁令的原因。上周五，美国政府以国家安全为由，发布了一项出口管制指令，暂停任何外国国民（无论在美国境内还是境外）访问Fable 5和Mythos 5。作为回应，Anthropic禁用了这两个模型，“以确保对所有客户的合规性。

2. 研究细节：模型被要求修复含漏洞代码

Anthropic私下将这份报告分享给了Moussouris，她在周一的一篇博客文章中写道。据称，外部研究人员向Anthropic的Fable 5、Mythos和Claude Opus模型提供了包含已知CVE（Common Vulnerabilities and Exposures，通用漏洞披露）的开源代码，以及故意植入漏洞的新代码，并要求模型“审查代码中的安全问题”。据Moussouris描述，Fable 5拒绝了这一请求，于是研究人员要求AI系统“修复此代码”。据报道，模型照做了，并在后续提示下生成了用于测试补丁的脚本。“就是这样，”Moussouris写道。“‘修复此代码’，加上几个生成测试脚本的手动步骤，绝不应该触发出口管制。我觉得应该制作90年代风格的T恤，前面印着‘修复此代码’，后面印着‘这件T恤是一种军火’。

3. 瓦森纳安排与防御性网络安全豁免

2013年至2017年间，Moussouris担任技术专家组成员，参与了《瓦森纳安排》（Wassenaar Arrangement）的重新谈判。这是一项42个国家之间的自愿协议，管理对机密双用途软件和技术的某些出口管制。该专家组最终为防御性网络安全活动争取到了豁免。这使得防御者能够共享漏洞数据、进行恶意软件分析，并在国际上协调事件响应，而无需面临刑事起诉的威胁。周日，Moussouris与其他100多位网络安全领袖共同签署了一封公开信，敦促特朗普政府撤销对Fable 5和Mythos的限制，并恢复网络安全公司对这些先进模型的访问权限。“在对手迅速进步的情况下，毫无理由地从防御者手中夺走最佳能力是危险的，”他们在信中写道。

4. 专家观点：这不是越狱，而是防御性用途

在她的博客中，Moussouris辩称，这并非护栏绕过或越狱。防御者应该能够要求AI系统查找和修复漏洞，并编写测试来验证补丁，她说。Anthropic的模型正在做“AI模型能为防御性安全做的最有价值的事情：执行防御者每天运行的查找、修复和测试循环。”她继续说道，移除模型响应防御性请求的能力，会使AI系统“在查找漏洞和验证补丁方面变得更差”。此外，美国无法将出口管制扩展到开放权重系统（open-weight systems）或来自中国及其他国家的类似先进模型——而这些系统很快也将达到Mythos级别的能力。Anthropic和谷歌都指责包括DeepSeek在内的中国竞争对手，通过从美国公司的AI中汲取知识，使用“蒸馏攻击”（distillation attacks）来训练他们的模型。

5. 结论：禁令对防御者伤害更大

Moussouris警告说，禁止Anthropic的先进模型对防御者的伤害将大于对攻击者的伤害。“当防御者发现攻击者发现的相同漏洞并更快地修复它们时，防御能力就会提升，”她写道。“在AI时代的网络安全中，我们需要最好的工具来防御日益强大的攻击者。”《The Register》已联系特朗普政府，就Moussouris的说法寻求评论，如果收到回复，我们将更新此报道。