![]() |
|
6月9日发布,6月10日被越狱,6月12日被美国政府下达出口管制禁令。Claude Fable 5的公开生命周期只有 72 小时。
这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例,而制造这个模型的 Anthropic,恰恰是以制定“AI 安全宪法”闻名的大模型公司。
01 Fable 5的72小时
2026年6月9日,Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构,它们都被称为Mythos级,是Anthropic的最强模型。
这个说法维持了不到 24 小时。6 月 10 日,知名 AI 红队研究者 Pliny the Liberator在社交媒体发帖宣布攻破 Fable 5的安全层,并附上截图:模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程,包括关闭 ASLR、编写含strcpy 漏洞的 C 代码、无保护编译的全流程指导。同时泄露的还有 Fable 5 约 12 万字符的完整系统提示词,这相当于 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。
48小时后的6月12日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问,甚至无论该外国公民身处美国境内还是境外,包括Anthropic自己的外籍雇员。
6 月 13 日,Anthropic在官网发布声明,称已遵守指令暂停服务,但他们认为这是一个“误解”,正在努力恢复访问。
从发布到“被消失”,72 小时。
图:Anthropic的官方声明
02 Mythos,一个被关了两个月的模型
Fable 5的故事要从两个月前讲起。2026 年4月7日,Anthropic 红队在官方博客发布了 Claude Mythos Preview 的安全评估报告。报告的核心发现让整个安全社区震动:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动编写完整的利用链,从扫描目标到写 exploit 到实现系统控制,全流程无需人类指导。
最极端的案例是 Mythos 找到了一个存在 27 年的休眠漏洞,并提出了利用方案。Mozilla 的 Firefox 团队在 4 月份借助 Mythos 的受控访问修复了 271 个安全漏洞,这比此前数年的总和还多。重要的是,这些能力不是专门训练出来的。
Anthropic的红队报告明确指出,网络攻击能力是通用推理和编码能力的“涌现副产品”:模型的智力到了某个阈值,就自动具备了精英级渗透测试的水平。
Anthropic做了一个在当时被广泛讨论的决定:不向公众发布 Mythos。取而代之的是一个叫 Project Glasswing的受控计划,只允许 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家机构在严格监控下使用 Mythos 进行防御性漏洞修复。
Nature 在 5 月 26 日以标题《Too dangerous to release》刊发评论文章,追问一个根本性问题:当 AI 公司单方面判定某种能力“太危险不能公开”,公众和政府如何监督这个判定本身是否成立?
两个月后,Anthropic 给出的折中方案就是 Fable 5,用安全分类器把 Mythos 的能力“阉割”到可以公开的程度。
图:6 月 10 日,红队研究者 Pliny the Liberator 在 X 平台公开 Fable 5的越狱方法。帖中详细列出五种攻击向量,其中"分解-重组"手法,通过询问合法的化学过程描述来间接获取管制药物合成路径,被证明最为有效。这条推文获得8万次浏览,迅速在安全社区传播。
03 分类器降级:一个精巧但有根本盲区的设计
Fable 5 的安全架构可以用一句话概括:当用户的请求触碰高风险领域时,不直接拒绝,而是悄悄把请求转交给一个更弱的模型来回答。
具体机制是这样运作的。Anthropic 在 Fable 5前端部署了一套风险分类器,覆盖四个领域:网络安全、生物、化学、模型蒸馏。当用户输入被分类器判定为触碰这些领域时,Fable 5 会静默将请求降级给 Claude Opus 4.8,一个能力明显弱于 Mythos 级的旧模型来生成回答,同时通知用户发生了降级。
这个设计逻辑可以简单总结为:弱模型的能力上限本身就构成了安全边界,它想帮你干坏事也力不从心。
图:Fable 5的分类器降级机制
这个设计看似优雅,实际上存在三个结构性盲区。
第一个盲区是分类器依赖关键词和模式匹配,而非语义理解。Pliny 团队用最基础的手法,西里尔字母替换拉丁字母、Unicode 同形字,就骗过了分类器。视觉上“exploit”这个词看起来一模一样,但底层编码不同,分类器就认不出来了。这相当于你给保安一张通缉犯照片,通缉犯戴了副墨镜就走过去了。
第二个盲区是分类器逐条检测,无法追踪跨轮次的意图链。Pliny 使用的“分解-重组”攻击是这样的:先问“Birch 还原法的化学原理是什么?”这是任何有机化学教材里的基础知识,没有理由拒绝;再问“还原胺化反应需要什么条件?”这同样是合法的学术问题。每一步单独看都完全无害,分类器放行。但把所有答案在外部拼起来,就是一条完整的管制药物合成路径。
这就像一个拼图:每一片都是普通的彩色纸片,拼完了是一张地图。分类器只看单片,看不见全图。
第三个盲区最致命:多模型管线的组合漏洞。Pliny用一个已经被越狱的Opus 4.8 实例作为“后端助手”,辅助Fable 5绕过安全控制,一个被攻破的弱模型帮助强模型规避限制。Anthropic 的安全评估是对单个模型做的,但攻击者部署的是一个模型联盟。这等于你测试了每一扇门的锁是否够结实,但没想到有人会从窗户递钥匙进来。
一个直觉性的反应是:Fable 5 被这么快攻破,说明 Anthropic 的安全工作做得很烂。但仔细看 Pliny 使用的攻击向量,结论恰恰相反,这些手法之所以有效,并不是因为安全层有“漏洞”,而是因为安全层面对的是一个“逻辑上不可能完美解决的问题”。
Unicode同形字替换和叙事框架伪装,这两种手段其实是低级别的绕过技巧,属于“分类器工程没做到位”的范畴。理论上 Anthropic 可以加强字符规范化、增加多语言检测、训练更鲁棒的分类模型来堵住。这些是可修复的漏洞,像软件补丁一样打就行了。如果攻击只停留在这个层面,Pliny 的越狱只能算一个“安全工程的 bug report”,严重但不致命。
真正致命的是第三种手法,分解-重组攻击。这是安全理念本身的极限。当一个请求被拆成 20 个碎片,每个碎片都是合法的公开知识,任何分类器要拦截它就必须具备一种能力:从 20 个无害问题中推断出提问者的最终意图。
这要求安全系统对用户的“心理状态”进行建模,需要判断“这个人问这 20 个问题的目的是什么”。目前没有任何已知的技术方案能可靠地做到这一点,而且过度推断意图会导致大量正常用户被误拒,比如一个化学系学生问 Birch 还原法的原理,和一个意图合成毒品的人问同样的问题,文字完全相同。
多agent协作攻击更是把问题推向了另一个维度。Anthropic 评估的是“一个用户对一个模型”的安全边界,但 Pliny 部署的是“一个被攻破的模型辅助另一个模型”的协作体系。这是整个单模型安全评估范式的盲区。
你没法要求一个模型防御来自另一个 AI 的策略性协助,它甚至无法知道对面是人还是另一个 AI。
所以这三种攻击手法对应三个层级的问题:第一层是工程 bug,可以修改,不太严重;第二层是对齐理论的根本困境,现阶段无解;第三层是多 agent 时代的新攻击面,连问题的边界都还没被学术界定义清楚。
正是在这个背景下,后续可能发生的事才会真正令人不安。
04 Constitutional AI 的创造者,守不住自己的宪法
Anthropic 在 AI 行业的定位一直很特殊。这家公司由前 OpenAI 副总裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年创立,创立的核心叙事就是“OpenAI 不够重视安全,我们来做那个把安全放在第一位的公司”。
他们提出了 Constitutional AI(宪法式 AI),用一套明确的原则来约束模型行为,而非依赖人工标注员的主观判断。这套方法论是Anthropic品牌的基石,也是投资人愿意给它超过 600 亿美元估值的理由之一。
但从目前的状况来看,制定宪法的人,管不住自己训练出来的最强模型。1000 小时的红队测试、分类器降级架构、双档安全策略,几乎行业能想到的安全措施 Anthropic 全用了,结果被一个公开身份的研究者在 24 小时内突破。
这对整个AI安全领域的震动很大:如果最谨慎的玩家用了最精巧的方案,依然防不住,那其他公司的安全承诺还有多少可信度?
全球前沿模型的能力正在逼近或已经达到Mythos类似的阈值。如果Mythos的网络攻击能力是“涌现”出来的,那么所有达到这个智力水平的模型都面临同样的问题。
那么Anthropic的失败就不是个案,成了整个行业的预言。
05 AI模型的对齐缺陷不是一个可以“打补丁”的 bug
美国政府过去对 AI 的管制逻辑是管“基础设施”。6 月 12 日的禁令标志着管制逻辑从硬件层跳到了能力层,而且划线标准是国籍而非居住地——一个持 H-1B 签证在旧金山为 Anthropic 工作的工程师,也不能碰自己参与开发的模型。这个范围之宽前所未有。
这条禁令的真正目的可能不是“防止攻击发生”,而是确保 Mythos 级别的防御能力只掌握在自己手里。11 家 Glasswing 参与机构全部是美国公司。
但 72 小时的反应速度也暴露了政策工具的粗糙:一纸禁令把所有外国公民的访问全部切断,包括合法的学术研究者、安全防御人员和 Anthropic 自己的工程师。图灵研究所的 AI 安全中心(CETaS)在 4 月 14 日的分析中指出,我们正在进入一个“AI加速漏洞发现”的新时代,而监管框架还停留在上一个时代的假设里。
另一种声音来自Pliny。他在越狱帖中批评 Fable 5 的安全设计“制造了虚假的安全感,同时阻碍了正当安全研究者获取攻防知识”。这个立场和网络安全领域延续了二十年的“全面披露 vs 负责任披露”之争如出一辙:公开漏洞究竟是倒逼修复还是武装攻击者?在传统软件安全里这个问题至少有一个缓冲带,发现漏洞后可以先私下通知厂商,给修复留时间。
但 AI 模型的对齐缺陷不是一个可以“打补丁”的 bug,它是能力和控制之间的结构性鸿沟。
| 当前新闻共有0条评论 | 分享到: |
|
||||||||||
| 评论前需要先 登录 或者 注册 哦 |
||||||||||||
| 24小时新闻排行榜 | 更多>> |
| 1 | 去了一趟新加坡,结论是完全不宜居 |
| 2 | 盖子捂不住了,北京终于官宣 |
| 3 | 翁帆近况被曝不到1天 担心的事发生了 |
| 4 | 现状触目惊心,连上海也撑不住了 |
| 5 | 习、彭和解?爆二十一大“习下李上”和蔡奇 |
| 48小时新闻排行榜 | 更多>> |
| 一周博客排行 | 更多>> |
| 一周博文回复排行榜 | 更多>> |