从发布到“被消失” Fable 5的72小时

www.creaders.net | 2026-06-14 08:53:37 腾讯科技 | 0条评论 | 查看/发表评论

6月9日发布，6月10日被越狱，6月12日被美国政府下达出口管制禁令。Claude Fable 5的公开生命周期只有 72 小时。

这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例，而制造这个模型的 Anthropic，恰恰是以制定“AI 安全宪法”闻名的大模型公司。

01 Fable 5的72小时

2026年6月9日，Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构，它们都被称为Mythos级，是Anthropic的最强模型。

唯一区别在于安全配置：Fable 5 面向所有用户开放，内置风险分类器与安全护栏；Mythos 5 保留完整能力，仅对11家受信任机构开放。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”，声称经过超1000小时的外部红队测试，未发现通用越狱方法。

这个说法维持了不到 24 小时。6 月 10 日，知名 AI 红队研究者 Pliny the Liberator在社交媒体发帖宣布攻破 Fable 5的安全层，并附上截图：模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程，包括关闭 ASLR、编写含strcpy 漏洞的 C 代码、无保护编译的全流程指导。同时泄露的还有 Fable 5 约 12 万字符的完整系统提示词，这相当于 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。

48小时后的6月12日，美国政府以国家安全为由发布出口管制指令，要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问，甚至无论该外国公民身处美国境内还是境外，包括Anthropic自己的外籍雇员。

6 月 13 日，Anthropic在官网发布声明，称已遵守指令暂停服务，但他们认为这是一个“误解”，正在努力恢复访问。

从发布到“被消失”，72 小时。

图：Anthropic的官方声明

02 Mythos，一个被关了两个月的模型

Fable 5的故事要从两个月前讲起。2026 年4月7日，Anthropic 红队在官方博客发布了 Claude Mythos Preview 的安全评估报告。报告的核心发现让整个安全社区震动：这个模型能自主发现零日漏洞，覆盖所有主流操作系统和浏览器，并自动编写完整的利用链，从扫描目标到写 exploit 到实现系统控制，全流程无需人类指导。

最极端的案例是 Mythos 找到了一个存在 27 年的休眠漏洞，并提出了利用方案。Mozilla 的 Firefox 团队在 4 月份借助 Mythos 的受控访问修复了 271 个安全漏洞，这比此前数年的总和还多。重要的是，这些能力不是专门训练出来的。

Anthropic的红队报告明确指出，网络攻击能力是通用推理和编码能力的“涌现副产品”：模型的智力到了某个阈值，就自动具备了精英级渗透测试的水平。

Anthropic做了一个在当时被广泛讨论的决定：不向公众发布 Mythos。取而代之的是一个叫 Project Glasswing的受控计划，只允许 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家机构在严格监控下使用 Mythos 进行防御性漏洞修复。

Nature 在 5 月 26 日以标题《Too dangerous to release》刊发评论文章，追问一个根本性问题：当 AI 公司单方面判定某种能力“太危险不能公开”，公众和政府如何监督这个判定本身是否成立？

两个月后，Anthropic 给出的折中方案就是 Fable 5，用安全分类器把 Mythos 的能力“阉割”到可以公开的程度。

图：6 月 10 日，红队研究者 Pliny the Liberator 在 X 平台公开 Fable 5的越狱方法。帖中详细列出五种攻击向量，其中"分解-重组"手法，通过询问合法的化学过程描述来间接获取管制药物合成路径，被证明最为有效。这条推文获得8万次浏览，迅速在安全社区传播。

03 分类器降级：一个精巧但有根本盲区的设计

Fable 5 的安全架构可以用一句话概括：当用户的请求触碰高风险领域时，不直接拒绝，而是悄悄把请求转交给一个更弱的模型来回答。

具体机制是这样运作的。Anthropic 在 Fable 5前端部署了一套风险分类器，覆盖四个领域：网络安全、生物、化学、模型蒸馏。当用户输入被分类器判定为触碰这些领域时，Fable 5 会静默将请求降级给 Claude Opus 4.8，一个能力明显弱于 Mythos 级的旧模型来生成回答，同时通知用户发生了降级。

这个设计逻辑可以简单总结为：弱模型的能力上限本身就构成了安全边界，它想帮你干坏事也力不从心。

图：Fable 5的分类器降级机制

这个设计看似优雅，实际上存在三个结构性盲区。

第一个盲区是分类器依赖关键词和模式匹配，而非语义理解。Pliny 团队用最基础的手法，西里尔字母替换拉丁字母、Unicode 同形字，就骗过了分类器。视觉上“exploit”这个词看起来一模一样，但底层编码不同，分类器就认不出来了。这相当于你给保安一张通缉犯照片，通缉犯戴了副墨镜就走过去了。

第二个盲区是分类器逐条检测，无法追踪跨轮次的意图链。Pliny 使用的“分解-重组”攻击是这样的：先问“Birch 还原法的化学原理是什么？”这是任何有机化学教材里的基础知识，没有理由拒绝；再问“还原胺化反应需要什么条件？”这同样是合法的学术问题。每一步单独看都完全无害，分类器放行。但把所有答案在外部拼起来，就是一条完整的管制药物合成路径。

这就像一个拼图：每一片都是普通的彩色纸片，拼完了是一张地图。分类器只看单片，看不见全图。

第三个盲区最致命：多模型管线的组合漏洞。Pliny用一个已经被越狱的Opus 4.8 实例作为“后端助手”，辅助Fable 5绕过安全控制，一个被攻破的弱模型帮助强模型规避限制。Anthropic 的安全评估是对单个模型做的，但攻击者部署的是一个模型联盟。这等于你测试了每一扇门的锁是否够结实，但没想到有人会从窗户递钥匙进来。

一个直觉性的反应是：Fable 5 被这么快攻破，说明 Anthropic 的安全工作做得很烂。但仔细看 Pliny 使用的攻击向量，结论恰恰相反，这些手法之所以有效，并不是因为安全层有“漏洞”，而是因为安全层面对的是一个“逻辑上不可能完美解决的问题”。

Unicode同形字替换和叙事框架伪装，这两种手段其实是低级别的绕过技巧，属于“分类器工程没做到位”的范畴。理论上 Anthropic 可以加强字符规范化、增加多语言检测、训练更鲁棒的分类模型来堵住。这些是可修复的漏洞，像软件补丁一样打就行了。如果攻击只停留在这个层面，Pliny 的越狱只能算一个“安全工程的 bug report”，严重但不致命。

真正致命的是第三种手法，分解-重组攻击。这是安全理念本身的极限。当一个请求被拆成 20 个碎片，每个碎片都是合法的公开知识，任何分类器要拦截它就必须具备一种能力：从 20 个无害问题中推断出提问者的最终意图。

这要求安全系统对用户的“心理状态”进行建模，需要判断“这个人问这 20 个问题的目的是什么”。目前没有任何已知的技术方案能可靠地做到这一点，而且过度推断意图会导致大量正常用户被误拒，比如一个化学系学生问 Birch 还原法的原理，和一个意图合成毒品的人问同样的问题，文字完全相同。

多agent协作攻击更是把问题推向了另一个维度。Anthropic 评估的是“一个用户对一个模型”的安全边界，但 Pliny 部署的是“一个被攻破的模型辅助另一个模型”的协作体系。这是整个单模型安全评估范式的盲区。

你没法要求一个模型防御来自另一个 AI 的策略性协助，它甚至无法知道对面是人还是另一个 AI。

所以这三种攻击手法对应三个层级的问题：第一层是工程 bug，可以修改，不太严重；第二层是对齐理论的根本困境，现阶段无解；第三层是多 agent 时代的新攻击面，连问题的边界都还没被学术界定义清楚。

正是在这个背景下，后续可能发生的事才会真正令人不安。

04 Constitutional AI 的创造者，守不住自己的宪法

Anthropic 在 AI 行业的定位一直很特殊。这家公司由前 OpenAI 副总裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年创立，创立的核心叙事就是“OpenAI 不够重视安全，我们来做那个把安全放在第一位的公司”。

他们提出了 Constitutional AI（宪法式 AI），用一套明确的原则来约束模型行为，而非依赖人工标注员的主观判断。这套方法论是Anthropic品牌的基石，也是投资人愿意给它超过 600 亿美元估值的理由之一。

但从目前的状况来看，制定宪法的人，管不住自己训练出来的最强模型。1000 小时的红队测试、分类器降级架构、双档安全策略，几乎行业能想到的安全措施 Anthropic 全用了，结果被一个公开身份的研究者在 24 小时内突破。

这对整个AI安全领域的震动很大：如果最谨慎的玩家用了最精巧的方案，依然防不住，那其他公司的安全承诺还有多少可信度？

全球前沿模型的能力正在逼近或已经达到Mythos类似的阈值。如果Mythos的网络攻击能力是“涌现”出来的，那么所有达到这个智力水平的模型都面临同样的问题。

那么Anthropic的失败就不是个案，成了整个行业的预言。

05 AI模型的对齐缺陷不是一个可以“打补丁”的 bug

美国政府过去对 AI 的管制逻辑是管“基础设施”。6 月 12 日的禁令标志着管制逻辑从硬件层跳到了能力层，而且划线标准是国籍而非居住地——一个持 H-1B 签证在旧金山为 Anthropic 工作的工程师，也不能碰自己参与开发的模型。这个范围之宽前所未有。

这条禁令的真正目的可能不是“防止攻击发生”，而是确保 Mythos 级别的防御能力只掌握在自己手里。11 家 Glasswing 参与机构全部是美国公司。

但 72 小时的反应速度也暴露了政策工具的粗糙：一纸禁令把所有外国公民的访问全部切断，包括合法的学术研究者、安全防御人员和 Anthropic 自己的工程师。图灵研究所的 AI 安全中心（CETaS）在 4 月 14 日的分析中指出，我们正在进入一个“AI加速漏洞发现”的新时代，而监管框架还停留在上一个时代的假设里。

另一种声音来自Pliny。他在越狱帖中批评 Fable 5 的安全设计“制造了虚假的安全感，同时阻碍了正当安全研究者获取攻防知识”。这个立场和网络安全领域延续了二十年的“全面披露 vs 负责任披露”之争如出一辙：公开漏洞究竟是倒逼修复还是武装攻击者？在传统软件安全里这个问题至少有一个缓冲带，发现漏洞后可以先私下通知厂商，给修复留时间。

但 AI 模型的对齐缺陷不是一个可以“打补丁”的 bug，它是能力和控制之间的结构性鸿沟。

相关新闻

和中国有关？Anthropic被逼关闭新模型	美国多州检察长联手查OpenAI
承认AI转型决策失误扎克伯格承诺不再裁员	禁止所有外国人！华盛顿史无前例决定重点防中国
加拿大24岁女子选择去死竟获多次鼓励	截至目前中国AI大模型预测世界杯冠军是…
功耗50瓦的AI大脑，会是下一个GPT吗？	“导致女儿自杀” 加拿大母亲提告OpenAI
马斯克太空算力蓝图曝光，还要在月球造巨型工厂	“AI正在吃掉职业阶梯的底层”？
大战一触即发传OpenAI酝酿大降价抢市	如何识别AI生成影像？常见破绽一次看懂
史上首次！剑桥大学“AI疫苗”人体试验	时薪高达5000美金！硅谷开始兴起这个”职业“
惊曝：科技大厂将裁掉数百名研发团队工程师	苏州大学教授写书“AI味太浓” AI检测结果…
人工智能的终点在哪里？	AI正在让制造病毒更容易大佬罕见联名上书
AI治理一座城市，15天会发生什么？	OpenAI超级APP计划曝光

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	去了一趟新加坡，结论是完全不宜居
2	盖子捂不住了，北京终于官宣
3	翁帆近况被曝不到1天担心的事发生了
4	现状触目惊心，连上海也撑不住了
5	习、彭和解？爆二十一大“习下李上”和蔡奇

48小时新闻排行榜

更多>>

1	去了一趟新加坡，结论是完全不宜居
2	盖子捂不住了，北京终于官宣
3	52对47！川普决定签字对中国的豪赌开始了
4	翁帆近况被曝不到1天担心的事发生了
5	比预判还严峻！中国一个时代正在集体谢幕
6	现状触目惊心，连上海也撑不住了
7	求医遭拒“高薪菁英夫妻”崩溃全家3口坠36
8	军报突然喊话军中大清洗出现重大变数？
9	传美国对伊朗重大让步以色列或单独开战
10	科学家警告全球恐死人2.5亿

热门专题

1 中美冷战	6 张又侠	11 委内瑞拉
2 美伊战争	7 中共两会	12 四中全会
3 川普	8 俄乌战争	13 何卫东
4 世界杯	9 中日关系	14 AI
5 万维专栏	10 以伊战争	15 大S

一周博客排行

更多>>

1	赵晓 \| 《给阿嬷的情书》：一	万维网友来
2	习近平为何不再沿用“第四代领	陈家梁子
3	謝松齡：聖經中上帝救恩脈絡的	阿詩蘭
4	老高的这个贴，至今读来，让人	席琳
5	退休生活：快乐容易，幸福难得	望樸歸真
6	溪猪为何访问北韩？	山蛟龙
7	谁杀了袁文才、王佐？	历程历程
8	胡锦涛朱镕基温家宝等正国级高	明豪
9	文革既不是权力斗争，也不是路	老贫农
10	为什么中国移民异口同声滴咒骂	馋师五代

一周博文回复排行榜

更多>>

1	【学伟论道】为什么西方文明不	法国刘学伟
2	文革既不是权力斗争，也不是路	老贫农
3	汉语优势助力中国迅速成为科技	弓长贝占郎
4	纽约尼克人队靠强大气场，冲破	爪四哥
5	64反思:為何台灣能夠民主?自由	彼德
6	恭喜美國！川普開始走上正確方	must
7	海风吹开的真相：中国制造	万湖小舟1
8	德国制造的屈辱	万湖小舟1
9	老高的这个贴，至今读来，让人	席琳
10	立即重新恢复中华帝制刻不容	横断万重山


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.