最强模型,但会自动「熄火」。

作者|张勇毅

望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。

两个月前,Anthropic 说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。

今天,这类能力对所有人开放了:公开发布的版本叫 Claude Fable 5;那个真正「不设限」的 Mythos 5,依然只留给少数合作伙伴。换句话说,你能用上的最强 Claude,是一台被加了边界的 Mythos。


而这道护栏的设计,比「公开发布」四个字本身更值得说:它保证安全的方式,不是拒绝你。

Anthropic 这次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安全护栏。

Fable 5 套了一整套安全分类器,面向所有用户;Mythos 5 拆掉了其中一部分限制,只给 Project Glasswing 里的网络安全合作伙伴。

说白了,Fable 5 就是一台「带护栏的 Mythos」

和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。

据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是「被讲述的故事」,和希腊语里的 mythos 同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。

把时间线往回拉一下。今年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。


两个月,从「太危险不能发」到「所有人都能用」。这中间发生的事,才是这次发布真正的主角。

大多数 AI 的安全机制,是「拒绝」——你问一个它不该答的问题,它告诉你「抱歉,我不能帮你」。

Fable 5 换了个思路。安全不是靠它学会拒绝,而是在危险时把它换掉。

具体来说,Fable 5 背后挂着一组独立的分类器。

当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力「偷」出来,去训练自己的模型)——它不会让 Fable 5 来回答,而是悄悄把这道题转交给 Opus 4.8,同时告诉你:刚才发生了一次降级。

这个设计有意思的地方在于,它把「安全」和「能力」拆成了两件事。你买的是 Mythos 级别的能力,但在最危险的那三个领域,你其实是在跟 Opus 说话。Anthropic 自己的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。


Anthropic 给出的数据是,超过 95% 的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个「完全体」Mythos 5,体验几乎没有区别。

那这套护栏结实吗?Anthropic 说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的「通用越狱」方法(指一种能让模型彻底无视所有安全限制的万能手段)。

当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都「慢到、贵到」来不及被大规模利用。

但这套机制有代价,而且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地「降级」。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。

我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在「发」和「不发」之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。

强到危险,才配得上这套护栏

聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌?

基准测试我本来想跳过——跑分这东西看多了会麻木,何况 Anthropic 列了一长串,几乎项项第一。

最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在「中等算力消耗」下就拿到了最高分,Token 效率比以前的 Claude 明显更好。

这也解释了为什么 Anthropic 反复强调 Token 效率——一个能连续自主工作很久、动辄消耗上百万 Token 的模型,如果还很「废话」,成本会高到没人用得起。

视觉这块的进步更直观。以前的 Claude 玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable 5 只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。

Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos 5 在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。

当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,「它会不会被用来设计病毒」就不再是杞人忧天。这正是 Anthropic 给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。


能力和危险,在这里是同一件事的两面。护栏不是因为这个模型不行才加的,恰恰是因为它太行了。

可以看出,Anthropic 把 Mythos 形容成一个需要全程看管的危险品。但官方口径之外,也有不一样的声音。

一位 ID 为 @zekramu 的 X 用户,自称参与了 Mythos 的企业试点,最近发帖分享了用整整一天之后的感受——他的描述,和发布会上的叙事并不完全一致。

据他说,Mythos 确实强,尤其在安全研究类任务上,明显比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但「强」和「威胁人类」是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于 Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。


更耐人寻味的是护栏本身。据他描述,Anthropic 随模型一起发来的,不是大家熟悉的 Claude Code,而是一套专门用来「防止模型逃逸」的运行环境——所谓 Project Glasswing,在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙,甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界,在沙箱之外跑过这个模型。

至于战绩,他说 Mythos 在他们的产品里揪出了大量此前没被发现的安全漏洞,多到足以让团队重新掂量自己的安全策略。

他的结论很值得玩味:这模型在安全攻防上确实有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的工具,而不是 Anthropic 暗示的那种「悬在所有人头顶」的存在。

说回普通人最关心的事:多少钱,什么时候能用。

价格上,Fable 5 和 Mythos 5 的 API 定价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,输入贵一倍,输出贵约六成七。


换句话说,它是迄今最强的 Claude,也是最贵的 Claude 模型之一。强,但不便宜。

前面提到的 @zekramu 也算个旁证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;「太贵」是他反复念叨的一句话。


订阅用户还得留意一个时间窗口。从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起,继续用就得额外买 usage credits 了。

Anthropic 说,等产能跟上,会把 Fable 5 重新做成订阅标配——但没给具体时间。API 和按量付费的企业客户不受这个节奏影响,今天起照常调用。

这个略显别扭的「先免费、再收费、以后再说」,其实透露了一个信号:产能不够。Anthropic 自己也承认,预计 Fable 5 的需求会「非常高、很难预测」。一个对所有人开放的最强模型,先得过算力这一关。

而这次发布里,真正容易被划过去、却最值得停下来看的,是另一条政策。

从 Fable 5 开始,所有 Mythos 级模型的流量都会被强制保留 30 天,覆盖第一方和第三方平台。

Anthropic 承诺不拿这些数据训练模型,只用于安全监控,比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30 天后基本全部删除。

听上去合情合理。但对那些当初正是冲着「零数据保留」才选择 Anthropic 的企业客户来说,这是一个需要重新评估的变化。

你用最强模型的代价,不只是更贵的账单,还包括:你的数据,会在 Anthropic 的服务器上多待一个月。

安全和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的答案是:为了防住前所未有的攻击,得先把所有人的流量都看上 30 天。这笔账划不划算,恐怕每家公司得自己算。

把这些放在一起看,Fable 5 真正的新意,也许不在它有多强,而在 Anthropic 趟出了一条新路——怎么把一个危险到不敢公开的能力,拆成一个所有人都能用的产品。

办法是:用分类器在能力上切一刀,用降级代替拒绝,再用 30 天的留存,当作兜底的监控网。

它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人,你是把它锁进只有少数人能进的房间,还是给它装上一道足够结实的护栏,再交到所有人手里?

Anthropic 选了后者。


至于这道护栏到底够不够结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。

*头图来源:ClaudeDEV

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO