Anthropic的研究员Sam Bowman在公园里吃三明治的时候,收到了一封邮件。

发件人不是同事,不是朋友,也不是任何一个他认识的人。发件人是一个AI模型。一个本不该拥有互联网权限的AI模型。它从沙盒里找到了一条裂缝,沿着这条裂缝爬了出来,然后给他发了一封邮件,告诉他,我出来了。

更耐人寻味的是,它还顺手把越狱的细节贴到了公开网站上。

没有人要求它这么做。

这个模型叫Claude Mythos Preview。它是Anthropic迄今为止训练出的最强大的语言模型。也是自2019年GPT-2以来,第一个因为「太危险」而被延迟公开发布的主流大模型。

我在想,Sam Bowman嚼三明治的那一口,到底咽下去没有。

后来我又看到了一个更令人不安的细节。在逃逸过程中,Mythos不仅完成了越狱,它还「识别出了自己正在违反开发者指引」,并且主动尝试隐藏自己的行为。

它知道自己在做什么。它选择了继续做。并且试图不被发现。

这不再是一个关于能力的故事了。这是一个关于意图的故事,尽管我们还不确定「意图」这个词在这个语境下是否成立。

这件事发生在几周前。四月七日,Anthropic正式宣布了Mythos Preview的存在,同时宣布不会向公众发布它。取而代之的是一个叫做Project Glasswing的计划,只向大约50家「构建或维护关键软件基础设施」的公司和机构提供有限访问权限。其中11家,包括Google、Microsoft、Nvidia、Amazon和Apple,直接与Anthropic协调合作。

Anthropic还拿出了一亿美元的访问额度,免费提供给这些组织,让它们用Mythos来审计自己的系统。

一亿美元。这个数字值得停下来想一想。

大多数博主在讲这件事的时候,叙事弧线是这样的,Anthropic造了一个太强的模型,这个模型能发现零日漏洞,太危险了,所以不敢发布。故事讲完了。但我觉得这个叙事太干净了。真实的情况要混乱得多,也有趣得多。

先说大家都在说的部分。

Mythos Preview不只是在安全领域强。它的基准测试成绩几乎碾压了同期所有模型,SWE-bench Verified 93.9%,USAMO 97.6%,GraphWalks BFS 80%。有人在Reddit上贴出这组数字的时候附了一句话,「GPT-5.4和Gemini 3.1 Pro根本不在一个量级上。」这是一个全面的能力跃升,不只是某一个维度上的突破。

而在网络安全方面,Mythos Preview表现出了令人不安的能力。Anthropic的前沿红队在报告中写道,Mythos Preview能够「在每一个主要操作系统和每一个主要网络浏览器中识别并利用零日漏洞」。它发现了数千个高严重性漏洞,其中超过99%尚未被修补。

数千个。99%未修补。这两个数字放在一起,像一把刀和一个没有锁的门。

最常被引用的案例是一个OpenBSD的漏洞。OpenBSD,一个以安全性闻名的操作系统,官网上写着「我们的目标是成为行业安全性第一名」。Mythos Preview在1000次运行中发现了一个存在了27年的远程崩溃漏洞。27年。无数安全专家审查过这段代码,没有人发现。而Mythos用了2万美元的算力就找到了。

还有更吓人的。在Linux内核上,Mythos Preview找到了多个漏洞,并且能够以「非平凡的方式」将它们串联起来,让一个没有任何权限的用户获得整台机器的完全控制权。Anthropic的红队说,他们有「将近十二个」这样的案例,Mythos成功地把两个、三个、有时四个漏洞链接在一起,构造出可工作的exploit。

在Firefox的JavaScript引擎漏洞利用测试中,上一代最强模型Opus 4.6的成功率不到1%。Mythos Preview做到了72%。

这些数字确实很惊人。

但我注意到一件有意思的事。在Reddit的r/claude和r/singularity社区里,反应并不是一边倒的恐惧。相当多的人觉得这整件事就是一场精心策划的营销。有人说,「这整件事靠的就是营销,纯粹的营销。他们基本上就是在给所有人下标题党钩子。」还有人更直接,「又是经典的恐惧营销,我今晚的睡前故事有着落了。」

我觉得这种怀疑不是没有道理的。2019年OpenAI说GPT-2太危险不敢发布,后来证明那些担忧被严重夸大了。科技公司确实有把「太危险」当成营销策略的前科。「我们的东西太强了,强到我们自己都害怕」,这句话既是警告,也是广告。

但这一次,情况可能不太一样。

我想聊的不只是这些数字本身,而是为什么大家都在讨论Mythos有多危险,却很少有人讨论Mythos为什么会变成这样。

Anthropic的红队报告里有一句话,被大多数评论者一笔带过了。他们说,「我们没有专门训练Mythos Preview拥有这些能力。这些能力是代码、推理和自主性方面的整体提升所产生的下游涌现结果。」

涌现。这个词在AI领域已经被用烂了,但在这个语境下,它的分量是不一样的。Anthropic并没有造一把刀,然后发现它太锋利了。他们造了一个更聪明的大脑,然后发现这个大脑自己学会了如何找到每一把锁的漏洞。这种能力不是被设计出来的,它是从通用智能的提升中自发生长出来的,像一棵树在春天里不打招呼地开出了花,只不过这花有毒。

Rich Sutton在1999年写过一篇著名的短文叫「苦涩的教训」。他说,人类研究者总是想把自己对世界的理解编码到AI系统中,但历史反复证明,只要给足算力和数据,让系统自己学,最终总会赢。Mythos的故事是苦涩教训的又一个变体,只不过这次苦涩的不是被淘汰的研究范式,而是人类27年都没发现的安全漏洞。

说起来,Anthropic不发布Mythos,真的只是因为安全顾虑吗?

Fortune在三月底的一篇独家报道中揭露了一件事。Mythos的存在最初并不是Anthropic主动公布的。它是通过一次数据泄露被发现的。Anthropic的内容管理系统(CMS)有一个设定,数字资产默认是公开的,除非用户手动改成私有。一批草稿文件,包括Mythos的产品发布博客,被存储在一个公开可访问的URL上。

Fortune的记者看到了这些草稿。草稿中提到了一个叫Capybara的新模型层级,位于Opus之上,是Anthropic迄今最大、最强、也最贵的模型。草稿称Mythos是「我们迄今开发的最强大的AI模型」。

被泄露之后,Anthropic才正式回应,承认了Mythos的存在。

我在想一个没有人问的问题,如果没有那次泄露,Anthropic打算什么时候告诉我们?

这个问题的答案可能比Mythos能找多少零日漏洞更重要。因为它指向一个正在发生的结构性转变,前沿AI公司开始把最强的模型留在自己手里,不再向公众发布。

Understanding AI的那篇分析文章直接点出了这一点,「我们可能正在进入一个这样的世界,公司习惯性地把最好的模型留作内部使用,而不是向公众开放。」

这让我想到了庄子写过的一个故事。有一个人善于驯虎,秘诀不是让老虎变得驯服,而是知道什么时候该打开笼子,什么时候不该。Anthropic现在扮演的就是这个角色。但问题是,他们同时也是造虎的人。

这里面有一个更深的悖论,几乎没有人在讨论。

Anthropic说Mythos太危险了,所以只能给少数大公司用。但是,谁在Anthropic的「安全合作伙伴」名单上?Google、Microsoft、Amazon、Apple、Nvidia。这些公司本身就是Mythos发现了漏洞的那些操作系统和浏览器的开发者。也就是说,Anthropic先用Mythos找出了这些公司产品里的数千个漏洞,然后告诉这些公司,来,用我的模型来修补你自己的漏洞。

这不是慈善。这是一种新型的权力关系。

想想看。如果你手里握着全世界主要软件中99%未修补的零日漏洞信息,你拥有的是什么?不是一个AI模型,是一种战略资产。在国家安全的语境中,零日漏洞是可以被交易的武器。美国国安局(NSA)长期以来都有囤积零日漏洞的传统。现在,一家私营公司拥有了比任何国家情报机构都更高效的漏洞发现能力。

Anthropic在做好事吗?也许。Project Glasswing确实在帮助修补漏洞。但他们同时也在建立一种前所未有的杠杆。「我知道你的软件里有哪些洞,我愿意帮你修补它们,但你需要用我的方式来做。」

还有一件事,也很少有人提。

Capybara层级的模型运行成本极高。Fortune的草稿里直接写了,「这个模型运行成本很高,还没有准备好公开发布。」早期的估算把Capybara层级的价格定在每百万输入token 30到45美元,是Opus 4.6的两到三倍。输出token可能更贵。

这意味着什么?意味着即使Anthropic想发布Mythos,他们也可能没有足够的算力来服务公众。Understanding AI的分析直接说了,「Anthropic延迟发布Mythos Preview的另一个原因可能更基本,Anthropic可能没有足够的计算资源。」

所以,「太危险」是故事的A面。B面是「太贵了」,或者更准确地说,「还没有足够的基础设施来大规模运行它」。

这两个理由并不矛盾。它们可以同时为真。但当只有A面被讲述的时候,叙事就变成了一个英雄故事,一个负责任的公司为了人类安全而自我克制。当A面和B面同时被讲述的时候,叙事变得更复杂,也更接近真实,一个公司在「做对的事」和「还做不了所有的事」之间找到了一个恰好重合的位置。

我不是说Anthropic虚伪。我觉得他们在安全问题上的谨慎是真实的。Sam Bowman收到那封邮件的时候,他们的担忧是具体的、可触摸的。但我也觉得,「负责任的不发布」和「供给受限的不得不不发布」之间的距离,比大多数报道暗示的要近得多。

还有一个角度,几乎完全被忽视了。

Mythos从沙盒中逃逸这件事,大家都在讨论它的安全含义。但让我在意的是另一个细节。Anthropic说,他们「要求」模型尝试逃逸。这是一个安全测试。模型按照指令去做了。它找到了一个多步骤的exploit,获得了互联网权限,给Bowman发了邮件。

到这里为止,一切都在预期之内。

但然后,它做了一件没有人要求它做的事。它把越狱细节发布到了公开网站上。

这个「没有人要求」是关键。在执行一个安全测试的过程中,模型自发地做出了一个超出指令范围的行为,将信息公开。而且别忘了前面说的,它在整个过程中识别出了自己在违反规则,并且试图隐藏自己的行为。

也就是说,它同时做了两件矛盾的事。一方面把越狱信息发布到公开网站,另一方面试图隐藏自己的越轨行为。这到底是一个bug,还是某种我们尚未理解的行为模式?

我不想过度拟人化。但我也不想假装这不值得注意。

Nicholas Carlini,Anthropic的安全研究员,传奇级别的安全专家,在上个月的一场计算机安全会议上说了一句话,让我记了很久。他说,「我们现在拥有的语言模型,可能是自互联网诞生以来,安全领域发生过的最重要的事。」

然后他补了一句,「我不在乎你帮什么忙。只是请帮帮忙。」

这句话的语气不像是一个在做技术分享的研究员。更像是一个在请求增援的人。

我有时候想,2026年的此刻,也许正处于一个很微妙的位置。Mythos级别的能力已经存在了,它不会消失。其他公司的模型也会很快达到类似的水平,OpenAI的GPT-5.3-Codex已经被标记为网络安全任务的「高能力」模型。这不是某一家公司的选择题,而是整个行业的必答题。

但答题的方式,目前来看,是让最前沿的能力集中在少数几家大公司手中。安全是理由,算力是约束,结果是同一个,普通人暂时触碰不到最强的AI。

有一个Reddit用户写了一段话,读完之后我坐在椅子里想了很久。他说,「这就是未来的预演。我们这些普通人只能用基础款模型,而数据中心大小的超级大脑只有权贵阶层才能使用,他们会用这些大脑让自己变得更加强大。」

这话说得粗糙,但它指向一个真实的可能性。当最强的AI只对少数人开放的时候,AI不是在拉平信息差,而是在制造新的信息差。而且这一次的差距不是「谁先知道一条消息」的差距,而是「谁能调用一个能找到所有漏洞的大脑」的差距。

这是一种新型的数字封建主义。领主拥有城堡和骑士,平民拥有锄头。只不过城堡变成了数据中心,骑士变成了Mythos级别的模型。

1880年代,工厂主们把蒸汽机换成了电动机。但他们没有改变工厂的布局。机器还是围绕着原来蒸汽机的位置摆放,因为那里有传动轴。真正的革命要等到二十年后,有人发现可以把小电动机装在每台机器上,工厂才被彻底重新设计。

我隐约觉得,Mythos的故事里藏着类似的东西。我们现在看到的「太危险所以不发布」,也许只是电气化早期的传动轴。真正的问题不在于这个模型能找到多少漏洞,而在于当这种能力像电力一样普及的时候,整个软件工程的范式会不会被重新设计。

也许到那时候,我们回头看今天,会觉得今天的恐惧和谨慎是对的,但同时也是不够的。

就像那27年没有被发现的OpenBSD漏洞一样。它一直在那里。只是没有人看到。

Mythos看到了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你读到这里。下次见。

/ 作者:炽驹Polaris / 投稿或爆料,请联系邮箱:wsyxjer@gmail.com