DeepSeek多边形战士团队，由水晶多面体组成的人形剪影环绕着代码光芒，远处是透明屋顶的研发办公室

DeepSeek，由多边形战士组成的AI团队

人才流动风暴，多个发光人影从DeepSeek标志建筑中向四面八方散去

过去一年，围绕DeepSeek的人才流动消息一直没有停。从早期罗福莉离职，到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅，相继跳槽。

核心作者接连被挖，DeepSeek的技术壁垒会不会松动？

我们决定换一种方式来看这个问题。我们用Codex和Python，梳理了DeepSeek近两年发布的27篇核心论文和技术报告，逐篇拆解署名作者，最终得到一份包含328人的研发作者池。

数据呈现了一个与舆论叙事截然不同的画面：79位跨方向骨干、87%的初代留存率，和一套让年轻人围绕问题自由组队的机制。

DeepSeek的竞争力，或许从来就不依附于几个明星个体。

被挖走的那几位，到底排第几

我们考察两个维度：参与论文的数量，以及覆盖技术方向的广度。我们把同时覆盖3个及以上技术方向的研发作者，称为“多边形战士”。这个数字是79人。

再看那些传闻中被重金争抢的名字，在网络里排在哪。

阮翀确实是Top 1——覆盖18篇论文、6个方向，从MoE架构到数学证明到多模态，几乎无处不在。他本硕均毕业于北京大学，早年从事NLP研发，2023年加入DeepSeek，是VL2的通讯作者。今年1月，他加入元戎启行并担任首席科学家。

郭达雅参与11篇论文，覆盖4个方向，在高频研发作者中并列第12位。王炳宣参与10篇论文，覆盖5个方向，并列第17位。

他们是核心人员，离开当然是损失。但关键问题是：DeepSeek还有多少个“郭达雅”“王炳宣”？像他们这样参与10篇以上论文的研发作者有24位。即便离开了三位，后面还有21位参与强度相当的人。

如果把DeepSeek看成一支球队，虽然被挖走的是几位核心球员，但这支球队的人才密度，比想象中更厚。

328位研发作者中，只在1个方向出现过的有158人。剩下170人，至少跨过两个方向。横跨3个及以上方向的，有79人。

最极端的例子是李宇琨。他参与14篇论文，横跨全部7个方向，从初代DeepSeek LLM一路到最新V4，谷歌学术引用量超过两万。他是DeepSeek的“首位员工”，2023年从字节跳动搜索团队离职后加入，负责预训练数据的相关工作。

这印证了一个常被外界忽略的事实：在AI行业，人才一直是多向流动的。DeepSeek也在从别处挖人。

人才双向流动图，深渊中多道光流汇聚成发光的漩涡

多边形战士怎么长出来

外界总在讨论DeepSeek还有没有天才。梁文锋说过，做出DeepSeek V2的，“都是一些Top高校的应届毕业生、没毕业的博四博五实习生，还有一些毕业才几年的年轻人。”

DeepSeek不同的地方，是能让一批很年轻的人，迅速在多个技术方向之间组队、探索、获得资源，较少受到约束和限制。

辛华剑在DeepSeek实习期间，主导开发了专注于数学证明的DeepSeek-Prover系列模型。他曾告诉「甲子光年」，Prover在内部最初只是一个独立探索项目，初衷是验证能否通过形式化系统构造出更严格的推理数据。

大多数大厂会先设部门、定KPI、分预算，再启动项目。DeepSeek的顺序是反过来的：先有人觉得一个问题值得做，再围绕这个问题找人和资源。

在论文合作网络里，这种“组队”方式留下的痕迹很清楚。328位研发作者中有168人形成了稳定、重复的合作关系，累计产生了319条合作连接。按署名关系聚类，能看到4个相对集中的小组：基模大兵团、系统效率、数学与推理、多模态，以及3个更小的协作簇。

这套组织方式还有一个在AI行业里极为罕见的特征：不加班。平日多数成员6到7点离开公司，不打卡，没有明确绩效考核。梁文锋的逻辑是：“一个人每天能高质量工作的时间很难超过6到8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源，得不偿失。”

DeepSeek论文作者中，多为2023年前后毕业的清华、北大、中科大等高校本硕博生。排名前25的高频研发作者里，近4成毕业于北大。但这不是简单的“名校人海战术」。

一位AI公司董事长曾告诉「甲子光年」，自从ChatGPT出来后，他开始挤出午饭时间面试有潜力的在读博士生。这一时间点后毕业的博士，还未被行业惯性束缚，常带来意想不到的突破。

那DeepSeek团队稳定性如何？我们交叉比对从论文署名发现：初代模型论文（2024年1月）的86位作者中，到V4（2026年4月）仍然出现在署名里的有75人。两年半过去，初代团队近九成仍在。V4的269名研发工程作者中，论文标注已离职者为10人，占比约3.7%。

89%初代留存率可视化，87个发光人形中75个手牵手站成圆环

这些数字说明，核心研发网络并没有因为几位明星出走而散架。

两年27篇论文，死磕系统效率

只看外界声量，V3、V4这些基座模型报告最引人注目。但论文主题分布给出的结果有点反直觉：27篇中数量最多的，不是基座模型，而是系统/效率类论文（7篇），超过基座模型（5篇）和数学（5篇）。

这7篇分别是：DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。没有一篇是在刷benchmark，全都在解决同一类问题：怎么用更少的算力做更多的事。

逐一拆解这些论文，会看到三类底层问题。

第一类，怎么更好利用算力。 ESFT关注的是如何更经济地完成模型微调，Insights into V3则复盘如何在大规模集群训练中提高硬件利用率和稳定性。

第二类，处理长上下文时降低缓存成本。 当模型需要处理更长文本，或者执行复杂Agent任务时，注意力计算和KV Cache会迅速变贵。NSA、Conditional Memory和DualPath都在试图压缩模型“记住历史”的成本。

第三类，模型变大之后怎么训练得稳。 DeepSeekMoE探索的是参数规模变大时，只激活更少的专家网络；mHC则试图增强深层网络中的信号传播，降低超大规模模型训练时的不稳定性。

梁文锋曾抛出过一个假设：“能不能用现存的一部分算力，就实现现在所有的智能？”这7篇系统相关论文，可以看作DeepSeek团队一直在回答这个问题。

还有一个细节值得注意，27篇论文的作者规模，呈现“大小搭配”的节奏。基座模型报告动辄200到300人的全员参与，系统、数学、多模态方向的论文通常只有6到20人。前者像大兵团作战，后者像特种小队的单点突破，先用小团队低成本验证，跑通了再集成进下一代旗舰。

从R1到V4，攒出底牌

如果把DeepSeek的研发看成一场长跑，V4不是突然出现的爆发，更像是几条技术路线在两年后集中收束。

第一条主线是参数效率。 从V2引入MoE（稀疏混合专家架构），到V3延续并强化多Token预测策略，再到V4在MoE框架上继续压低激活参数和推理成本。一路都在往“激活更少参数、完成同样任务”的方向走。

参数效率进化之路，由微型积木搭建的能量之桥横跨深渊

第二条主线是长上下文效率。 用一个比喻来理解，传统大模型像把整本书摊开，每回答一个问题都要从头翻一遍。DeepSeek从V2开始就在想：能不能把近处内容保留原文、远处内容做成目录、更远处内容压成章节摘要？这个想法从V2的MLA（多头潜在注意力），到V3.2的NSA（原生稀疏注意力），一直演化到V4的Hybrid Attention（混合注意力系统）。

V4技术报告显示，在100万Token的长上下文场景下，V4-Pro的单Token推理计算量约为V3.2的27%，KV Cache占用约为其10%。

第三条主线是后训练整合。 R1证明了大规模强化学习可以显著激发模型推理能力。到了V4，思路延伸为在数学、代码等领域分别练强，再统一“毕业”——通过同策略蒸馏（OPD）将能力合并进统一模型，减少混训时的相互干扰。

此外，Prover系列服务于数学与形式化推理，OCR路线为视觉输入压缩提供低成本方案，mHC与Muon是更底层的训练稳定性优化。每个关键模块先在小规模论文里反复试验，随后进入旗舰，最后沉淀成整个团队的工程实践。

值得注意的是，DeepSeek甚至把底层算子库从主流的CUDA和Triton换成了北大团队开源的TileLang，V3.1的数据压缩格式也是针对下一代国产芯片设计的。在追求极致效率的同时，他们还在做一件更长远的事：基于国产生态来做大模型。

挖走人，带不走体系

人才流动不会停止。在AI行业，顶尖研发作者被高薪争抢几乎是常态。DeepSeek也不会例外。

但如果用挖人来判断一家公司的稳定性，这个框架本身就有问题——尤其当这家公司的竞争力，根本不依附于几个明星个体。

数据呈现的DeepSeek是：79位多边形战士、24位参与10篇以上论文的骨干、两年半前的初代成员87%仍选择留下来。这张网络里有25位跨界枢纽，把研发串联在一起，没有固定部门墙，研究员根据兴趣和问题动态集结。

而那两年积累下来的技术路线——从MoE到MLA到GRPO到mHC——每个模块都经过前序论文的反复验证，早已内化在整个团队的工程实践里。

梁文锋说过：“我们把价值沉淀在团队上，同事在过程中得到成长，积累很多know-how，形成可以创新的组织和文化，就是我们的护城河。”

护城河是团队，一个年轻人在透明办公室里望向窗外，夜色中城市灯火通明

这可能才是500亿美元估值背后，最值得被重新定价的东西。