心智观察所:如果DeepSeek选择华为,黄仁勋说的“灾难”到底是什么?
作者:tmessivae 来源:宜昌 浏览: 【大中小】 发布时间:2026-04-25评论数:
【文/网 心智观察所】
4月15日黄仁勋接受Dwarkesh Patel的播客专访时,说了一句分量很重的话:“如果DeepSeek先在华为平台上发布,那对我们国家来说将是灾难性的。”
在整场一个半小时的访谈里,这句话显得格外突兀。它既不是关于供应链的技术阐述,也不是关于TPU竞争的商业分析,而是一个高度情绪化的判断。要读懂它,必须把时间倒回去看。
就在这场访谈的前一周,多家媒体已经爆料DeepSeek下一代旗舰模型V4全面迁移至华为昇腾950PR,底层代码从CUDA重写为华为自研的CANN框架,按计划4月下旬发布。也就是说,黄仁勋嘴里那个被设定为“假设”的坏消息,其实已经在发生的路上。
Patel在访谈中追问得很直接:为什么?DeepSeek是开源的,理论上可以跑在任何加速器上,即便它在华为昇腾上首发,在英伟达GPU上同样能跑,区别到底在哪里?黄仁勋的回答泄露了真正让他介意的东西——“假设它是针对华为优化的,针对他们的架构化了,那就会让我们处于劣势”。
他把Dwarkesh描述的“全球最强模型运行在美国技术栈上”定义为“好消息”,反过来,如果一个来自中国的优秀开源模型以非美国硬件为首要优化目标、在非美国硬件上跑得最好,那才是真正的坏消息。这非常精确的暴露出:英伟达真正害怕的从来不是中国做出好模型,而是好模型不再以CUDA生态作为默认的优化起点。
这一层面纱被Dwarkesh的追问轻轻挑开以后,整场访谈很多看似“关心国家利益”的表述,才能还原出它商业本能的那一面。
英伟达真正的护城河从来不是GPU本身的算力,而是CUDA作为“事实标准”的软件生态位。过去近二十年里,几乎所有主流AI框架、算子库、开源模型的首发优化,都把CUDA作为默认起点。
这条生态护城河的运转逻辑非常简单:只要新模型先在CUDA上调通跑顺,那么哪怕华为、谷歌TPU、AMD MI300在纸面上单卡性能不差,它们在客户那里也只能是“备选方案”。因为迁移意味着重写算子、重做精度校准、重新调参,工程代价可能以月计。而“事实标准”的地位一旦建立,就会自我强化:越多人优化CUDA,CUDA上跑得越好;越多人在CUDA上做研究,新工作自然继续落在CUDA上。
DeepSeek若先在昇腾上发布,戳破的恰恰是这条链条的起点:这意味着至少存在一条真实、可运行、被顶级模型验证过的非CUDA路径,并且这条路径上会沉淀下一批熟练的工程师、一套可复制的优化经验、以及第一批用户信心。这才是黄仁勋那句“灾难性”的真实分量:不怕某一款芯片被替换,但怕“开源模型必须以CUDA为首要优化目标”这条默认规则出现第一个公开的反例。
把这一点放回中国算力基础设施的真实图谱上看,黄仁勋的焦虑就不再显得夸张。
华为昇腾910C的单卡FP16算力大约是800TFLOPS,坦率说仍不及英伟达Blackwell旗舰,SemiAnalysis的估算显示单卡性能差距大致在三倍左右;但华为选择的不是单卡硬拼,而是系统工程层面的群体战术。2025年4月推出的CloudMatrix384超节点,把384颗910C通过6912个400G光模块全互联堆叠在一起,BF16集群算力达到300PFLOPS,约为英伟达GB200NVL72旗舰集群的1.7倍,HBM总容量更是达到后者的3.6倍。功耗代价确实惊人,整体功率近560千瓦,相当于英伟达同级方案的近四倍,但在中国可再生能源装机全球第一的背景下,这个代价可以部分被“便宜的瓦特”吸收。
2025年9月的华为全联接大会,徐直军公布了更激进的路线图:Atlas950 超节点规模8192卡、四季度上市,Atlas960 超节点规模15488卡、2027年四季度上市,昇腾950PR/DT、960、970三年路线依次展开。这是一条“以规模换效率,以系统换单点”的清晰叙事,而黄仁勋在访谈中提出的“五层蛋糕”,即最底层是能源、能源充足时芯片就够用、中国能源充足所以7nm也够,恰恰是对这条叙事的另一种表达方式,只不过他是从对手视角在说。
黄仁勋并不是没有意识到华为这套打法在商业上意味着什么,他只是没法在镜头前用太直白的语言说。访谈里他反复强调一件事,中国是全球第二大计算市场,中国拥有世界上大约一半的AI研究人员,中国算力总量非常庞大:“如果他们想整合计算资源,完全可以满足需求”。
这些话通常被解读为黄仁勋在为重返中国市场做舆论铺垫,其实它们构成了一个完整的推理链:算力够、能源够、研究人员够,唯一缺的是让这些要素沿着非英伟达路径组织起来的粘合剂;而这个粘合剂,就是一款可以让全球开发者看见“在非CUDA栈上也能跑出世界级结果”的旗舰模型。
DeepSeekV3和R1在2025年初曾引发过一次全球震动,它们用极低成本训出接近OpenAI水平的表现,第一次让市场开始怀疑“算力决定一切”的范式。现在,V4如果真的以昇腾首发,其象征意义将远超V3。V3证明的是中国能做好模型,V4要证明的是中国能在自己的硬件上做好模型。这两件事的差别,就是“客户”和“对手”的差别。
理解了这一层,访谈里黄仁勋那些看似不连贯的逻辑闪烁就能连成线。Patel在对话中其实递出过好几记尖锐的反问,都被黄仁勋用策略性模糊处理掉。
主持人Patel问,既然你说所有美国AI实验室都受限于算力,那让中国算力比美国少、让美国更早达到某个“Mythos级别”的能力上限,不是更符合美国利益吗?黄仁勋回答说,要让那种结果成立,得把情况推到极端,必须让中国完全没有算力,而这是做不到的。
这个回答其实绕过了Patel真正的问题:出口管制的目的从来不是让对手归零,而是维持12到18个月的能力窗口。黄仁勋把一个关于时间差的问题,偷换成了一个关于绝对值的问题。
这种辩论技巧在访谈里出现了不止一次,它解释了一个矛盾现象:黄仁勋一方面用DeepSeek的成功证明“出口管制没用、中国反正会创新”,另一方面又用“再不卖中国就彻底脱离我们生态”来论证应该继续卖芯片给中国。
如果前者为真,后者的逻辑就站不住脚,因为既然脱离不脱离都会创新,那么卖芯片买到的“忠诚”就是虚构的。这个内在的不自洽,恰恰提示我们:黄仁勋的真实目标不是国家战略推理,而是保住中国市场这个收入盘子的同时、保住CUDA作为事实标准的生态位——这两件事现在正在同步滑落,他必须同时往两头拉。
访谈里还有一段经常被忽略的对话,但它其实把黄仁勋的策略图景交代得非常完整。Patel问,为什么英伟达不同时开几条架构路线,比如晶圆级芯片、大封装芯片、不用CUDA的芯片?黄仁勋的回答是“我们模拟过了,效果更差”。
这个回答实际上还是前面说的战略,英伟达不会自己去稀释CUDA的标准地位,哪怕是内部。但他紧接着又承认,英伟达最近把Groq整合进了自己的CUDA生态,原因是token的平均售价上涨,高价值用户愿意为更低延迟付费,这开辟了一个全新的推理细分市场。
- {loop type="catelog" row=10}{$vo.title}