当Jensen遇到ASIC:从“ASIC白送也没人要”到“欢迎加入NVLink 家族”

【来源:虎嗅网】

本文来自微信公众号:共识粉碎机 (ID:botaijin),作者:Andy Liu

过去十年,AI算力大战像是一次“硬件加速版”的《速度与激情》:上一秒GPU仍在领跑,下一秒就有ASIC、TPU、NPU等各种“改装赛车”呼啸而来。我们从去年下半年开始讨论ASIC,今年初讨论PD分离和MoE架构对于NV的影响,很早就关注到了模型技术演进对于底层算力的变化需求。

Computex 2025见证了最戏剧化的一幕——向来将ASIC视作“旁门左道、白送也没人要”的Jensen Huang,突然在台北舞台上抛出NVLink Fusion,正式邀请第三方ASIC接入Nvidia的“AI工厂”管线。这一举动不仅改写了Nvidia对ASIC的叙事,也宣告了AI ASIC时代已不可逆转,尤其在推理(inference decoding)场景中更显锋芒。当然,Nvidia GPU一定还是算力不可或缺的主力之一,只是相比之下,ASIC有着更大的增量空间。

1. 老黄早年立场:GPU才是“未来保险”,ASIC注定“还在路上”

  • 2017 年 TPU 冲击:Google在学术论文中声称 TPU 推理速度可比 K80 快 15–30 倍,引来 Nvidia 一次罕见的官方回应。Huang 强调“深度学习算法变化太快,把它们硬写进 ASIC 风险极高,GPU 的可编程性才是真正的护城河”;Nvidia的首席科学家Bill Dally也公开表示,TPU的算力优势可能本质上是来自于量化而非架构创新,GPU的架构通用性是非常强的壁垒,尤其涉及到复杂的指令集操作。

  • 核心论点:算法狂飙+迭代周期=ASIC 可能“刚量产就落伍”,而 GPU 每一代仍向后兼容 CUDA。

趣味对比:那时的GPU在Huang口中是“瑞士军刀”,而ASIC只是“一把钉子锤”——钉子换了就得重新造锤子。

2. 中段过渡(2022–2024):警惕但自信,软件生态、互联+计算一体化成为新护城河

  • 随着 AWS Inferentia、Tranium、Google TPU v5、Tesla Dojo 等 ASIC 落地,Huang 换了说法:“多数 ASIC 项目无法在我们的下一代 GPU 发布后仍保持优势,因为整套软件栈太复杂,不是谁都能重来一遍。”(Q4 FY2025 业绩电话会纪要)

  • 论调升级:不再单谈 FLOPS,而是把 CUDA、TensorRT、NCCL、NVLink这些“系统级胶水”抬到护城河高度——“就算你做了 ASIC,也要先把整座软件山搬过去”,“GB200的推理TCO有30倍降低,未来每代都会数量级降低TCO,ASIC没有优势”。

3. Computex 2025:官方“投诚”——NVLink Fusion向第三方ASIC敞开大门

在台北音乐中心的90分钟独角戏里,Huang抛出了NVLink Fusion:

  • 提供chiplet PHY+IP,允许Alchip、Marvell、MediaTek等在自家ASIC里直接挂上NVLink,总线带宽与Blackwell GPU等价。

  • 同时宣布Grace-Blackwell架构支持异构任务调度,第三方芯片也能由CUDA/Nimble驱动。

话语体系彻底翻篇:“NVLink Fusion 让你可以把任何加速器接进我们的 AI 工厂。” ——Huang 现场致辞

信号:Nvidia 不再把 ASIC 视为“外来威胁”,而是系统租户;你可以带着自己那把菜刀进厨房,但炉灶、抽油烟机和菜谱依旧写着 NVIDIA。

4. 为什么偏偏是Inference Decoding先被ASIC颠覆?

  • 算型稳定:生成式模型推理阶段主要是 GEMM + token softmax,算子稳定、精度可容忍INT8/FP8,适合硬化。

  • PD分离:随着集群式推理成为了主流,Inference未来的方向是PD分离(prefill和decoding分离),prefill是compute bound,而decoding是memory bound。Decoding天然对于通用性的要求低,而对于算法-芯片共同优化要求高,这给了ASIC非常大的空间。

  • 部署规模:在2023-2024,大部分的算力都是用来做training。然后,随着2025年,agent元年的到来,inference的算力会逐渐变成大部分,未来inference的算力需求是巨大的。这么大的量,用自研ASIC来替代,是完全算的过来账的。

5. Nvidia的两手策略:GPU继续开路,ASIC交过路费

  • 硬件层:把NVLink-Spine 当作 高速公路,第三方 ASIC 必须买“高速卡”才能上路;带动Switch & Fabric 收入。

  • 软件层:推CUDA-Graph + TensorRT-LLM作“统一调度内核”,不管你是      GPU 还是 ASIC,都得用 Nvidia runtime。

  • 商业层:与其阻击,不如“抽成”。NVLink      Fusion ≈ Arm IP 授权模式 + AWS Nitro 思路。

6. 结语:从鄙视到拥抱,ASIC趋势已成大势

  • 2017:“算法还在变,别急着做 ASIC。”

  • 2025:“算法固化的那部分,欢迎接 NVLink 来跑。”

  • 下一幕:推理侧能效神教与训练侧 规模神教并存GPU 做万能引擎ASIC 做高效涡轮,共同构成 AI 工厂流水线。

GPU仍是瑞士军刀,但在这个“Token工厂”时代,每把菜刀也在自成流派。

Jensen Huang想做的,是把整个厨房的排烟管都换成了NVLink。

当然这套NVLink Fusion好不好推,会持续跟踪,难度也很大。