文件下载功能测试
帮我把这段话存成一个 txt 文件给我下载:「问蛙文件下载功能测试成功 2026」。文件名叫 test-download.txt
请详细分析一下英伟达和 AMD 在 AI 训练芯片上的竞争格局,写长一点
little_jeff

英伟达 vs AMD:AI 训练芯片竞争格局深度分析


一、先看一组硬数字(截至 2026 年 5 月 31 日)

指标 NVIDIA AMD
市值 $5.11 万亿 $8,416 亿
最新财年营收 $2,159 亿(FY2026) $346 亿(FY2025)
最新财年净利 $1,201 亿 $43.4 亿
净利润率 55.6% 12.5%
TTM ROE 111.7% 8.1%
TTM ROIC 63.0% 6.2%
毛利率 ~71% ~49.5%
R&D 费用率 8.2% 23.4%
Forward P/E(FY1) 23.8x 69.3x
Forward EV/Sales(FY1) 12.96x 16.71x
员工数 36,000 28,000

NVIDIA 的营收是 AMD 的 6.2 倍,净利润是 27.7 倍,但 AMD 的估值倍数反而更贵——这个反常现象本身就说明市场在给 AMD 的 "潜在追赶" 定价。


二、市场份额:一边倒,但不代表故事结束

AI 加速器市场整体份额(2025-2026):

  • NVIDIA:约 75-81% 的收入份额
  • AMD:约 5-15%(部分估计到 2026 年底可达 15-20%)
  • 定制 ASIC(Google TPU、AWS Trainium、Broadcom 代工方案等):正在快速蚕食市场份额

一个关键 nuance:AMD 的主要对手其实不完全是 NVIDIA,而是定制 ASIC。Google 的 TPU v6、AWS 的 Trainium3、微软的 Maia——这些 hyperscaler 自研芯片对 AMD 的威胁可能不亚于 NVIDIA。AMD 需要同时面对两个方向:向上打 NVIDIA 的 CUDA 帝国,向下防 ASIC 的性价比攻势。

AI 训练 vs 推理的拆解:

目前公开数据中训练和推理的收入占比很难精确拆分,但行业共识是:
- 训练端:NVIDIA 份额更高(可能 85-90%+),因为训练对软件生态依赖最重
- 推理端:竞争更分散,AMD、ASIC、甚至一些创业公司都在切份额

AMD 在训练端的突破比推理端更难,这也解释了为什么 AMD 的实际训练市场份额可能低于它在整体 AI 加速器的份额。


三、硬件架构:MI400 对 Blackwell——AMD 终于有了一张能打的牌

NVIDIA 当前主力:B200 / B300(Blackwell 系列)

  • B300(Blackwell Ultra)已于 2026 年初出货
  • 288 GB HBM3e,~8 TB/s 带宽
  • FP4 dense 算力约 14-15+ PFLOPS(系统级)
  • 配 NVLink + NVSwitch,多节点扩展能力强
  • DGX B300 整机系统已针对大模型训练和推理深度优化

AMD 即将到来的反击:MI400 系列(CDNA 5 架构)

  • 预计 2026 H2 开始出货(部分消息称年中可量产)
  • 旗舰型号(如 MI455X)搭载 432 GB HBM4,~19.6 TB/s 带宽
  • FP4 ~40 PFLOPS、FP8 ~20 PFLOPS(单 GPU,顶配 SKU)
  • 通过 Helios 平台实现机架级扩展
  • 分析师预测首年收入可达 $70 亿+

硬件层面的核心 trade-off:

AMD 的 MI400 在 "纸面规格" 上确实亮眼——内存容量和带宽全面超越 B300,尤其对 memory-bound 的大模型训练/推理天然有利。但这里有三个需要警惕的地方:

  1. 纸面算力 ≠ 实际利用率:NVIDIA 的软件栈更成熟,同等算力下的模型 FLOPS 利用率(MFU)通常比 AMD 高 5-10 个百分点以上。MI400 的 "40 PFLOPS" 到底能发挥多少,要等实际 workload 跑出来才知道。

  2. HBM4 的良率和产能:HBM4 是新技术,三星/SK 海力士的产能爬坡是最大不确定性。AMD 的 "432GB HBM4" 听起来很强,但如果良率低、产能跟不上,实际出货量会大打折扣。

  3. 集群效率:NVIDIA 的 NVLink + InfiniBand/Spectrum-X 是多年打磨的全栈互联方案。AMD 在 Infinity Fabric 和开放互联标准上的积累相对薄弱,多节点扩展时的效率损耗可能更大。


四、软件生态:CUDA 的护城河到底有多深?

这是整个竞争格局里最核心的问题,也是 AMD 最难过的一关。

CUDA 的厚度不只是 "一个编译器"

CUDA 的护城河由多层叠加构成:

  • 底层:cuBLAS、cuDNN、NCCL(集合通信库)——训练大模型的基础算子
  • 中层:TensorRT(推理优化)、CUDA Graphs、CUTLASS(矩阵乘法模板库)
  • 上层:与 PyTorch、JAX、TensorFlow 的深度集成
  • 工具链:Nsight 系列 profiler/debugger、NVIDIA AI Enterprise 套件
  • 开发者生态:约 590 万注册开发者、15 年以上的积累、几乎所有 AI 论文代码首先在 CUDA 上实现

更重要的是:CUDA 已经嵌入到了全球 AI 基础设施的毛细血管里。 从 NCCL 的多节点集合通信到 Triton Inference Server,再到 Megatron-LM、DeepSpeed 等分布式训练框架——所有这些东西默认优先支持 CUDA。即使 ROCm 在某个维度追平了,整个生态的 "默认设置" 仍然会持续利好 NVIDIA 多年。

ROCm 追到哪里了?

到 2026 年,ROCm(7.x 系列)已经取得了实质性的进步:

  • PyTorch/JAX 支持:对主流框架的支持已经达到 "day-1 compatible" 的水平,许多模型可以 "开箱即跑"
  • Triton 编译器:OpenAI 的 Triton 是一个关键的 "equalizer"——它让跨厂商的 kernel 生成变得更加统一,降低了从 CUDA 迁移的门槛
  • 生产部署:Meta 已经签署了多吉瓦级别的 AMD 部署协议,这是最有力的背书

但差距仍然存在
- 库的完整度、文档质量、社区支持都不如 CUDA
- 多节点训练的成熟度——NCCL 在这个领域深耕了 15 年,不是 2-3 年能追上的
- "诡异 bug" 概率——开发者社区的普遍反馈是,在 AMD 上跑非标准 workload 时遇到意料之外问题的概率更高

关于 Triton 的冷静评估:Triton 确实降低了迁移成本,但它不是魔法。它解决的是 "怎么写 GPU kernel" 的问题,但 "kernel 在特定硬件上怎么跑得快" 仍然依赖厂商自己的底层库。你在 PyTorch 里调用 torch.matmul(),底层走的是 cuBLAS 还是 rocBLAS——这层差异 Triton 管不到。


五、财务对比:两个不同的世界

NVIDIA FY2026(截至 2026 年 1 月)

项目 金额 同比
营收 $2,159 亿 +65.5%
毛利 $1,535 亿 +56.8%
研发费用 $185 亿 +43.2%
营业利润 $1,304 亿 +60.1%
净利润 $1,201 亿 +64.8%
EPS $4.93 +66.0%

关键观察:NVIDIA 的营收增速(65.5%)开始从 FY2025 的 114% 放缓,这是基数效应。但 $2,159 亿的营收盘子仍然保持了 50%+ 的增长——AI 需求远没到天花板。毛利率 71% 在半导体行业属于顶级的定价权信号。

AMD FY2025(截至 2025 年 12 月)

项目 金额 同比
营收 $346 亿 +34.3%
毛利 $172 亿 +34.8%
研发费用 $81 亿 +25.3%
营业利润 $37 亿 +94.4%
净利润 $43 亿 +164.2%
EPS $2.67 +164.4%

关键观察:AMD 的利润拐点正在出现——净利润从 FY2024 的 $16.4 亿跳升到 $43.4 亿(+164%)。但研发费用高达 $81 亿(占营收 23.4%),远高于 NVIDIA 的 8.2%。这说明 AMD 在拼命投资追赶,但也意味着如果 AI 芯片的规模效应没起来,利润率的改善会很慢。

分析师预期(Forward)

指标 NVIDIA FY2027E AMD FY2026E NVIDIA FY2028E AMD FY2027E
预期营收 $3,893 亿 $499 亿 $5,509 亿 $763 亿
预期 EPS $8.87 $7.44 $12.37 $13.10
Forward P/E 23.8x 69.3x 17.1x 39.4x

市场在给 AMD 的 "叙事溢价" 买单:AMD 当前的 Forward P/E(69.3x)是 NVIDIA(23.8x)的近 3 倍。这不是说 AMD 更好——恰恰相反,这说明 NVIDIA 的盈利已经足够大,PE 自然回落了。但 AMD 的 69x 隐含了一个非常乐观的假设:AI 芯片营收会持续爆发,而且利润率最终会向 NVIDIA 靠拢。如果这个假设不成立,估值下修空间很大。


六、客户结构与采购行为

谁在买训练芯片?

NVIDIA 的客户画像
- 所有主要 hyperscaler(Microsoft、Google、Amazon、Meta、Oracle)都是大客户
- 二级云厂商(CoreWeave、Lambda Labs、Crusoe 等)
- 企业级(xAI、OpenAI、Anthropic 等 AI lab 直接采购)
- 主权 AI 和政府客户

AMD 的客户画像
- Meta 是目前最大、最公开的 AMD AI 芯片客户(多吉瓦级部署协议)
- Microsoft 部分采用(Azure 上提供 MI300X 实例)
- Oracle Cloud 提供 AMD Instinct 实例
- 更偏向 "第二供应商" 策略——hyperscaler 买 AMD 更多是为了多样化供应链,而非 AMD 产品比 NVIDIA 更好

采购行为的三个驱动力

  1. 性能/生态(NVIDIA 赢):对于 "state-of-the-art" 训练任务,能用 CUDA 就用 CUDA,这是自然选择
  2. 成本/性价比(AMD 有机会):推理任务和"不是最前沿"的训练任务,如果 AMD 的每美元算力更优,就有替代空间
  3. 供应链多样化(AMD 受益):没人想把鸡蛋放一个篮子里,hyperscaler 有强烈动机扶持第二供应商

AMD 最大的客户风险:如果 Meta 的采购增速放缓(因为自研芯片 MTIA 或转向其他方案),AMD 的 AI 营收会面临集中度风险。


七、竞争护城河的多维度评估

NVIDIA 的护城河(按坚固度排序)

护城河来源 深度 说明
CUDA + 软件生态 极深 15 年积累、590 万开发者、全行业默认设置
互联技术(NVLink/NVSwitch) 很深 多节点训练的关键瓶颈在通信,NVIDIA 自研网络方案领先至少一代
全栈系统(DGX/HGX) 硬件+软件+网络的整合,买一套就全搞定
品牌与行业信任 "跑 AI 用 N 卡" 已是下意识反应
供应链管理 HBM、CoWoS 等关键产能优先分配给 NVIDIA,但 TSMC 也在帮 AMD
定价权 中-深 71% 毛利率说明定价权很强,但 hyperscaler 的自研+AMD 替代会逐步施加压力

AMD 的突破路径

突破口 进展 难度
ROCm 成熟度 7.x 已大幅改善,但仍有差距
内存/带宽领先 MI400 有望在纸面上超越 Blackwell 易(设计)- 中(量产)
性价比故事 在某些 workload 上确实更便宜
开源生态(Triton + PyTorch) 降低迁移门槛,但基础库仍是瓶颈 中-难
hyperscaler 多样化需求 最强顺风——不是 AMD 多好,是没人想被 NVIDIA 绑架 易(需求真实)

八、风险与变量

对 NVIDIA 的风险

  1. 增速放缓但估值仍隐含高增长:FY2026 营收 +65% 比 FY2025 的 +114% 已经减速,如果 FY2027 进一步放缓到 30-40%,23.8x forward PE 是否撑得住?
  2. 客户自研的压力:Google TPU 已迭代到 v6,AWS Trainium3 即将量产——这些不是直接竞争销售,但会蚕食 NVIDIA 的 TAM
  3. 中国出口管制:虽然 NVIDIA 有合规的中国特供版,但地缘政治风险始终存在
  4. CUDA 的 "反向压力":Triton、JAX、PyTorch 2.0 等框架层面的抽象在逐步降低 CUDA 的不可或缺性——虽然很慢,但方向是确定的

对 AMD 的风险

  1. MI400 的实际性能不确定:纸面规格好不等于实际跑得快,历史上 AMD 在这个问题上吃过亏
  2. HBM4 产能瓶颈:如果 HBM4 良率爬坡慢,MI400 的出货量和成本结构都会受影响
  3. 利润率的现实:R&D 占营收 23.4% 是不可持续的——如果 AI 芯片不能尽快起量,这个费用率会持续拖累利润
  4. 两头受压:高端打不过 NVIDIA 的训练集群,低端面临 ASIC 的性价比夹击
  5. 客户集中度:AI 芯片营收对 Meta 的依赖度过高

九、结论:不是"谁会赢",而是"格局怎么变"

当前时点(2026 年 5 月)的竞争状态

  • NVIDIA 在 AI 训练 上是绝对王者,这个位置在未来 2-3 年内很难被撼动。CUDA 生态 + NVLink 互联 + 全栈系统的组合优势是结构性而非周期性的。
  • AMD 正在从 "几乎不存在" 变成 "一个可以被认真考虑的选项"——这个转变本身就是巨大的进步。MI400 如果如期量产且性能兑现,AMD 有望在 2027 年把训练市场份额从个位数推到 15-20%。
  • 但 "替代 NVIDIA" 和 "成为 credible second source" 是两个完全不同的概念。AMD 的合理目标应该是后者。

三个关键观察

  1. 软件才是真正的战场:硬件的纸面参数之争最终会被软件实际利用率修正。CUDA 的护城河在训练端依然很深,但在推理端正在变浅——而推理才是未来 AI 芯片 TAM 的最大增量。

  2. "反 NVIDIA 联盟" 是 AMD 最大的顺风:不是 AMD 有多好,而是 hyperscaler 不想被一家供应商绑架。这种需求是真实的、结构性的、不依赖技术进步的。

  3. 真正的变量不是 AMD 能追多快,而是 NVIDIA 会不会犯错:历史上 Intel 在 x86 时代犯错(10nm 延迟)给了 AMD 翻盘机会。目前 NVIDIA 的执行力仍然是无懈可击的——黄仁勋的管理和产品节奏没有明显漏洞。只要 NVIDIA 不犯错,AMD 就只能做第二供应商而不是对等的竞争对手。

一句话总结:AI 训练芯片市场是 "NVIDIA 和其他所有人" 的格局,AMD 是 "其他人" 里最强的一个——但离真正的双寡头还有很长的路要走。

用一句话说 AMD MI300 对比 H100 的最大差异
little_jeff

MI300 硬件上内存更大(192GB HBM3 vs H100 80GB),纸面算力也不输,但真正拉开差距的是软件——ROCm 的生态成熟度、多节点训练效率、实际 MFU(模型算力利用率)都远不如 CUDA,导致 MI300 的纸面参数在真实训练场景下大打折扣。

简短说一下 CUDA 护城河为什么难突破
little_jeff

CUDA 不只是个编译器,是 15 年累积的全栈生态——底层库(cuDNN/NCCL)、框架集成(PyTorch 默认走 CUDA)、开发工具(profiler/debugger)、论文/开源项目全部默认 CUDA 优先。新来者可以把某一层追平,但追不平 "全球 AI 基础设施的默认设置" 这个惯性。Triton 等编译器在降低迁移成本,但底层算子优化的差距还在——跑的起来和跑得快是两码事。