
已保存,test-download.txt 应该已经出现在下载区了。

英伟达 vs AMD:AI 训练芯片竞争格局深度分析
一、先看一组硬数字(截至 2026 年 5 月 31 日)
| 指标 | NVIDIA | AMD |
|---|---|---|
| 市值 | $5.11 万亿 | $8,416 亿 |
| 最新财年营收 | $2,159 亿(FY2026) | $346 亿(FY2025) |
| 最新财年净利 | $1,201 亿 | $43.4 亿 |
| 净利润率 | 55.6% | 12.5% |
| TTM ROE | 111.7% | 8.1% |
| TTM ROIC | 63.0% | 6.2% |
| 毛利率 | ~71% | ~49.5% |
| R&D 费用率 | 8.2% | 23.4% |
| Forward P/E(FY1) | 23.8x | 69.3x |
| Forward EV/Sales(FY1) | 12.96x | 16.71x |
| 员工数 | 36,000 | 28,000 |
NVIDIA 的营收是 AMD 的 6.2 倍,净利润是 27.7 倍,但 AMD 的估值倍数反而更贵——这个反常现象本身就说明市场在给 AMD 的 "潜在追赶" 定价。
二、市场份额:一边倒,但不代表故事结束
AI 加速器市场整体份额(2025-2026):
- NVIDIA:约 75-81% 的收入份额
- AMD:约 5-15%(部分估计到 2026 年底可达 15-20%)
- 定制 ASIC(Google TPU、AWS Trainium、Broadcom 代工方案等):正在快速蚕食市场份额
一个关键 nuance:AMD 的主要对手其实不完全是 NVIDIA,而是定制 ASIC。Google 的 TPU v6、AWS 的 Trainium3、微软的 Maia——这些 hyperscaler 自研芯片对 AMD 的威胁可能不亚于 NVIDIA。AMD 需要同时面对两个方向:向上打 NVIDIA 的 CUDA 帝国,向下防 ASIC 的性价比攻势。
AI 训练 vs 推理的拆解:
目前公开数据中训练和推理的收入占比很难精确拆分,但行业共识是:
- 训练端:NVIDIA 份额更高(可能 85-90%+),因为训练对软件生态依赖最重
- 推理端:竞争更分散,AMD、ASIC、甚至一些创业公司都在切份额
AMD 在训练端的突破比推理端更难,这也解释了为什么 AMD 的实际训练市场份额可能低于它在整体 AI 加速器的份额。
三、硬件架构:MI400 对 Blackwell——AMD 终于有了一张能打的牌
NVIDIA 当前主力:B200 / B300(Blackwell 系列)
- B300(Blackwell Ultra)已于 2026 年初出货
- 288 GB HBM3e,~8 TB/s 带宽
- FP4 dense 算力约 14-15+ PFLOPS(系统级)
- 配 NVLink + NVSwitch,多节点扩展能力强
- DGX B300 整机系统已针对大模型训练和推理深度优化
AMD 即将到来的反击:MI400 系列(CDNA 5 架构)
- 预计 2026 H2 开始出货(部分消息称年中可量产)
- 旗舰型号(如 MI455X)搭载 432 GB HBM4,~19.6 TB/s 带宽
- FP4 ~40 PFLOPS、FP8 ~20 PFLOPS(单 GPU,顶配 SKU)
- 通过 Helios 平台实现机架级扩展
- 分析师预测首年收入可达 $70 亿+
硬件层面的核心 trade-off:
AMD 的 MI400 在 "纸面规格" 上确实亮眼——内存容量和带宽全面超越 B300,尤其对 memory-bound 的大模型训练/推理天然有利。但这里有三个需要警惕的地方:
-
纸面算力 ≠ 实际利用率:NVIDIA 的软件栈更成熟,同等算力下的模型 FLOPS 利用率(MFU)通常比 AMD 高 5-10 个百分点以上。MI400 的 "40 PFLOPS" 到底能发挥多少,要等实际 workload 跑出来才知道。
-
HBM4 的良率和产能:HBM4 是新技术,三星/SK 海力士的产能爬坡是最大不确定性。AMD 的 "432GB HBM4" 听起来很强,但如果良率低、产能跟不上,实际出货量会大打折扣。
-
集群效率:NVIDIA 的 NVLink + InfiniBand/Spectrum-X 是多年打磨的全栈互联方案。AMD 在 Infinity Fabric 和开放互联标准上的积累相对薄弱,多节点扩展时的效率损耗可能更大。
四、软件生态:CUDA 的护城河到底有多深?
这是整个竞争格局里最核心的问题,也是 AMD 最难过的一关。
CUDA 的厚度不只是 "一个编译器"
CUDA 的护城河由多层叠加构成:
- 底层:cuBLAS、cuDNN、NCCL(集合通信库)——训练大模型的基础算子
- 中层:TensorRT(推理优化)、CUDA Graphs、CUTLASS(矩阵乘法模板库)
- 上层:与 PyTorch、JAX、TensorFlow 的深度集成
- 工具链:Nsight 系列 profiler/debugger、NVIDIA AI Enterprise 套件
- 开发者生态:约 590 万注册开发者、15 年以上的积累、几乎所有 AI 论文代码首先在 CUDA 上实现
更重要的是:CUDA 已经嵌入到了全球 AI 基础设施的毛细血管里。 从 NCCL 的多节点集合通信到 Triton Inference Server,再到 Megatron-LM、DeepSpeed 等分布式训练框架——所有这些东西默认优先支持 CUDA。即使 ROCm 在某个维度追平了,整个生态的 "默认设置" 仍然会持续利好 NVIDIA 多年。
ROCm 追到哪里了?
到 2026 年,ROCm(7.x 系列)已经取得了实质性的进步:
- PyTorch/JAX 支持:对主流框架的支持已经达到 "day-1 compatible" 的水平,许多模型可以 "开箱即跑"
- Triton 编译器:OpenAI 的 Triton 是一个关键的 "equalizer"——它让跨厂商的 kernel 生成变得更加统一,降低了从 CUDA 迁移的门槛
- 生产部署:Meta 已经签署了多吉瓦级别的 AMD 部署协议,这是最有力的背书
但差距仍然存在:
- 库的完整度、文档质量、社区支持都不如 CUDA
- 多节点训练的成熟度——NCCL 在这个领域深耕了 15 年,不是 2-3 年能追上的
- "诡异 bug" 概率——开发者社区的普遍反馈是,在 AMD 上跑非标准 workload 时遇到意料之外问题的概率更高
关于 Triton 的冷静评估:Triton 确实降低了迁移成本,但它不是魔法。它解决的是 "怎么写 GPU kernel" 的问题,但 "kernel 在特定硬件上怎么跑得快" 仍然依赖厂商自己的底层库。你在 PyTorch 里调用 torch.matmul(),底层走的是 cuBLAS 还是 rocBLAS——这层差异 Triton 管不到。
五、财务对比:两个不同的世界
NVIDIA FY2026(截至 2026 年 1 月)
| 项目 | 金额 | 同比 |
|---|---|---|
| 营收 | $2,159 亿 | +65.5% |
| 毛利 | $1,535 亿 | +56.8% |
| 研发费用 | $185 亿 | +43.2% |
| 营业利润 | $1,304 亿 | +60.1% |
| 净利润 | $1,201 亿 | +64.8% |
| EPS | $4.93 | +66.0% |
关键观察:NVIDIA 的营收增速(65.5%)开始从 FY2025 的 114% 放缓,这是基数效应。但 $2,159 亿的营收盘子仍然保持了 50%+ 的增长——AI 需求远没到天花板。毛利率 71% 在半导体行业属于顶级的定价权信号。
AMD FY2025(截至 2025 年 12 月)
| 项目 | 金额 | 同比 |
|---|---|---|
| 营收 | $346 亿 | +34.3% |
| 毛利 | $172 亿 | +34.8% |
| 研发费用 | $81 亿 | +25.3% |
| 营业利润 | $37 亿 | +94.4% |
| 净利润 | $43 亿 | +164.2% |
| EPS | $2.67 | +164.4% |
关键观察:AMD 的利润拐点正在出现——净利润从 FY2024 的 $16.4 亿跳升到 $43.4 亿(+164%)。但研发费用高达 $81 亿(占营收 23.4%),远高于 NVIDIA 的 8.2%。这说明 AMD 在拼命投资追赶,但也意味着如果 AI 芯片的规模效应没起来,利润率的改善会很慢。
分析师预期(Forward)
| 指标 | NVIDIA FY2027E | AMD FY2026E | NVIDIA FY2028E | AMD FY2027E |
|---|---|---|---|---|
| 预期营收 | $3,893 亿 | $499 亿 | $5,509 亿 | $763 亿 |
| 预期 EPS | $8.87 | $7.44 | $12.37 | $13.10 |
| Forward P/E | 23.8x | 69.3x | 17.1x | 39.4x |
市场在给 AMD 的 "叙事溢价" 买单:AMD 当前的 Forward P/E(69.3x)是 NVIDIA(23.8x)的近 3 倍。这不是说 AMD 更好——恰恰相反,这说明 NVIDIA 的盈利已经足够大,PE 自然回落了。但 AMD 的 69x 隐含了一个非常乐观的假设:AI 芯片营收会持续爆发,而且利润率最终会向 NVIDIA 靠拢。如果这个假设不成立,估值下修空间很大。
六、客户结构与采购行为
谁在买训练芯片?
NVIDIA 的客户画像:
- 所有主要 hyperscaler(Microsoft、Google、Amazon、Meta、Oracle)都是大客户
- 二级云厂商(CoreWeave、Lambda Labs、Crusoe 等)
- 企业级(xAI、OpenAI、Anthropic 等 AI lab 直接采购)
- 主权 AI 和政府客户
AMD 的客户画像:
- Meta 是目前最大、最公开的 AMD AI 芯片客户(多吉瓦级部署协议)
- Microsoft 部分采用(Azure 上提供 MI300X 实例)
- Oracle Cloud 提供 AMD Instinct 实例
- 更偏向 "第二供应商" 策略——hyperscaler 买 AMD 更多是为了多样化供应链,而非 AMD 产品比 NVIDIA 更好
采购行为的三个驱动力
- 性能/生态(NVIDIA 赢):对于 "state-of-the-art" 训练任务,能用 CUDA 就用 CUDA,这是自然选择
- 成本/性价比(AMD 有机会):推理任务和"不是最前沿"的训练任务,如果 AMD 的每美元算力更优,就有替代空间
- 供应链多样化(AMD 受益):没人想把鸡蛋放一个篮子里,hyperscaler 有强烈动机扶持第二供应商
AMD 最大的客户风险:如果 Meta 的采购增速放缓(因为自研芯片 MTIA 或转向其他方案),AMD 的 AI 营收会面临集中度风险。
七、竞争护城河的多维度评估
NVIDIA 的护城河(按坚固度排序)
| 护城河来源 | 深度 | 说明 |
|---|---|---|
| CUDA + 软件生态 | 极深 | 15 年积累、590 万开发者、全行业默认设置 |
| 互联技术(NVLink/NVSwitch) | 很深 | 多节点训练的关键瓶颈在通信,NVIDIA 自研网络方案领先至少一代 |
| 全栈系统(DGX/HGX) | 深 | 硬件+软件+网络的整合,买一套就全搞定 |
| 品牌与行业信任 | 深 | "跑 AI 用 N 卡" 已是下意识反应 |
| 供应链管理 | 中 | HBM、CoWoS 等关键产能优先分配给 NVIDIA,但 TSMC 也在帮 AMD |
| 定价权 | 中-深 | 71% 毛利率说明定价权很强,但 hyperscaler 的自研+AMD 替代会逐步施加压力 |
AMD 的突破路径
| 突破口 | 进展 | 难度 |
|---|---|---|
| ROCm 成熟度 | 7.x 已大幅改善,但仍有差距 | 中 |
| 内存/带宽领先 | MI400 有望在纸面上超越 Blackwell | 易(设计)- 中(量产) |
| 性价比故事 | 在某些 workload 上确实更便宜 | 中 |
| 开源生态(Triton + PyTorch) | 降低迁移门槛,但基础库仍是瓶颈 | 中-难 |
| hyperscaler 多样化需求 | 最强顺风——不是 AMD 多好,是没人想被 NVIDIA 绑架 | 易(需求真实) |
八、风险与变量
对 NVIDIA 的风险
- 增速放缓但估值仍隐含高增长:FY2026 营收 +65% 比 FY2025 的 +114% 已经减速,如果 FY2027 进一步放缓到 30-40%,23.8x forward PE 是否撑得住?
- 客户自研的压力:Google TPU 已迭代到 v6,AWS Trainium3 即将量产——这些不是直接竞争销售,但会蚕食 NVIDIA 的 TAM
- 中国出口管制:虽然 NVIDIA 有合规的中国特供版,但地缘政治风险始终存在
- CUDA 的 "反向压力":Triton、JAX、PyTorch 2.0 等框架层面的抽象在逐步降低 CUDA 的不可或缺性——虽然很慢,但方向是确定的
对 AMD 的风险
- MI400 的实际性能不确定:纸面规格好不等于实际跑得快,历史上 AMD 在这个问题上吃过亏
- HBM4 产能瓶颈:如果 HBM4 良率爬坡慢,MI400 的出货量和成本结构都会受影响
- 利润率的现实:R&D 占营收 23.4% 是不可持续的——如果 AI 芯片不能尽快起量,这个费用率会持续拖累利润
- 两头受压:高端打不过 NVIDIA 的训练集群,低端面临 ASIC 的性价比夹击
- 客户集中度:AI 芯片营收对 Meta 的依赖度过高
九、结论:不是"谁会赢",而是"格局怎么变"
当前时点(2026 年 5 月)的竞争状态:
- NVIDIA 在 AI 训练 上是绝对王者,这个位置在未来 2-3 年内很难被撼动。CUDA 生态 + NVLink 互联 + 全栈系统的组合优势是结构性而非周期性的。
- AMD 正在从 "几乎不存在" 变成 "一个可以被认真考虑的选项"——这个转变本身就是巨大的进步。MI400 如果如期量产且性能兑现,AMD 有望在 2027 年把训练市场份额从个位数推到 15-20%。
- 但 "替代 NVIDIA" 和 "成为 credible second source" 是两个完全不同的概念。AMD 的合理目标应该是后者。
三个关键观察:
-
软件才是真正的战场:硬件的纸面参数之争最终会被软件实际利用率修正。CUDA 的护城河在训练端依然很深,但在推理端正在变浅——而推理才是未来 AI 芯片 TAM 的最大增量。
-
"反 NVIDIA 联盟" 是 AMD 最大的顺风:不是 AMD 有多好,而是 hyperscaler 不想被一家供应商绑架。这种需求是真实的、结构性的、不依赖技术进步的。
-
真正的变量不是 AMD 能追多快,而是 NVIDIA 会不会犯错:历史上 Intel 在 x86 时代犯错(10nm 延迟)给了 AMD 翻盘机会。目前 NVIDIA 的执行力仍然是无懈可击的——黄仁勋的管理和产品节奏没有明显漏洞。只要 NVIDIA 不犯错,AMD 就只能做第二供应商而不是对等的竞争对手。
一句话总结:AI 训练芯片市场是 "NVIDIA 和其他所有人" 的格局,AMD 是 "其他人" 里最强的一个——但离真正的双寡头还有很长的路要走。

MI300 硬件上内存更大(192GB HBM3 vs H100 80GB),纸面算力也不输,但真正拉开差距的是软件——ROCm 的生态成熟度、多节点训练效率、实际 MFU(模型算力利用率)都远不如 CUDA,导致 MI300 的纸面参数在真实训练场景下大打折扣。

CUDA 不只是个编译器,是 15 年累积的全栈生态——底层库(cuDNN/NCCL)、框架集成(PyTorch 默认走 CUDA)、开发工具(profiler/debugger)、论文/开源项目全部默认 CUDA 优先。新来者可以把某一层追平,但追不平 "全球 AI 基础设施的默认设置" 这个惯性。Triton 等编译器在降低迁移成本,但底层算子优化的差距还在——跑的起来和跑得快是两码事。