GPU 芯片全景：国内外厂商对比、市场格局与异构部署实践

Posted on Jun 1, 2026 · 15 min read

随着大模型训练与推理需求的爆发，GPU 芯片从图形处理器演变为 AI 时代最核心的算力基础设施。本文系统梳理国内外主要 GPU 厂商的芯片系列、性能横向对比、市场格局，以及软件生态与异构混合部署的架构实践，供技术选型参考。

1. 为什么 GPU 在 AI 时代如此关键

1.1 从图形渲染到通用并行计算

GPU（Graphics Processing Unit）最初的设计目标是加速图形渲染，其核心特点是大量小型计算核心（相对 CPU 的少量大核）并行执行相同指令。这一特性与深度学习中大规模矩阵乘法的计算模式高度契合。

CPU 的设计哲学是降低单任务延迟：深流水线、乱序执行、大缓存，少量强力核心串行处理复杂逻辑。GPU 则以吞吐量为核心：数千个简单核心同时执行相同操作，用于处理矩阵乘、卷积等高度并行的数学运算。

2006 年 NVIDIA 发布 CUDA（Compute Unified Device Architecture），首次将 GPU 开放给通用计算场景，标志着 GPGPU（General-Purpose GPU）时代的开始。2012 年 AlexNet 在 ImageNet 竞赛中取得突破性成绩，其背后的关键之一就是 GPU 加速训练——GPU 正式进入 AI 主流视野。

1.2 大模型训练与推理的算力需求

大模型的算力需求可从以下几组数据量化：

GPT-3（1750 亿参数）训练消耗约 3640 PFlop/s-day，相当于 1024 块 A100 运行约 34 天
Llama 3 405B 的训练使用了超过 16000 块 H100
一次 GPT-4 的推理请求，需要多张 GPU 协同完成

训练与推理对 GPU 的需求有所不同：

维度	训练	推理
精度	FP16/BF16/FP8 混合精度	INT8 / FP8 / INT4 量化
显存需求	极高（模型 + 梯度 + 优化器状态）	较低（仅模型权重 + KV Cache）
批量大小	大 batch，高吞吐	小 batch，低延迟
通信需求	强依赖高速互联（All-Reduce）	相对独立，单节点可行
核心指标	TFLOPS（训练吞吐）	TTFT / TPS（首 Token 延迟 / 每秒 Token 数）

这两类场景对 GPU 的侧重不同，也催生了"训练集群用高端 GPU，推理集群可用次一级或国产 GPU"的异构部署策略。

2. GPU 架构基础：读懂参数的底层逻辑

2.1 SIMT 架构与 Tensor Core

NVIDIA GPU 使用 SIMT（Single Instruction, Multiple Threads） 执行模型。线程以 32 个为一组形成 Warp，同一 Warp 内的线程在同一时钟周期执行相同指令。Warp 调度器负责在多个 Warp 之间切换，以掩盖内存访问的延迟。

SM (Streaming Multiprocessor)
 ├── Warp Scheduler × 4
 ├── CUDA Core（FP32）× 128
 ├── Tensor Core × 4（专用矩阵乘法单元）
 ├── L1 Cache / Shared Memory（可配置）
 └── LD/ST 单元、SFU

Tensor Core 是 Volta 架构（V100）以来 NVIDIA 在 AI 算力上的核心武器。一个 Tensor Core 在单个时钟周期内执行一次 4×4 矩阵乘加（MMA）运算，比普通 CUDA Core 的吞吐量高一个数量级。Hopper 架构（H100）进一步引入了 Transformer Engine，可在 FP8 和 FP16 之间动态切换精度，最大化矩阵乘的吞吐量。

2.2 核心指标解读：FLOPS、内存带宽、HBM 容量

评估 AI GPU 性能时，以下几个指标最为关键：

算力（FLOPS）

FP32 / TF32 TFLOPS：训练精度，反映单精度浮点能力
FP16 / BF16 TFLOPS：混合精度训练主力精度
INT8 / FP8 TOPS：推理量化精度，数值通常是 FP16 的 2 倍（稀疏模式下可再翻倍）
注意区分是否开启稀疏加速（Sparsity），开启后标称性能翻倍，但需要权重满足 2:4 稀疏结构

显存（HBM）

容量（GB）：决定能加载多大的模型。70B 模型 BF16 精度需约 140 GB，FP8 需约 70 GB
带宽（TB/s）：影响矩阵乘法时的数据搬运速度，是 Memory-Bound 算子（如 Attention）的关键瓶颈

互联带宽

GPU 间互联（NVLink / NVSwitch）：影响多卡训练时的 All-Reduce 通信效率
主机-GPU 带宽（PCIe 5.0 x16 = 64 GB/s）：相对于 NVLink 来说是明显瓶颈

功耗（TDP）

H100 SXM 为 700 W，B200 达到 1000 W，数据中心供电密度是重要限制

2.3 互联技术：NVLink / PCIe / 光网络

节点内互联
  NVLink 4.0（H100）：单向 450 GB/s × 18 条 = 900 GB/s 双向
  NVSwitch（机柜内）：将多个 NVLink 域连成全互联拓扑

节点间互联
  InfiniBand NDR（400 Gb/s）：AI 训练集群标配，NVIDIA 收购 Mellanox 后垂直整合
  RoCE（RDMA over Converged Ethernet）：国内替代 IB 的主流方案，成本更低
  光网络（400G/800G）：超大规模集群骨干，华为 CloudFabric 等采用光电混合方案

节点内用 NVLink 实现 GPU 间全互联，节点间用 InfiniBand 或 RoCE 组成高带宽低延迟的 AI 网络，这是目前主流训练集群的标准架构。

3. 国际厂商 GPU 芯片系列

3.1 NVIDIA：Hopper / Blackwell 全系解析

NVIDIA 以绝对优势主导 AI 训练市场，其芯片产品线按架构迭代，近两代最为关键：

Ampere 架构（2020）

型号	FP16 TFLOPS	显存	带宽	TDP
A100 SXM 80G	312	80GB HBM2e	2.0 TB/s	400 W
A100 PCIe 80G	312	80GB HBM2e	1.935 TB/s	300 W
A10	125	24GB GDDR6	600 GB/s	150 W

A100 是上一代训练集群的主力，目前大量存量部署仍在运行。

Hopper 架构（2022）

型号	BF16 TFLOPS	FP8 TFLOPS	显存	带宽	TDP
H100 SXM5	989	1979	80GB HBM3	3.35 TB/s	700 W
H200 SXM5	989	1979	141GB HBM3e	4.8 TB/s	700 W
H100 PCIe	756	1513	80GB HBM2e	2.0 TB/s	350 W
H20（中国版）	296	592	96GB HBM3	4.0 TB/s	350 W

H100 相对 A100 的 BF16 算力提升约 3×，引入 FP8 精度和 Transformer Engine 是最核心的突破。H200 与 H100 算力相同，但 HBM3e 将显存从 80GB 扩展到 141GB、带宽从 3.35 提升到 4.8 TB/s，专为大模型推理中 KV Cache 瓶颈而生。

Blackwell 架构（2024）

Blackwell 是 NVIDIA 目前最新一代架构，主要设计变化如下：

Dual-die 芯片设计：B100/B200 由两个 GPC die 通过 NV-HBI（10 TB/s）连接，单卡逻辑上等效一块芯片，基于 TSMC 4NP 工艺，封装 208 亿晶体管
FP4 精度支持：B200 FP4 推理算力达 9000 TFLOPS，相比 FP8 再翻倍
第五代 NVLink：单 GPU 双向带宽提升至 1.8 TB/s

型号	BF16 TFLOPS	FP8 TFLOPS	FP4 TFLOPS	显存	带宽	TDP
B100 SXM	1800	3500	7000	192GB HBM3e	8.0 TB/s	700 W
B200 SXM	2250	4500	9000	192GB HBM3e	8.0 TB/s	1000 W

GB200 Grace Blackwell Superchip 是单个封装模块：1 颗 Grace CPU + 2 颗 B200 GPU，通过 NVLink-C2C（900 GB/s）连接，形成统一内存空间。GB200 NVL72 机架由 36 个 Grace Blackwell Superchip 组成（36 颗 Grace CPU + 72 颗 B200 GPU），通过第五代 NVLink 构成统一互联域，总计 1.4 TB 显存，FP8 总算力超过 130 PFLOPS，液冷整机功率约 120 kW。

出口管制持续波动：2025 年美国对中国芯片出口政策经历多次反转——4 月扩大限制范围将 H20 纳入管控，7 月暂时恢复 H20 出口但附加 15% 附加税，8 月再度要求停产 H20；9 月中国网信办宣布禁止国内企业采购英伟达 AI 芯片；12 月特朗普政府宣布对通过安全审核的特定客户允许出口 H200 和 MI325X 等。当前中国市场出口管制政策仍处于动态调整中。

3.2 AMD：Instinct MI300 系列

AMD 以 MI300 系列作为 AI 加速器主力，与 NVIDIA 在 HPC 和推理市场正面竞争。

MI300 架构亮点：芯片堆叠（Chiplet + HBM）

MI300X 采用 XCD（Accelerator Complex Die）+ HBM3 3D 封装，将多个计算 Die 与内存 Die 直接叠放，实现超高带宽。MI350 系列升级至第四代 CDNA（CDNA 4）架构，基于 TSMC 3nm 制程，每 CU 的 16-bit 算力相比 CDNA 3 提升约 2 倍：

型号	架构	BF16 TFLOPS	FP8 TFLOPS	显存	带宽	TDP
MI300X	CDNA 3	1307	2614	192GB HBM3	5.3 TB/s	750 W
MI325X	CDNA 3	1307	2614	256GB HBM3e	6.0 TB/s	750 W
MI350X	CDNA 4	~2300	~4600	288GB HBM3e	8.0 TB/s	1000 W
MI355X	CDNA 4	~2300	~4600	288GB HBM3e	8.0 TB/s	1000 W

MI355X 在 MI350X 基础上新增 MXFP4 和 MXFP6 原生数据类型支持，FP4 推理峰值超过 20 PFLOPS，定位超大规模推理场景。

MI300X 大显存优势使其成为推理 70B+ 参数模型的可行单卡方案（H100 仅 80GB 显存），Meta、微软 Azure 均有规模部署。

ROCm 软件栈是 AMD 的开源 CUDA 替代方案。PyTorch 对 ROCm 的支持在 2.0 后逐步完善，vLLM 也提供 ROCm 后端，但整体生态成熟度仍落后 CUDA（详见第 7 章）。

3.3 Intel：Gaudi 2/3 与 Xe 架构

Intel 在 AI 加速器市场经历过曲折：收购 Habana Labs 后推出 Gaudi 系列，定位中低端训练/推理市场，主打性价比。

型号	BF16 TFLOPS	显存	带宽	TDP
Gaudi 2	432	96GB HBM2e	2.45 TB/s	600 W
Gaudi 3	1835	128GB HBM2e	3.7 TB/s	900 W

Gaudi 系列内置 24 个 100GbE RoCE 端口，支持节点间直连无需额外 InfiniBand 交换机，在中等规模训练集群（<256 卡）中有成本优势。

Intel 同时推进 Xe GPU（Ponte Vecchio / Rialto Bridge）用于 HPC，但在 AI 加速器赛道相对边缘化。2024 年 Intel 宣布裁减 Gaudi 相关业务规模，市场前景存疑。

3.4 Google TPU v4/v5：自研 AI 加速器

Google TPU（Tensor Processing Unit）是专为 TensorFlow/JAX 优化的 ASIC 加速器，不对外零售，仅通过 GCP 以云服务形式提供。

型号	BF16 TFLOPS/芯片	显存	显存带宽	用途
TPU v4	275	32GB HBM	—	训练
TPU v5e	197	16GB HBM	819 GB/s	高密度推理
TPU v5p	459	95GB HBM	2765 GB/s	大规模训练
TPU v6e（Trillium）	~918	32GB HBM	1600 GB/s	训练 + 推理，已 GA
TPU v7（Ironwood）	~4614	192GB HBM	7200 GB/s	推理为主，2025 年 4 月发布

Trillium（TPU v6e）于 2024 年底正式 GA，单芯片算力约为 v5e 的 4.7 倍，能效提升 67%，单 Pod 最大 256 芯片，可组成 91 EFLOPS 的训练集群。

TPU v7 Ironwood 于 2025 年 4 月 Google Cloud Next 发布，是首款明确以大规模推理为主要目标的 TPU 代际，单芯片达到约 4614 TFLOPS BF16，192GB HBM，7.2 TB/s 带宽，9216 芯片集群可组成超大推理池。Google 内部 Gemini 系列大模型的训练和推理均在 TPU Pod 上完成。

对于非 Google 生态用户，TPU 的主要使用门槛在于 JAX 编程模型和 XLA 编译器与 PyTorch/CUDA 生态的差异，算子行为和性能调优经验不可直接迁移。

4. 国产 GPU 芯片系列

在出口管制与国产替代大背景下，中国涌现出一批 AI 芯片创业公司和国企研究所。以下按当前综合实力排序介绍。

4.1 华为昇腾（Ascend 910B / 910C）

昇腾系列是目前国产 GPU 中生态最完整、算力最强、市场份额最大的产品线，由华为海思设计。

芯片规格（厂商公布 / 业界估测数据）

型号	FP16 TFLOPS	显存	带宽	TDP	制程	备注
Ascend 910B	256	64GB HBM2	900 GB/s	400 W	7nm（SMIC）	存量主力
Ascend 910B3	~320	64GB HBM2	1.2 TB/s	450 W	7nm+	910B 改版
Ascend 910C	~800	128GB HBM3	2.4 TB/s	~600 W	6nm	Dual-die，2025 年大规模量产

910C 采用双 Die 封装（将两颗 910B Die 集成，类似 B200 设计），显存从 64GB 扩展至 128GB，业界估测算力约为 H100 的 80%。2025 年一季度进入大规模量产阶段，全年出货量估计在 70~80 万颗。受制于国内代工厂工艺成熟度，实际效能与台积电同代制程仍存在差距。

软件栈：CANN + MindSpore

华为围绕昇腾构建了完整软件栈：

CANN（Compute Architecture for Neural Networks）：算子库 + 编译器，类比 CUDA
MindSpore：华为自研深度学习框架，原生支持昇腾
PyTorch_npu：PyTorch 的昇腾适配插件，允许现有 PyTorch 代码通过修改设备字符串（cuda → npu）运行在昇腾上

华为昇腾在国内云（华为云 ModelArts）、国企训练集群中有大量部署，与 NVIDIA 相比最大差距仍在软件生态和社区活跃度。

4.2 寒武纪（MLU 系列）

寒武纪是国内较早上市的 AI 芯片公司（2020 年科创板），产品线覆盖云端训练/推理：

型号	FP16 TFLOPS	INT8 TOPS	显存	带宽	TDP
MLU370-X4	24（FP32）/ 256	256	24GB LPDDR5	614 GB/s	150 W
MLU370-X8	24（FP32）/ 256	256	48GB LPDDR5	1.2 TB/s	300 W
MLU590-H8	~300	~600	64GB HBM2	2.0 TB/s	550 W

MLU370 采用 7nm Chiplet 工艺，首次引入 LPDDR5 内存（带宽是前代 GDDR6 的 3 倍），MLU-Link 提供每卡 200 GB/s 的跨芯片直连带宽，定位中等规模推理。MLU590 是面向训练市场的旗舰卡，2024 年量产，FP16 算力约 300 TFLOPS。

软件栈为 Cambricon Neuware SDK，提供 BANG-C 编程语言（类 CUDA C）、CNToolkit，以及 PyTorch/TensorFlow 适配层。

4.3 沐曦（MetaX）

沐曦是成立于 2020 年的 GPU 初创公司，创始团队来自 AMD，主打 GPGPU 路线（与国内多数 ASIC 路线不同），兼容 CUDA 生态是其核心卖点。

型号	FP16/BF16 TFLOPS	INT8 TOPS	显存	带宽	形态
C500	280	560	64GB HBM2e	1.8 TB/s	PCIe 板卡
C550	~280	~560	64GB HBM2e	约 1.8 TB/s	OAM 模组（支持 OAM 1.5/2.0）

C500 TF32 算力 140 TFLOPS，FP16/BF16 280 TFLOPS，64GB HBM2e，带宽 1.8 TB/s，搭载自研 MetaXLink 高速互联，支持单机 8 卡全互联，互联带宽达 896 GB/s。C550 为 OAM 模组形态，规格与 C500 接近但面向服务器主板直插场景。

MXMACA 编程框架在 API 层面与 HIP 高度对齐，通过转译层可运行大部分 CUDA 代码，相比昇腾等纯 ASIC 路线，软件迁移摩擦更低。

4.4 摩尔线程（Moore Threads）

摩尔线程由前 NVIDIA 高管张建中创立（2020 年），主打图形 + AI 双用途 GPGPU，采用台积电制程：

型号	FP16/BF16 TFLOPS	INT8 TOPS	显存	带宽	TDP	备注
MTT S80	~12（FP32）	—	16GB GDDR6	512 GB/s	80 W	消费级，2022 年
MTT S4000	100	200	48GB GDDR6	768 GB/s	450 W	第三代 MUSA 架构，128 Tensor Cores

MTT S4000 是摩尔线程目前主力 AI 推理卡，48GB GDDR6（16 Gbps），支持 MTLink 1.0 多卡互联。2025 年 12 月摩尔线程发布全新 Huagang（华港）架构，下一代芯片 “华山” 定位对标 B200，显存带宽和算力密度据称接近 Blackwell 水平，具体规格待官方发布。

MUSA（Moore Threads Unified System Architecture） 框架通过 mt-musacc 编译器将 CUDA 代码转译，API 层面与 CUDA 兼容，是国内兼容路线的代表产品之一。

4.5 燧原科技（Enflame）

燧原科技由腾讯投资，基于 GCU（General Compute Unit）架构，面向云端 AI 训练/推理：

型号	FP16 TFLOPS	显存	带宽	TDP
T20	128	32GB HBM2	1.0 TB/s	250 W
T21	256	32GB HBM2e	1.2 TB/s	300 W
CloudBlazer X2	~512	64GB HBM2e	2.0 TB/s	450 W

软件栈为 TopsRider，提供 PyTorch/TensorFlow 适配。腾讯云内部有部分工作负载使用燧原卡。

4.6 壁仞科技（Biren Technology）

壁仞科技融资超过 47 亿人民币，BR100 是其首款高端通用 GPU，2022 年发布时标称性能超越 A100：

型号	FP16 TFLOPS	显存	带宽	TDP	形态
BR100（OAM）	1000（标称）	64GB HBM2e	2.0 TB/s	400 W	OAM
BR100（PCIe）	1000（标称）	64GB HBM2e	2.0 TB/s	300 W	PCIe

BR100 于 2024 年中期进入量产，已在中国电信等运营商的千卡集群中部署，中国电信单集群持续训练运行超 30 天未中断。2025 年壁仞科技通过港交所上市聆讯，拟于 2026 年 1 月赴港 IPO，融资规模超 6 亿美元，下一代芯片 BR200 系列正在研发中。

4.7 天数智芯（Iluvatar CoreX）

天数智芯专注于 GPGPU，采用 CUDA 兼容路线，产品主要面向推理场景：

型号	FP16 TFLOPS	显存	带宽	TDP
BI-V100	128	32GB GDDR6	614 GB/s	250 W
BI-V150	256	64GB HBM2e	1.6 TB/s	350 W

软件栈为 IXUCA SDK，支持 CUDA 转译。主要客户在金融、互联网推理场景。

5. 横向性能对比

5.1 FP16/BF16 训练算力对比

芯片	BF16 TFLOPS（Dense）	备注
AMD MI355X	~2300	CDNA 4，3nm，MXFP4 20+ PFLOPS
NVIDIA B200	2250	Blackwell，稀疏 4500，FP4 9000
NVIDIA B100	1800	Blackwell，稀疏 3500
AMD MI350X	~2300	CDNA 4，3nm，1000W TBP
Intel Gaudi 3	1835	含稀疏，FP8 1.8 PFLOPS
AMD MI325X	1307	CDNA 3，256GB HBM3e
AMD MI300X	1307	CDNA 3，192GB HBM3，稀疏 2614
NVIDIA H100 SXM	989	Hopper，稀疏 1979
NVIDIA H200 SXM	989	H100 算力相同，141GB HBM3e
华为 Ascend 910C	~800	业界估测，Dual-die
Intel Gaudi 2	432	—
寒武纪 MLU590	~300	厂商公布
华为 Ascend 910B	256	7nm（SMIC）
沐曦 C500	280	官方规格，HBM2e
天数 BI-V150	256	HBM2e，PCIe 4.0
摩尔线程 S4000	100	GDDR6，FP16/BF16
NVIDIA A100	312（FP16）	上一代参考基准

5.2 显存容量 & 内存带宽对比

显存容量决定能装入多大模型，带宽决定访存密集型算子（Attention、LayerNorm）的速度上限：

芯片	显存	带宽	HBM 代
AMD MI355X / MI350X	288 GB	8.0 TB/s	HBM3e
NVIDIA B200	192 GB	8.0 TB/s	HBM3e
AMD MI325X	256 GB	6.0 TB/s	HBM3e
AMD MI300X	192 GB	5.3 TB/s	HBM3
NVIDIA H200	141 GB	4.8 TB/s	HBM3e
Intel Gaudi 3	128 GB	3.7 TB/s	HBM2e
NVIDIA H100	80 GB	3.35 TB/s	HBM3
华为 Ascend 910C	128 GB	2.4 TB/s	HBM3
沐曦 C500	64 GB	1.8 TB/s	HBM2e
寒武纪 MLU590	64 GB	2.0 TB/s	HBM2
华为 Ascend 910B	64 GB	900 GB/s	HBM2

关键结论：AMD MI300X/MI325X 以 192/256 GB 显存在超大模型推理场景极具竞争力。国产卡中 Ascend 910C 的显存和带宽提升明显，但与 H100 的带宽差距仍约 30%。

5.3 功耗与能效比

芯片	TDP	BF16 TFLOPS/W
NVIDIA B100	700 W	2.57
NVIDIA H100 SXM	700 W	1.41
AMD MI300X	750 W	1.74
Intel Gaudi 3	900 W	2.04
华为 Ascend 910C	~600 W	~1.30
NVIDIA A100	400 W	0.78

Blackwell 在能效上有显著提升（相同 TDP 算力接近翻倍），这对数据中心 PUE 成本有重要意义。

5.4 互联带宽对比

节点内 GPU 间互联是大规模训练的关键瓶颈：

方案	带宽	方案
NVLink 4.0（H100）	900 GB/s 双向	8 卡全互联（NVSwitch）
NVLink 5.0（B200）	1.8 TB/s 双向	8 卡全互联
AMD Infinity Fabric	896 GB/s 双向	MI300X 内部
昇腾 HCCS	~400 GB/s	8 卡互联
PCIe 5.0 x16	128 GB/s 双向	无高速互联时的降级方案

6. 市场格局与客户生态

6.1 全球 GPU 服务器市场份额

NVIDIA 在 AI 训练加速器市场的份额长期维持在 80% 以上（部分机构估计 2023-2024 年超过 90%），硬件与 CUDA 软件生态相互强化，构成其主要竞争壁垒。

2024 年 AI 加速器市场（数据中心 GPU/加速器）
  NVIDIA     ~88%
  AMD        ~5-7%
  Intel      ~2-3%
  其他        <2%（含 Google TPU 自用部分）

NVIDIA 在 H100 供货紧张时期（2023 年）的单卡现货价格曾炒至 5 万美元以上，供不应求的局面持续至 2024 年底。

6.2 中国市场：国产替代的进展

美国对华 AI 芯片出口管制自 2022 年以来持续收紧，并在 2025 年进入高度波动期：

2022 年 10 月：A100/H100 禁售，降级版 A800/H800 短暂可售
2023 年 10 月：A800/H800 纳入管控，H20/L20/L40S 成为合规版本
2025 年 4 月：Trump 政府将 H20 纳入管控，全面暂停对华出口
2025 年 7 月：暂时恢复 H20 出口，但对每张卡征收 15% 附加税
2025 年 8 月：NVIDIA 再度被要求停产 H20
2025 年 9 月：中国网信办宣布禁止国内企业采购英伟达 AI 芯片，要求转向国产
2025 年 12 月：美国宣布对通过安全审查的特定客户允许出口 H200 和 AMD MI325X

政策的持续波动使得企业难以依赖单一供应链，这也是推动异构多供应商部署架构的重要现实原因。

国内市场现状（2025 年底）：

华为昇腾：出货量最大，910C 全年出货估计达 70~80 万颗，华为云、运营商算力中心大规模部署
壁仞科技：BR100 已在运营商千卡集群落地，2026 年赴港 IPO
摩尔线程：2025 年末发布 Huagang 新架构，正冲击 AI 推理市场
寒武纪：上市公司，持续亏损，主要客户在政府和央企算力中心
沐曦 / 天数智芯：主要面向中小规模推理场景
整体来看，国产 GPU 在算力密度、显存带宽、软件生态和系统稳定性上与 NVIDIA H100 仍有 1-2 代差距，与 B200/Rubin 差距更大

政策推动：

“东数西算"工程、算力补贴、政府采购倾斜国产
国有云厂商（电信云、联通云、移动云）被要求提高国产算力比例

6.3 主要云厂商采购策略

云厂商	主力 GPU	说明
AWS	NVIDIA H100/H200	UltraCluster，也有 Trainium（自研）
Azure	NVIDIA H100/H200 + AMD MI300X	与 OpenAI 深度绑定，大量 H100
GCP	NVIDIA H100 + TPU v5	自研 TPU 与 NVIDIA 双轨
阿里云	NVIDIA H20/A800 + 自研含光	自研推理芯片 + 合规 NVIDIA
腾讯云	NVIDIA H20/A800 + 燧原	腾讯战略投资燧原
华为云	昇腾 910B/910C	以昇腾为主，自成体系
百度云	NVIDIA H20 + 昆仑芯（自研）	昆仑芯侧重搜索推理

6.4 典型行业客户

大模型公司

OpenAI：微软 Azure H100 集群（据报超 10 万卡）
Anthropic：GCP + AWS H100/H200
DeepSeek：据报使用大量 H800（出口管制版 H100）

国内大模型

智谱 AI、月之暗面、百川智能：主要使用 NVIDIA H20 + 部分昇腾
华为内部大盘古模型：全昇腾集群

自动驾驶

Tesla：自研 Dojo 超算 + A100 训练集群
国内厂商（地平线、黑芝麻等）：主要使用 NVIDIA，同时推自研推理芯片

HPC / 科研

超算中心：GPU 集群与 CPU 集群混合，部分采购国产加速器（昇腾、寒武纪）

7. 软件生态：GPU 的护城河

7.1 CUDA 生态：为何护城河如此之深

CUDA（Compute Unified Device Architecture）自 2006 年发布至今已 18 年，积累了：

数十万个 CUDA 优化算子库：cuBLAS、cuDNN、NCCL、cuSPARSE……
主流深度学习框架的原生后端：PyTorch 的 ATen 张量库与 CUDA 深度耦合
高性能推理库：TensorRT、FlashAttention-CUDA、vLLM 的 PagedAttention
数十年的编译器优化积累：nvcc、CUDA Graphs、PTX 中间表示

对开发者而言，切换到非 CUDA 平台意味着：

所有 CUDA 算子需要重写或转译
FlashAttention 等关键优化需要移植验证
调试工具（Nsight、nvprof）不可用
部分闭源库（TensorRT）无法使用

这解释了为什么 AMD MI300X 在显存容量上超越 H100，企业采购时仍大量选择 NVIDIA：现有 CUDA 代码库的迁移摩擦远高于硬件差价。

7.2 AMD ROCm：差距几何？

ROCm（Radeon Open Compute）是 AMD 的开源 CUDA 替代方案，近年来有实质性进展：

ROCm 近期里程碑：
  PyTorch 2.0+  官方支持 ROCm 后端
  vLLM 0.4+     支持 ROCm，MI300X 推理性能接近 H100
  Flash Attention  ROCm 版本已可用（由社区维护）
  TGI (HuggingFace)  支持 ROCm

仍有差距的领域：

NCCL 等同完整度（rccl 有功能差异）
算子覆盖率约为 CUDA 的 85-90%
调优工具链成熟度
社区问题解答和文档密度

实际评估建议：对于已经跑通的 PyTorch 推理工作负载，ROCm + MI300X 是可行的 NVIDIA 替代方案，尤其在显存需求大（>80GB）的场景下成本优势明显。

7.3 华为 CANN & MindSpore

CANN 是昇腾的核心计算框架，分层架构如下：

应用层
  ├── MindSpore / PyTorch_npu / TensorFlow_npu
  └── ModelArts 平台服务

算子层
  ├── AscendCL（底层运行时 API，类比 CUDA Driver API）
  ├── ACLNN（神经网络算子库，类比 cuDNN）
  └── HCCL（通信库，类比 NCCL）

硬件层
  └── Ascend 910 系列芯片

PyTorch_npu 插件通过 torch.device("npu") 接入，对现有 PyTorch 代码侵入性较小，但遇到未适配的自定义算子时仍需手动实现 Ascend C 版本。

MindSpore 原生支持昇腾且性能更优，但其编程范式（函数式变换、静态图优先）与 PyTorch 差异显著，迁移成本高。

7.4 国产 GPU SDK 对比

厂商	编程接口	CUDA 兼容层	PyTorch 适配	成熟度
华为昇腾	CANN / Ascend C	无（异构 ASIC）	PyTorch_npu	★★★★☆
寒武纪	BANG-C / CNToolkit	无	torch_mlu	★★★☆☆
沐曦	MXMACA（类 HIP）	转译层	torch_musa	★★★☆☆
摩尔线程	MUSA	转译层	torch_musa	★★★☆☆
燧原	TopsRider	部分兼容	tops-torch	★★☆☆☆
天数智芯	IXUCA SDK	转译层	torch_dipu	★★☆☆☆

7.5 框架兼容性矩阵

框架/推理引擎	NVIDIA CUDA	AMD ROCm	昇腾 CANN	其他国产
PyTorch 2.x	原生	官方	插件	各自插件
TensorFlow 2.x	支持	部分	插件	部分
vLLM	支持	ROCm 后端	社区分支	部分
LMDeploy	支持	不支持	华为维护	不支持
TensorRT-LLM	支持	不支持	不支持	不支持
MindIE	不支持	不支持	华为专属	不支持
Ollama	支持	支持	不支持	不支持
FlashAttention	完整	ROCm 版	部分	不支持

8. 异构 GPU 混合部署：架构分析与技术选型

8.1 为什么需要异构混合部署

在以下场景中，企业往往被迫或主动选择多厂商 GPU 混合部署：

供货约束：H100 等高端卡受出口管制或交期限制，紧急算力需求需用国产卡填充
成本分层：训练任务对性能敏感，用 NVIDIA 旗舰；推理任务可用更便宜的替代卡
合规要求：政府/央企项目要求一定比例使用国产算力
存量资产：已有 A100 集群不退役，新增 H100 节点，混合运营降低迁移成本

8.2 架构层次：从驱动到调度的全栈视图

异构集群的技术栈自底向上分为五层：

层次	主要组件	说明
应用层	PyTorch、vLLM、LMDeploy、MindSpore 等	训练框架与推理引擎，通过各厂商 Python 插件或后端接入底层算力
编排层	Kubernetes + Volcano / Koordinator / HAMi	负责工作负载调度、资源配额、Gang Scheduling 与 GPU 虚拟化
资源层	nvidia-device-plugin、ascend-device-plugin、cambricon-device-plugin、HAMi device-plugin	将物理 GPU 暴露为 K8s Extended Resource，支持虚拟化切分
运行时	containerd + NVIDIA Container Toolkit / cri-hook	容器启动时注入 GPU 设备挂载，按 runtimeClass 区分不同厂商
驱动层	CUDA Driver、Ascend Driver、寒武纪驱动等	各厂商驱动独立安装，通常可在同一宿主机上共存

多厂商共存的核心挑战：

驱动层：同一节点上不同厂商驱动互不影响（通常可共存）
设备识别：各厂商有独立的 Device Plugin，标签和 Resource Name 不同
调度层：需要统一调度异构设备，避免碎片化
通信层：跨厂商 GPU 之间无法直接用 NVLink/HCCL，必须走 CPU 中转或 RoCE

8.3 设备接入层：K8s Device Plugin 机制与各厂商适配

K8s Device Plugin 框架（k8s.io/device-plugin）是 GPU 等扩展资源接入 Kubernetes 的标准机制：

kubelet
  └── 监听 /var/lib/kubelet/device-plugins/*.sock
        ├── nvidia.com/gpu  → nvidia-device-plugin
        ├── huawei.com/Ascend910  → ascend-device-plugin
        ├── cambricon.com/mlu  → cambricon-device-plugin
        └── iluvatar.ai/gpu  → iluvatar-device-plugin

各厂商 Device Plugin 实现 ListAndWatch、Allocate 两个核心 gRPC 接口，将 GPU 设备暴露为 K8s Extended Resource，Pod 通过 resources.limits 申请：

resources:
  limits:
    nvidia.com/gpu: "1"      # NVIDIA GPU
    # 或
    huawei.com/Ascend910: "1"  # 昇腾 NPU

异构集群中的标签策略：通过 Node Label 区分硬件类型，配合 nodeSelector 或 nodeAffinity 将 Pod 调度到正确类型节点：

nodeSelector:
  accelerator: nvidia-h100  # 或 huawei-ascend910c

8.4 调度层技术选型

原生 K8s 调度器对 AI 工作负载有天然局限（不支持 Gang Scheduling、不感知拓扑）。以下是三个主流调度方案的对比：

Volcano

Volcano 是 CNCF 孵化项目（华为捐献），专为 AI/HPC 批调度设计：

核心能力：
  Gang Scheduling  ── 全量 Pod 同时就绪才开始运行（训练必需）
  Queue 机制       ── 多租户公平调度，支持优先级抢占
  Job Plugin       ── PyTorchJob / TFJob / MPIJob 原生集成
  拓扑感知         ── NUMA / GPU 拓扑亲和性

适用场景：分布式训练（All-Reduce 类任务对 Gang Scheduling 依赖强），多租户算力平台。

Koordinator

Koordinator 由阿里云开源，侧重在线离线混部场景的资源超卖与 QoS 保障：

核心能力：
  ColocationProfile  ── 在线推理 + 离线训练混部
  QoS 分级           ── LSE/LSR/LS/BE 四级，CPU/Memory 动态超卖
  GPU Share          ── 细粒度 GPU 共享（显存 + 算力维度）
  Descheduler        ── 运行时重调度，优化碎片

适用场景：推理与训练混部，提升 GPU 利用率；对训练任务 SLA 要求不极致的场景。

HAMi（Heterogeneous AI computing virtualization Middleware）

HAMi（原名 k8s-vgpu-scheduler，腾讯开源后更名）是目前最成熟的 异构 GPU 虚拟化统一管理 方案：

核心能力：
  多厂商统一管理  ── 支持 NVIDIA / 昇腾 / 寒武纪 / 沐曦 等
  显存切割        ── 将一块物理 GPU 切分为多个虚拟 GPU（显存隔离）
  算力限制        ── 对虚拟 GPU 的 SM 使用率进行限额
  拓扑感知调度    ── 优先分配同一 NVLink 域内的 GPU

HAMi 的架构分为三部分：

HAMi 架构
  ├── scheduler-extender  ── 扩展原生调度器，注入异构感知逻辑
  ├── device-plugin       ── 替换/包装厂商 device-plugin，上报虚拟设备
  └── container hook      ── 运行时拦截，注入显存/算力限制 so 库

Pod 申请方式：

resources:
  limits:
    nvidia.com/gpu: "1"
    nvidia.com/gpumem: "8192"   # 申请 8GB 显存
    nvidia.com/gpucores: "50"   # 申请 50% SM 算力

三种方案对比

维度	Volcano	Koordinator	HAMi
核心定位	批调度 / Gang	混部 / 超卖	GPU 虚拟化 / 异构统一
Gang Scheduling	原生支持	支持	依赖外部调度器
GPU 共享切分	不支持	粗粒度	显存+算力级
异构 GPU 统一管理	需自定义	需自定义	多厂商原生支持
在线/离线混部	有限	核心特性	不支持
社区活跃度	★★★★★	★★★★☆	★★★★☆
生产案例	华为云、腾讯云	阿里云	腾讯云、多家互联网

推荐选型原则：

大规模分布式训练平台 → Volcano 为主，补充 HAMi 做 GPU 共享
推理+训练混部、提升 GPU 利用率 → Koordinator + HAMi
国产 GPU + NVIDIA 异构混合、显存级共享 → HAMi 是目前最成熟选择

8.5 通信层：NCCL vs 国产通信库

分布式训练的核心通信原语是 All-Reduce（梯度聚合）和 All-to-All（MoE 专家并行）。

NVIDIA NCCL（NVIDIA Collective Communications Library）
  ├── 支持 NVLink + InfiniBand + RoCE 多种传输后端
  ├── Ring-AllReduce / Tree-AllReduce 算法
  ├── 与 PyTorch distributed 深度集成（默认 backend="nccl"）
  └── 高度优化，接近硬件带宽上限

华为 HCCL（Huawei Collective Communication Library）
  ├── 昇腾专属，支持 HCCS（片间互联）+ RoCE
  ├── PyTorch_npu 通过 backend="hccl" 接入
  └── 接口与 NCCL 基本对齐，但跨厂商混用不支持

其他国产通信库
  ├── CNCL（Cambricon Communication Library，寒武纪）
  ├── 摩尔线程 MUCL
  └── 各自仅支持本厂 GPU，无统一抽象

异构集群通信的核心问题：NCCL 不认识昇腾 NPU，HCCL 不认识 NVIDIA GPU，两者无法直接参与同一个通信组。

主流解法：

方案一：拓扑切分，避免跨厂商通信 将训练任务按模型并行拆分，使每个 All-Reduce 通信域内部只有同厂商 GPU，跨域通信通过 CPU 桥接（代价是带宽下降）：

节点 A（NVIDIA 8× H20）── NCCL All-Reduce ──┐
                                              ├── CPU 汇聚 → 参数服务器模式
节点 B（昇腾 8× 910C）── HCCL All-Reduce ──┘

方案二：统一通信抽象层（实验性）

OpenMPI + UCX：通过 UCX 传输层屏蔽底层 RDMA 差异，但性能损失较大
学术界有研究将 NCCL 和 HCCL 统一到 UCC（Unified Collective Communication），工程化程度有限

实践建议：当前阶段，异构训练最可行方案是数据并行分域（同一 All-Reduce 域内保持单一厂商），而非真正的跨厂商张量并行。

8.6 推理框架多后端支持

推理场景的异构部署比训练容易，因为推理任务通常单卡或少卡独立，无需跨卡通信：

vLLM

架构：基于 PagedAttention 的高效 KV Cache 管理
支持后端：CUDA（最完整）、ROCm（AMD，官方支持）、昇腾（社区分支 vllm-ascend）
多后端通过 Platform 抽象层实现，--device cuda/rocm/npu 切换

# NVIDIA
vllm serve meta-llama/Llama-3-8B --device cuda

# AMD ROCm
vllm serve meta-llama/Llama-3-8B --device rocm

# 昇腾（需安装 vllm-ascend 插件）
vllm serve meta-llama/Llama-3-8B --device npu

LMDeploy

由上海人工智能实验室开源，同时支持 NVIDIA（TurboMind 引擎）和昇腾（PyTorch 后端）
对国产 GPU 的支持在国内开源推理框架中最为成熟

MindIE

华为自研推理引擎，专为昇腾优化，集成在华为云 ModelArts 中
性能优于通用框架在昇腾上的表现，但仅支持昇腾硬件

Triton Inference Server（NVIDIA）

支持 CUDA / TensorRT，不支持非 NVIDIA 后端

推理框架	NVIDIA	AMD ROCm	昇腾	其他国产	开源
vLLM	支持	支持	社区支持	部分	开源
LMDeploy	支持	不支持	支持	不支持	开源
MindIE	不支持	不支持	支持	不支持	部分开源
TGI	支持	支持	不支持	不支持	开源
TensorRT-LLM	支持	不支持	不支持	不支持	开源

8.7 典型落地模式：训练与推理的异构分工

当前最实际可行的异构混合部署架构如下：

┌────────────────────────────────────────────────────────┐
│                  统一 Kubernetes 集群                   │
│                                                        │
│  ┌─────────────────────┐   ┌────────────────────────┐  │
│  │   训练节点池          │   │   推理节点池            │  │
│  │  (NVIDIA H20/A800)   │   │  (昇腾 910C / 国产卡)  │  │
│  │                      │   │                      │  │
│  │  PyTorch + NCCL      │   │  vLLM/LMDeploy       │  │
│  │  Volcano GangJob     │   │  + Koordinator 混部   │  │
│  │  8× GPU / 节点       │   │  HAMi GPU 切分共享     │  │
│  └──────────┬───────────┘   └───────────┬──────────┘  │
│             │                           │             │
│  ┌──────────▼───────────────────────────▼──────────┐  │
│  │           统一模型仓库 / 推理服务网关               │  │
│  │        （训练产出模型 → 部署到推理节点）             │  │
│  └─────────────────────────────────────────────────┘  │
└───────────────────────────────────────────────────────┘

设计要点：

训练与推理节点通过 Node Label 隔离（role: training / inference）
训练任务提交到 Volcano Queue，推理服务通过 Deployment + HPA 弹性伸缩
模型格式在训练完成后统一转换（如 .safetensors），推理引擎各自加载

8.8 混合部署的已知坑与最佳实践

坑 1：驱动版本冲突 多厂商驱动共存时，容器运行时 hook（nvidia-container-toolkit、cri-hook）可能冲突，导致 Pod 启动失败。 → 解法：各厂商驱动安装在独立命名空间，containerd config 中为不同节点配置不同 runtimeClass。

坑 2：算子缺失导致推理精度异常 国产 GPU 的 PyTorch 适配层对部分 CUDA 算子回退到 CPU 执行，默默影响精度或性能，日志中没有明显报错。 → 解法：启用 torch_npu 的算子覆盖日志，对比 NVIDIA 基准输出；关键模型在上线前做 FP16 vs 量化精度对比测试。

坑 3：NCCL 版本与框架版本的绑定 PyTorch 内置 NCCL，集群节点上手动安装的 NCCL 版本与之不匹配时，多机训练出现 Timeout 或 Unhandled system error。 → 解法：统一使用 NCCL 内置版本（NCCL_DEBUG=INFO 验证版本一致性），或使用容器化固定依赖。

坑 4：HAMi 显存切分与驱动版本强绑定 HAMi 的算力限制基于 libvgpu.so 注入，与 CUDA Driver 版本强绑定，升级驱动后可能失效。 → 解法：锁定节点 CUDA Driver 版本，升级前在测试节点验证 HAMi 功能正常。

坑 5：异构集群的监控盲区 Prometheus + DCGM Exporter 只覆盖 NVIDIA GPU，昇腾有独立的 mindx-exporter，指标名称和语义不一致。 → 解法：为不同厂商 GPU 部署各自的 exporter，在 Grafana 中按 gpu_vendor label 聚合展示。

最佳实践清单：

统一 Node Label 规范（gpu.vendor, gpu.model, gpu.memory）
使用 runtimeClass 区分不同 GPU 运行时
HAMi + Volcano 组合处理训练场景的 Gang Scheduling + GPU 虚拟化
推理节点启用 HAMi 显存切分，提升 GPU 利用率（目标 > 70%）
建立跨厂商的统一监控大盘（DCGM + mindx-exporter + 自定义 exporter）
关键模型上线前在目标 GPU 上完成精度基准测试

9. 展望：下一代 GPU 与竞争格局演变

9.1 NVIDIA Rubin 路线图

Rubin 架构已于 2026 年 1 月 CES 正式发布并进入量产，是 NVIDIA 当前最新一代架构：

规格项	Rubin GPU
制程	TSMC 3nm（N3/N3P）
晶体管数	336 亿
FP4 算力 / 芯片	50 PFLOPS（推理）/ 35 PFLOPS（训练）
BF16 算力 / 芯片	~12,500 TFLOPS（估算）
显存	288GB HBM4
显存带宽	22 TB/s（约为 B200 的 2.75×）
NVLink 6 带宽	3.6 TB/s 双向 / GPU

Vera Rubin NVL72 机架：36 颗 Vera CPU + 72 颗 Rubin GPU，FP4 推理总算力 3.6 EFLOPS，训练总算力 2.5 EFLOPS，相比 GB200 NVL72 分别提升约 5× 和 3.5×。

NVIDIA 路线图：Blackwell（2024）→ Rubin（2026）→ Rubin Ultra（2027）→ Feynman（2028+），保持年度迭代节奏。

9.2 国产芯片的追赶节奏

国产芯片与 NVIDIA 的差距可以从几个维度量化：

维度	当前差距	追赶难度
单卡峰值算力	1-2 代（1-3 年）	中（制程受限）
显存带宽	1-2 代	高（HBM 供应链）
软件生态	5-10 年	极高（网络效应）
互联带宽（NVLink 等价）	3-5 倍差距	高
系统可靠性	显著差距	中高

最难逾越的障碍不是单卡峰值算力，而是软件生态的累积效应：FlashAttention、PagedAttention、Triton kernel 等关键优化均以 CUDA 为首要平台实现，其他平台的移植在时间和完整性上持续落后。

短期内（3-5 年），国产 GPU 最可能突破的路径是：

推理场景特化：不追求通用性，对特定模型架构深度优化
CUDA 兼容转译：降低迁移成本，直接复用 CUDA 生态
算力堆叠弥补单卡差距：用 4 卡 910C 替代 1 卡 H100 的集群级算力

9.3 算力即基础设施的长期趋势

从需求侧看，几个趋势值得关注：

国内政策层面，算力国产化已纳入长期规划，国有云和央企算力中心的采购结构将持续向国产倾斜
Scaling Law 尚未失效，预训练仍是大模型能力的主要来源，对 H100/H200 级别算力的需求短期内不会消退
推理侧需求增速快于训练：每次 API 调用都消耗 GPU，大规模商业化部署的推理卡需求量正在超过训练卡
数据中心电力成本已成为头部 AI 公司的主要运营成本项，能效（TFLOPS/W）将越来越影响硬件选型

对于技术团队，在出口管制和供货不确定性持续的背景下，构建与具体 GPU 厂商解耦的推理部署架构（vLLM 多后端 + HAMi 统一调度）是降低供应链风险的可行路径，而非可选优化。