作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17
本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。
1. 选型四坐标与容量公式
绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:
| 坐标 | 关键指标 | 决定什么 |
|---|---|---|
| 显存/统一内存容量 | GB | 能装下多大模型、多长 KV Cache |
| 显存带宽 | GB/s | 解码阶段 tokens/s 的天花板 |
| 算力(FP8 / FP4 TFLOPS) | T | 首 token 延迟 (TTFT) 与 prefill 吞吐 |
| 互联(NVLink / NVLink Switch / UB / PCIe) | GB/s | 多卡/多机能否线性扩展 |
解码阶段 tok/s 的经验公式(内存带宽受限时成立):
tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)
例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论上限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文 与 SGLang RadixAttention 论文。
Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。
2. 硬件全景深度对比
2.1 Apple Silicon:Mac Studio 产品线
Apple Mac Studio 历代 Ultra 芯片内存上限对比:
| 芯片 | 发布 | 最大统一内存 | 内存带宽 | 备注 |
|---|---|---|---|---|
| M2 Ultra | 2023.6 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M3 Ultra | 2025.3 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M4 Ultra | 2025.3 | 192 GB | 546 GB/s | Mac Studio / Mac Pro |
来源:Apple Mac Studio 规格页、Apple M4 Ultra 规格(cpu-monkey)、Wikipedia M3 Ultra
注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。
Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。
- M4 Max MacBook Pro:128 GB 上限,546 GB/s,见 Apple MacBook Pro
- 软件栈:MLX、llama.cpp Metal、Ollama、LM Studio
能跑的极限负载(社区实测,192 GB 上限):
- Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
- Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
- DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案
M3 Ultra vs M4 Ultra 选择:
- 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
- M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
- 起价均约 US$ 3,999(Apple 官网)
不适合:
- 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
- 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
- 无 CUDA,绝大多数训练/微调工具链走弯路
- 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型
2.2 NVIDIA 消费级:RTX 4090 / RTX 5090
| 项 | RTX 4090 | RTX 5090 |
|---|---|---|
| 架构 | Ada (AD102) | Blackwell (GB202) |
| 显存 | 24 GB GDDR6X | 32 GB GDDR7 |
| 带宽 | 1,008 GB/s | 1,792 GB/s |
| FP8 / FP4 TFLOPS | 660 / — | 3,352 / 6,704(含稀疏) |
| TDP | 450 W | 575 W |
| MSRP | US$ 1,599 | US$ 1,999 |
| 国内参考价 | ¥12–18k(二手)/ ¥18–22k(新) | ¥20–25k(AIB 版) |
官方规格:RTX 4090、RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。
整机 TCO 估算(3 年,含电费):
| 配置 | 硬件成本 | 满载功耗 | 3 年电费(¥0.8/kWh,IDC) | 3 年总成本 |
|---|---|---|---|---|
| 1× RTX 5090 + 主机 | ~¥30k | ~700W | ~¥1.5k | ~¥31.5k |
| 2× RTX 5090 + 主机 | ~¥55k | ~1,400W | ~¥3k | ~¥58k |
实测(vLLM / TensorRT-LLM):
- 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本)
- 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
- 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
- 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵)
坑:
- 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
- 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)
2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell
2026 H1 单机本地部署最甜的卡。
- 96 GB GDDR7 ECC,带宽 1,792 GB/s,AI 算力 4,000 TOPS
- 来源:NVIDIA 官方产品页
- 300W TDP(工作站版主动散热;Server Edition 被动散热,需机箱风道)
- 支持 MIG(4 分区)、vGPU、ECC,规格见 官方产品页
- MSRP US$ 8,999(2025.3 上市,国内含税约 ¥75–90k,以当日电商报价为准)
整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh):
| 配置 | 硬件成本(含整机) | 满载功耗 | 3 年电费 | 3 年总成本 |
|---|---|---|---|---|
| 1× PRO 6000 整机 | ~¥22 万 | ~500W | ~¥1.1 万 | ~¥23 万 |
| 2× PRO 6000 整机 | ~¥35 万 | ~800W | ~¥1.7 万 | ~¥37 万 |
单卡可跑:
- Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
- Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
- DeepSeek-R1-Distill-Llama-70B FP8 单卡
- 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南)
并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):
| 并发用户数 | 稳态 tok/s | 说明 |
|---|---|---|
| 5 | ~250 | 轻松,有大量余量 |
| 20 | ~500 | 舒适区,推荐日常生产 |
| 50 | ~580 | 接近上限,队列开始积压 |
| 100+ | 需 2 卡 | 单卡 KV Cache 不足 |
双卡(2× = 192GB):
- DeepSeek-V3 671B INT4(~335GB)放不下
- Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发
工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比。
2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300
| 卡 | 显存 | 带宽 | FP8 / FP4 TFLOPS | 单卡价 | 官方链接 |
|---|---|---|---|---|---|
| H100 SXM5 80GB | HBM3 | 3.35 TB/s | 1,979 / — | ~$25k | H100 |
| H100 NVL 94GB | HBM3 | 3.9 TB/s | 1,979 / — | ~$30k | 同上 |
| H200 SXM 141GB | HBM3e | 4.8 TB/s | 1,979 / — | ~$30k | H200 |
| B200 SXM 192GB | HBM3e | 8 TB/s | 4,500 / 9,000 | ~$35–40k | Blackwell 架构 |
| B300 SXM 288GB | HBM3e | ~10 TB/s | ~5,500 / ~11,000 | ~$40–45k | B300 发布 |
GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存 13.8TB、总带宽 576TB/s,单柜推理 DeepSeek V3 可达 30× 单节点吞吐,发布资料见 GB200 NVL72。
租 vs 买的边界:8× H100/H200 机柜功耗 10kW 级,机房/冷却/运维都是专业活。个人/小团队 不要自购:
- 短期租:Lambda Cloud、CoreWeave、RunPod
- 长包:Oracle OCI、阿里灵骏 PAI-DSW、腾讯 TI-ONE、AWS p5 / p6
主流云平台 GPU 按需租用价格(2025 年实测,含税前):
| 平台 | 实例 | 按需价 | 预留价(1yr) | 来源 |
|---|---|---|---|---|
| Lambda Cloud | 1× H100 SXM5 80G | $2.49/hr | $1.99/hr | Lambda 定价页 |
| Lambda Cloud | 8× H100 SXM5 80G | $19.92/hr | $15.92/hr | Lambda 定价页 |
| Lambda Cloud | 1× H200 SXM5 141G | $3.29/hr | $2.63/hr | Lambda 定价页 |
| Lambda Cloud | 8× H200 SXM5 141G | $26.32/hr | $21.06/hr | Lambda 定价页 |
| RunPod | 1× H100 SXM 80G | $2.49/hr(社区)/ $3.99/hr(安全) | — | RunPod 定价页 |
| RunPod | 1× H200 SXM 141G | $4.49/hr(社区)/ $5.99/hr(安全) | — | RunPod 定价页 |
| 阿里云 PAI-DSW | 1× H100 80G | ~¥30–50/hr(按量) | ~¥20–35/hr(包月) | 阿里云价格计算器 |
8× H200 节点按需月费:Lambda $26.32×24×30 ≈ $18,950/月(~¥13.7 万);预留价约 $15,200/月(~¥11 万)。自建同等节点 3 年 TCO 约 ¥450–500 万,18–24 个月回本。
8× H200 节点跑 DeepSeek-V3 671B FP8 原生,单节点 1,500–2,500 tok/s 总吞吐(SGLang / vLLM,batch 64+),参考 SGLang DeepSeek V3 benchmark 与 vLLM benchmark 报告。
2.5 NVIDIA DGX Spark(GB10)
CES 2025 发布、2026 年初开始发货的"个人 AI 工作站"。
- GB10 Grace Blackwell Superchip:20-core Arm CPU + Blackwell GPU
- 128 GB LPDDR5X 统一内存,273 GB/s 带宽(注意不是 HBM)
- 1 PetaFLOP FP4 算力
- 起售价 US$ 3,299(NVIDIA 官方页)
- 双机 ConnectX-7 200GbE 互联可扩展到 256GB
- 官方:DGX Spark、NVIDIA 公告
定位:CUDA 生态的个人工作站,对标 Mac Studio。
- 273 GB/s 带宽是硬伤:Qwen3-32B Q4 解码理论上限 ~17 tok/s,实测 12–15,不如 5090
- 优势是 CUDA 全家桶(TRT-LLM、NeMo、BitsAndBytes、PEFT、Unsloth 一把梭),开发体验比 Mac 强一档
- 双机 256GB 跑 Llama-3.3-70B BF16 可行;70B FP8 单机 128GB 够
一句话:想要 CUDA 生态又不上 PRO 6000 预算,Spark 是唯一解;别拿它做生产推理。
2.6 华为昇腾 910B / 910C
- Ascend 910B:HBM2e 64GB、带宽 ~1.6 TB/s、BF16 约 320 TFLOPS,规格见 昇腾 910 系列
- Ascend 910C:双 die 封装,~128GB HBM3、FP16 实际推理性能约 H100 的 60–80%(SemiAnalysis 深度拆解)
- Atlas 800I A2:8×910B 整机,国内渠道 ~¥120–140 万(华为 Atlas 800I A2 产品页)
- Atlas 900 A3 SuperPoD:910C × 384 卡超节点(Huawei Connect 2024 发布),对标 GB200 NVL72
软件栈:CANN + MindIE + MindSpore + vLLM-Ascend。
2026.5 适配状态:
- DeepSeek V3/R1、Qwen2.5/Qwen3、GLM-4 官方 MindIE 适配路径齐全,支持 W8A8 量化(见 ModelZoo-PyTorch)
- Llama 系列社区适配但非一等公民
- vLLM-Ascend 已合并 vLLM 主干(实验性),支持 DeepSeek、Qwen3、Llama3
谁该买:信创合规强约束的政企、央国企、银行、运营商、政务。不是这类客户别凑热闹——工具链成熟度距 CUDA 仍有真实差距,调优人力是隐藏成本。
2.7 AMD Instinct MI300X / MI325X / MI350X
| 卡 | 显存 | 带宽 | FP8 TFLOPS | 官方链接 |
|---|---|---|---|---|
| MI300X | 192 GB HBM3 | 5.3 TB/s | 2,614 | AMD MI300X |
| MI325X | 256 GB HBM3e | 6 TB/s | 2,614 | AMD MI325X |
| MI350X | 288 GB HBM3e | 8 TB/s | ~5,000 | AMD CDNA4 / MI350 |
软件栈:ROCm、vLLM ROCm、SGLang ROCm。
优势:
- MI300X 单卡 192GB 放下 Llama-3.3-70B BF16(~140GB),单机 8 卡能跑 DeepSeek V3 FP8 原生
- 云端价(Azure ND MI300X v5、OCI BM.GPU.MI300X.8)通常比同配置 H100 低 20–30%
- MLPerf Inference v4.1 上 MI300X Llama-2 70B 接近 H100
劣势:ROCm 在 FP8 kernel、FlashAttention-3、FP4 支持上仍落后 CUDA 半个身位;新模型 Day-0 可用性不如 N 卡。
个人/小企业自采可能性极低,均通过云租用体验。
2.8 中国特供 & 本土 GPU
- NVIDIA H20 96GB:国内特供卡,算力砍到 H100 的 ~15%,但 HBM3 96GB + 4TB/s 带宽 让它在推理场景反而能打,单卡价 ~¥110–130k
- 摩尔线程 MTT S5000:国产全功能 GPU,32GB 显存,对标 RTX 4090,官方页
- 壁仞 BR100:7nm,HBM2e 64GB,受出口管制影响供应不稳,官网
- 寒武纪 MLU370-X8:推理场景,48GB LPDDR5,产品页
这些卡在特定央国企招标中会出现,但软件生态距昇腾还有距离。除非有强行政要求,不建议作为首选。
3. 主流开源大模型 × 硬件匹配矩阵
单流解码 tok/s 估算(FP8/INT4 量化、短上下文):
| 模型 | 参数/激活 | 精度/体积 | RTX 4090 24G | RTX 5090 32G | PRO 6000 96G | 2×PRO 6000 | Mac M3U 512G | DGX Spark 128G | 8×H200 |
|---|---|---|---|---|---|---|---|---|---|
| Llama-3.3-8B | 8B | FP16 16G | 100+ | 150+ | 200+ | – | 60 | 50 | – |
| Qwen3-14B | 14B | FP8 14G | 70 | 110 | 160 | – | 35 | 35 | – |
| Qwen3-32B | 32B | INT4 16G | 40(紧) | 85 | 130 | – | 22 | 20 | – |
| Llama-3.3-70B | 70B | INT4 35G | – | 双卡 35 | 55 | 90 | 10–12 | 7 | 很快但浪费 |
| Qwen3-72B | 72B | FP8 72G | – | – | 50 | 85 | 10 | – | 很快 |
| Mixtral 8x22B | 141B/39B | INT4 70G | – | – | 70 | 110 | 18 | – | – |
| Qwen3-235B-A22B | 235B/22B | INT4 120G | – | – | – | 60–80 | 25–30 | – | – |
| DeepSeek-V3/R1 | 671B/37B | INT4 ~340G | – | – | – | – | 17–20 | – | FP8 原生 1500+ 总吞 |
| Kimi K2 1T | 1T/32B | Q4 ~500G | – | – | – | – | Q3 勉强 | – | 集群 |
| DeepSeek V4(假设) | – | – | – | – | – | – | 需 Q4 | – | 数据中心级 |
说明:DeepSeek V4 截至 2026-05-10 未有官方发布公告;Kimi K2 1T 实测见 Moonshot AI 技术报告。
4. 30 秒决策树
flowchart TD
A[要部署什么模型?] --> B{模型规模}
B -->|≤ 14B| C{用户规模}
B -->|32B 级| D{场景}
B -->|70B 级| E{场景}
B -->|200B+ MoE| F{场景}
B -->|600B+ 满血 MoE| G{场景}
B -->|信创强约束| H[Atlas 800I A2 起步]
C -->|1-3 人| C1[RTX 5090 32G]
C -->|10-50 并发| C2[RTX PRO 6000 96G × 1]
D -->|个人/原型| D1[RTX 5090 或 DGX Spark]
D -->|生产并发| D2[PRO 6000 96G × 1 FP8]
E -->|单用户探索| E1[Mac Studio M3 Ultra 256/512G]
E -->|小团队私有| E2[PRO 6000 × 1 FP8 单卡]
E -->|产品级并发| E3[2× PRO 6000 或 8× H100 节点]
F -->|个人离线| F1[Mac Studio 512G Q4]
F -->|团队生产| F2[2× PRO 6000 或 8× H200 节点]
F -->|高并发产品| F3[多节点 8× H200/B200]
G -->|单机极限| G1[Mac Studio 512G Q4 不适合服务]
G -->|生产唯一解| G2[8× H200/B200/B300 节点]
两条红线:
- 能不能装下:权重 + KV Cache + 激活值 ≤ 显存的 ~85%
- 带宽够不够:目标 tok/s × 激活参数体积 ≤ 显存带宽的 ~70%
5. 三类用户的决策路径
5.1 资深开发者(个人,1–3 人使用)
- 日常用 32B 以内 + 偶尔 70B:RTX 5090 + 128GB DDR5,~¥25–30k;或二手 RTX 4090 ~¥12–18k
- LoRA 微调 / MLX 原型:Mac Studio M3 Ultra 256GB(~¥50k),静音、低功耗、能跑 70B
- 要跑 DeepSeek/Qwen 超大 MoE 本地:Mac Studio M3 Ultra 512GB(~¥70–80k),目前唯一 $10k 级本地跑 671B 方案
- CUDA 生态 + 较大模型容量:DGX Spark 128GB($3,299 起),微调/原型舒适,不做生产
5.2 创业者 / 10–30 人小团队
目标:全员可用的 Copilot / 客服 / 知识库。
- 方案 A(推荐):1× RTX PRO 6000 Blackwell 96GB,跑 Qwen3-72B FP8 / Llama-3.3-70B FP8,~30 并发 QPS,日活 200–500 人,整机 ~¥180–250k
- 方案 B(更大模型):2× PRO 6000 96GB(192G),跑 Qwen3-235B-A22B INT4 / Mixtral 8x22B FP8,总吞吐 300+ tok/s,整机 ~¥280–380k
- 方案 C(信创):Atlas 800I A2(8×910B)~¥120–140 万,需配 1 名 MindIE 熟手
- 不推荐:8× RTX 4090/5090 堆叠(无 NVLink、EULA 风险、电源/噪声)
5.3 中小企业 / 有模型微调训练需求
- 7B–14B LoRA/全参:1 节点 8× RTX 6000 Ada / PRO 6000 Blackwell
- 微调 70B:至少 8× H100 80GB(FSDP + QLoRA),本地不划算,租云
- 全参训练 70B+ / 预训 MoE:放弃本地,租 H200/B200 集群
规则:训练进云、推理落地在 2026 仍然成立。
6. 按 DAU 反推的生产级选型(七档)
6.1 容量公式
基础假设(中强度交互型产品):
- 单用户每日会话数:20 次
- 单次 input+output:2,000 tokens(输出 ~600 tok)
- 峰谷比:日总量 15% 落在峰值 1 小时(≈ 日均 3.6×)
- 服务冗余:1.5×
日总 tokens = DAU × 20 × 2000
日输出 tokens = DAU × 20 × 600
峰值输出 tok/s = 日输出 × 0.15 / 3600 × 1.5
| DAU | 日总 tokens | 日输出 tokens | 峰值输出 tok/s |
|---|---|---|---|
| 1,000 | 4 千万 | 1.2 千万 | ~750 |
| 5,000 | 2 亿 | 6 千万 | ~3,750 |
| 10,000 | 4 亿 | 1.2 亿 | ~7,500 |
| 50,000 | 20 亿 | 6 亿 | ~37,500 |
| 100,000 | 40 亿 | 12 亿 | ~75,000 |
| 500,000 | 200 亿 | 60 亿 | ~375,000 |
| 1,000,000 | 400 亿 | 120 亿 | ~750,000 |
业务类型修正:纯客服 ×0.4;RAG ×0.8;IDE Copilot ×2.0;长 CoT Agent ×3–5。
6.2 单节点吞吐基准(Qwen3-72B FP8 / Llama-3.3-70B FP8 高并发稳态)
| 平台 | 总吞吐 tok/s | 备注 |
|---|---|---|
| 1× RTX PRO 6000 Blackwell 96G | ~600 | batch 32,vLLM |
| 2× RTX PRO 6000 | ~1,200 | TP=2 |
| 4× RTX PRO 6000 | ~2,200 | TP=4,PCIe 瓶颈 |
| 8× H100 80G SXM | ~3,500 | NVLink 全互联 |
| 8× H200 141G SXM | ~5,500 | HBM3e 带宽翻倍 |
| 8× B200 192G SXM | ~10,000+ | FP4 原生 |
| 8× B300 288G SXM | ~13,000+ | HBM3e 10TB/s |
| GB300 NVL72(72 卡超节点) | ~100,000+ | 1 柜即集群 |
| 8× MI300X 192G | ~3,000 | ROCm vLLM |
| 8× MI350X 288G | ~6,500 | CDNA4 |
| Atlas 800I A2(8×910B) | ~2,500–3,500 | W8A8 MindIE |
| Atlas 900 A3(910C × 384) | ~150,000+ | 超节点架构 |
6.3 七档 DAU 方案
▶ 6.3.1 DAU = 1,000(峰值 ~750 tok/s)
这是早期项目/内部工具典型规模。
并发估算:峰值 750 tok/s ÷ 平均输出速度 40 tok/s/用户 ≈ 同时在线 ~19 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | 3 年 CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 1× RTX PRO 6000 96G(整机) | ~50 并发 | 电费 ¥0.3k + 运维 ¥5k = ¥5.3k | ~¥23 万 | 单卡 600 tok/s 覆盖峰值,余量充足 |
| 备选 | 2× RTX 5090 32G(整机) | ~30 并发 | 电费 ¥0.5k + 运维 ¥4k = ¥4.5k | ~¥10 万 | 出海 SaaS 违反 EULA,内部用可以 |
| 云替代 | API(Together AI Qwen3-72B ~$0.30/M tok) | 无上限 | token 费 ¥5–12k = ¥5–12k | 0 | PoC / MVP 阶段首选,无 CapEx |
电费基准:IDC 商业电价 ¥0.8/kWh(中国电力企业联合会参考),PRO 6000 整机满载 ~500W,月电费 ≈ 0.5kW × 720h × ¥0.8 ≈ ¥288。
1k DAU 阶段 强烈建议先用 API,等 PMF 稳定且 prompt 模板收敛再自建,避免硬件投资被业务转弯打废。
▶ 6.3.2 DAU = 5,000(峰值 ~3,750 tok/s)
并发估算:3,750 ÷ 40 ≈ ~94 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 2 节点 × (2× PRO 6000 96G) | ~200 并发 | 电费 ¥1.5k + 机房 ¥8k + 运维 ¥15k = ¥24.5k | ¥90–110 万 | 双活冗余;2.4k tok/s 稳态,峰值轻微排队 |
| 精简 | 1 节点 4× PRO 6000 96G | ~150 并发 | 电费 ¥1.2k + 机房 ¥5k + 运维 ¥12k = ¥18k | ¥75 万 | 单点风险高,仅内部系统 |
| 云上 | 按需 2× H100 pod(Lambda $19.92/hr) | 弹性 | ¥21k($2,880/月) | 0 | 无 CapEx,3 年 TCO > 自建约 1.5× |
自建 vs 云:2 节点方案 3 年 TCO ≈ ¥110 万 + ¥24.5k×36 = ¥198 万;云上 3 年 ≈ ¥21k×36 = ¥76 万。DAU 5k 时云更划算,除非有数据合规要求。
▶ 6.3.3 DAU = 10,000(峰值 ~7,500 tok/s)
并发估算:7,500 ÷ 40 ≈ ~188 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 1 节点 8× H200 SXM | ~500 并发 | 电费 ¥5k + 机房 ¥20k + 运维 ¥30k = ¥55k | ¥350–420 万 | 5.5k tok/s + prefix cache 刚好覆盖 |
| 备选 | 3 节点 × 4× PRO 6000 | ~450 并发 | 电费 ¥3.5k + 机房 ¥15k + 运维 ¥30k = ¥48.5k | ¥225 万 | CapEx 低 40%,运维更碎 |
| 信创 | 1 节点 Atlas 800I A2 | ~300 并发 | 电费 ¥4k + 机房 ¥15k + 运维 ¥30k = ¥49k | ¥130 万 | 需 1 名 MindIE 熟手(人力成本另计) |
| 云长包 | 1× H200 节点(Lambda 预留 $21.06/hr) | 弹性 | ¥11 万($15,163/月) | 0 | PoC / 初期,18 个月后自建回本 |
自建 8×H200 节点 3 年 TCO ≈ ¥400 万 + ¥55k×36 = ¥598 万;云长包 3 年 ≈ ¥11 万×36 = ¥396 万。此档自建 vs 云差距缩小,数据合规 + 延迟敏感场景倾向自建。
▶ 6.3.4 DAU = 50,000(峰值 ~37,500 tok/s)
单节点撑不住,集群时代开始。并发估算:37,500 ÷ 40 ≈ ~938 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 4 节点 × 8× H200(32 卡) | ~2,000 并发 | 电费 ¥20k + 机房 ¥60k + 运维 ¥120k = ¥20 万 | ¥1,400–1,700 万 | 22k tok/s 稳态,prefix cache 可再提 30% |
| 激进 | 2 节点 × 8× B200(16 卡) | ~2,500 并发 | 电费 ¥18k + 机房 ¥50k + 运维 ¥100k = ¥17 万 | ¥1,200 万 | 卡少节点少,TCO 更优 |
| 异构 | 2×8×H200(热)+ 4×4×PRO6000(冷批) | ~1,800 并发 | 电费 ¥22k + 机房 ¥65k + 运维 ¥130k = ¥22 万 | ¥1,500 万 | 冷热分层,高价值请求走 H200 |
| 信创 | 4 节点 Atlas 800I A2 | ~1,200 并发 | 电费 ¥16k + 机房 ¥50k + 运维 ¥120k = ¥19 万 | ¥500 万 | 需专属团队(人力 ¥50k+/月另计) |
此档必须上:多活、灰度 canary、prefix cache、KV offload(LMCache / Mooncake)、KEDA 自动扩缩容。
▶ 6.3.5 DAU = 100,000(峰值 ~75,000 tok/s)
中型 AI 产品区间。自建机房 / GPU colo / 包云,三选一。并发估算:75,000 ÷ 40 ≈ ~1,875 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 8 节点 × 8× H200(64 卡) + 2 节点 B200 备份 | ~4,000 并发 | 电费 ¥40k + 机房 ¥120k + 运维 ¥400k = ¥56 万 | ¥2,800–3,300 万 | ~44k tok/s 稳态,留 60% 余量 |
| 激进 | 4 节点 × 8× B200(32 卡) | ~5,000 并发 | 电费 ¥36k + 机房 ¥100k + 运维 ¥350k = ¥49 万 | ¥2,400 万 | 节点减半,运维更简 |
| 异构分层 | 4×8×H200(热)+ 8×8×PRO6000(批/离线) | ~3,500 并发 | 电费 ¥50k + 机房 ¥130k + 运维 ¥450k = ¥63 万 | ¥3,100 万 | 高价值走 H200,长 RAG / 批走 PRO6000 |
| 信创 | 12 节点 Atlas 800I A2(96 卡 910B) | ~3,000 并发 | 电费 ¥48k + 机房 ¥120k + 运维 ¥300k = ¥47 万 | ¥1,500 万 | 仅合规刚需 |
| 云长包 | 8×B200 节点(CoreWeave) | 弹性 | ¥150 万+ | 0 | 免 2 周交付窗口,适合快速上线 |
工程难点超过硬件:400G IB / RoCEv2 RDMA、KV 分层(GPU→CPU→NVMe)、请求调度、租户隔离、SLO 可观测性、多模型 A/B。
▶ 6.3.6 DAU = 500,000(峰值 ~375,000 tok/s)
互联网级产品。自建机柜或与云厂签 reserved instance。并发估算:375,000 ÷ 40 ≈ ~9,375 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 32 节点 × 8× H200(256 卡) + 4 节点 B300 备份 | ~20,000 并发 | 电费 ¥160k + 机房 ¥500k + 运维 ¥1,500k = ¥216 万 | ¥1.3–1.5 亿 | 180k tok/s 稳态,双活跨机房 |
| 激进 | 16 节点 × 8× B200(128 卡) | ~20,000 并发 | 电费 ¥144k + 机房 ¥450k + 运维 ¥1,200k = ¥180 万 | ¥1.1 亿 | B200 集群,节点减半 |
| 前沿 | 1× GB200 NVL72 机柜 + 4× 8×B200 | ~25,000 并发 | 电费 ¥200k + 机房 ¥600k + 运维 ¥1,400k = ¥220 万 | ¥1.2 亿 | 超节点拿 MoE 红利 |
| 混合 | 8×8×B200(热)+ 16×8×H200(次级)+ 16×8×PRO6000(批量) | ~22,000 并发 | 电费 ¥220k + 机房 ¥600k + 运维 ¥1,600k = ¥242 万 | ¥1.4 亿 | 三层分级 SLA |
此档位 必须:
- 多机房 active-active
- DR(异地容灾)
- 专职平台团队(≥ 10 人,人力成本 ¥100–200 万/月)
- Anyscale Ray Serve / SkyPilot 这类调度层
- 基础设施预算 > 软件工程预算
▶ 6.3.7 DAU = 1,000,000(峰值 ~750,000 tok/s)
接近 OpenAI / Anthropic / Moonshot / DeepSeek 单产品线规模。并发估算:750,000 ÷ 40 ≈ ~18,750 个并发请求。
| 方案 | 硬件 | 并发上限 | 月 OpEx 拆解 | CapEx | 备注 |
|---|---|---|---|---|---|
| 推荐 | 60 节点 × 8× H200(480 卡)+ 12 节点 B300 | ~40,000 并发 | 电费 ¥300k + 机房 ¥1,000k + 运维 ¥3,000k = ¥430 万 | ¥2.5–3 亿 | 360k tok/s 稳态,多区域 |
| 前沿 | 多柜 GB200/GB300 NVL72(3–6 柜) | ~50,000 并发 | 电费 ¥350k + 机房 ¥1,200k + 运维 ¥2,500k = ¥405 万 | ¥2.2 亿 | 超节点是百万 DAU 原生架构 |
| 激进 | 32 节点 × 8× B300(256 卡) | ~45,000 并发 | 电费 ¥320k + 机房 ¥1,000k + 运维 ¥2,800k = ¥412 万 | ¥2 亿 | FP4 原生,HBM3e 10TB/s |
| 混合 | GB200 NVL72 × 2(热)+ 32×8×H200(温)+ 64×8×PRO6000(批/RAG) | ~55,000 并发 | 电费 ¥400k + 机房 ¥1,200k + 运维 ¥3,500k = ¥511 万 | ¥3.2 亿 | 四层 SLA,最灵活 |
此档位 GB200/GB300 NVL72 是最优解:72 卡单域 NVLink 意味着 MoE 专家并行 + 超大 KV Cache 直接丢进共享内存,吞吐比等量 HGX 节点高 2–4×。参考 NVIDIA MLPerf v5.0 提交。
工程挑战:
- 跨机房 / 跨 AZ 路由(Envoy Gateway + LiteLLM router)
- KV Cache 分布式(Mooncake 分池)
- 模型版本 / 多 LoRA 热切
- 每秒 token 成本持续审计(FinOps 维度)
6.4 七档汇总表
| DAU | 峰值 tok/s | 最小推荐硬件 | 典型 CapEx | 3 年 TCO | 单 DAU 月成本 |
|---|---|---|---|---|---|
| 1,000 | 750 | 1× PRO 6000 整机 | ¥22 万 | ¥40 万 | ~¥11 |
| 5,000 | 3,750 | 2×(2×PRO 6000) | ¥100 万 | ¥200 万 | ~¥11 |
| 10,000 | 7,500 | 1× 8×H200 节点 | ¥400 万 | ¥580 万 | ~¥16 |
| 50,000 | 37,500 | 4× 8×H200 | ¥1,500 万 | ¥2,400 万 | ~¥13 |
| 100,000 | 75,000 | 8× 8×H200 | ¥3,000 万 | ¥4,800 万 | ~¥13 |
| 500,000 | 375,000 | 32×8×H200 + 备份 | ¥1.4 亿 | ¥2.4 亿 | ~¥13 |
| 1,000,000 | 750,000 | NVL72 × 多 + H200/B300 | ¥2.5–3 亿 | ¥4.8 亿 | ~¥13–14 |
洞察:
- 规模经济在 1 万 DAU 拐点出现;之后单 DAU 成本稳定在 ¥11–14
- 1k DAU 档每 DAU 成本被"冗余最小单元"拉低(因为 1 台 PRO 6000 本来就能撑更多)
- 10 万 DAU 后 B200/B300 + NVL72 是整体最省
- 500k 以上必须跨机房,运维/人力占比反超硬件
7. 成本视角:$/百万 token 的真实对比
电费基准:IDC 商业用电 ¥0.8/kWh(中国电力企业联合会参考区间,沿海一线城市 ¥0.7–1.0,内蒙/贵州等西部 ¥0.3–0.5,此处取中值)。3 年按 8,760h/年 × 3 = 26,280h 计算,利用率 70%(推理服务非满载)。
3 年 TCO / 可产出 tokens(仅硬件 + 电 + 折旧,不含机房租金/人力):
| 方案 | CapEx | 满载功耗 | 3 年电费(70% 利用率) | 稳态 tok/s | 3 年 tokens | $/百万 token |
|---|---|---|---|---|---|---|
| Mac M4 Ultra 192GB | ¥28k | ~80W | ~¥1.5k | 12 | 1.1 T | ~$3–4 |
| Mac M3 Ultra 512GB | ¥75k | ~120W | ~¥2.2k | 15 | 1.4 T | ~$7–8 |
| 1× PRO 6000 Blackwell(整机) | ¥23 万 | ~500W | ~¥9.2k | 200 | 18.5 T | ~¥1.3 |
| 2× PRO 6000(整机) | ¥37 万 | ~800W | ~¥14.7k | 450 | 41.6 T | ~¥1.0 |
| 8× H200 节点 | ¥400 万 | ~10kW | ~¥18.4 万 | 5,500 | 508 T | ~¥0.9 |
| 8× B200 节点 | ¥550 万 | ~11kW | ~¥20.2 万 | 10,000 | 924 T | ~¥0.8 |
| 8× B300 节点 | ¥650 万 | ~12kW | ~¥22 万 | 13,000 | 1,201 T | ~¥0.75 |
| GB200 NVL72 机柜 | ¥3,500 万 | ~120kW | ~¥220 万 | 100,000 | 9,245 T | ~¥0.52 |
| Atlas 800I A2(910B×8) | ¥130 万 | ~8kW | ~¥14.7 万 | 3,000 | 277 T | ~¥0.9 |
| 云租 H100 按需(Lambda) | – | – | – | – | – | ~$2.5–4(Lambda 定价) |
| 云租 H200 按需(Lambda) | – | – | – | – | – | ~$3–5(Lambda 定价) |
| 开源模型 API(Together AI Qwen3-72B) | – | – | – | – | – | ~$0.30/M tok(Together AI 定价) |
| 闭源 API(GPT-4o / Claude 3.5 级) | – | – | – | – | – | $5–15 |
$/百万 token 换算说明:自建方案以人民币计,按 1 USD ≈ 7.2 CNY 换算后填入,便于与云 API 横向对比。
结论:
- 开源 API(Together AI 等)$0.30/M tok 是目前最便宜的"零 CapEx"方案,适合 DAU < 5k 或 PMF 未验证阶段
- 单卡 PRO 6000 Blackwell 自建约 ¥1.3/M tok,日活超过 ~200 人后比 API 划算
- 超节点(NVL72)单位 token 成本最低,但只对 10 万 DAU+ 有意义
- Mac Studio 的价值是"跑得起 671B",不是 $/token——M4 Ultra 跑 70B 以内反而比 M3 Ultra 性价比更高
8. 软件栈的硬选择
| 引擎 | 定位 | 文档 |
|---|---|---|
| vLLM | 通用首选,PagedAttention + Continuous Batching 事实标准 | vllm.ai |
| SGLang | MoE / DeepSeek / Qwen 吞吐常胜 vLLM 10–30%,RadixAttention | sglang |
| TensorRT-LLM | N 卡极限压榨,产线首选 | TRT-LLM |
| llama.cpp / Ollama | CPU/GPU/Mac 都能跑,不谈极限吞吐 | llama.cpp |
| MLX | Apple 原生,比 llama.cpp 快 30–50% | MLX |
| MindIE / vLLM-Ascend | 昇腾专属 | MindIE |
| LMDeploy / TurboMind | 商汤推的推理引擎 | LMDeploy |
量化组合推荐:
- 消费卡:AWQ (W4A16) (AWQ 论文) 或 GPTQ INT4 (GPTQ 论文)
- 工作站/数据中心卡:FP8 (E4M3) 原生几乎无损(FP8 格式 spec)
- Apple Silicon:MLX Q4 或 GGUF Q4_K_M
- Blackwell (5090 / PRO 6000 / B200/B300):FP4 (NVFP4 技术博客),tok/s 再翻倍,精度损失在收敛中
9. 工程落地
9.1 部署 checklist(上线前逐项打勾)
硬件层
- 功耗预算:单节点实测满载 × 1.2 < 机柜供电额定值
- 散热:前后进出风温差 < 15°C,热点 GPU 温度 < 85°C
- NVLink / IB 链路状态(
nvidia-smi topo -m、ibstatus) - ECC 启用(工作站卡默认关,需
nvidia-smi -e 1) - NVMe 裕量 > 2× 模型权重总和(LMCache offload 用)
系统层
- CUDA ≥ 12.6,cuDNN 最新,驱动 ≥ 560
- 关闭 CPU C-states(BIOS),关闭透明大页 THP
-
nvidia-persistenced常驻,nvidia-smi -pm 1 - MIG / MPS 根据多租户需求开启(MPS 文档)
服务层
- 推理引擎版本固定(vLLM / SGLang 指定 commit)
- 模型权重 SHA 校验写进启动日志
- 健康探活:
/health、/metrics、实际 1-token 生成探测 - 灰度路由(先 5% 流量,观测 1h 无异常再放量)
- 限流:QPS、token/s、并发连接三维度
- 超时:TTFT > 5s 或 total > 60s 主动切断
可观测
- 指标:TTFT p50/p95/p99、output tok/s、queue time、KV hit rate、GPU util、SM occupancy、HBM util
- 日志:结构化 JSON,保留 prompt hash 而非 prompt 本身(隐私)
- 告警:TTFT p95 > SLO 50% 三分钟触发
容量
- 峰值压测通过:实际 1.5× 峰值持续 30min 无 SLO 破坏
- 故障演练:一节点下线后 60s 内重分布,无 5xx 爆发
9.2 vLLM 生产启动参数模板(8×H200,Qwen3-72B FP8)
| |
官方参数表:vLLM engine args。
9.3 SGLang 生产启动模板(MoE 优选,DeepSeek V3 FP8,8×H200)
| |
参数说明:SGLang server args;DeepSeek V3 专用调优见 SGLang DeepSeek guide。
9.4 压测脚本(GenAI-Perf / vLLM benchmark)
| |
| |
关注的 SLO 指标:
- TTFT p95 ≤ 500ms(聊天)/ ≤ 200ms(IDE Copilot)
- output tok/s p50 ≥ 30(用户可读速度 > 阅读速度)
- E2E 成功率 ≥ 99.5%
- KV cache hit rate ≥ 30%(RAG/Agent 往往能到 50–70%)
9.5 监控清单(Prometheus + Grafana)
| 指标名(vLLM) | 含义 | 告警阈值 |
|---|---|---|
vllm:time_to_first_token_seconds | TTFT | p95 > SLO×1.5 持续 3min |
vllm:time_per_output_token_seconds | TPOT | p95 > 50ms |
vllm:num_requests_running | 在跑请求 | < max-num-seqs × 0.9 时可扩量 |
vllm:num_requests_waiting | 队列 | 持续 > 0 即容量不足 |
vllm:gpu_cache_usage_perc | KV 占用 | > 95% 触发 preemption |
vllm:request_prefill_time_seconds | Prefill 耗时 | 长 prompt 场景重点看 |
DCGM_FI_DEV_GPU_UTIL | SM 利用率 | < 60% 说明 batch 不够 |
DCGM_FI_DEV_FB_USED | 显存占用 | 留 5% 头 |
DCGM_FI_DEV_GPU_TEMP | GPU 温度 | > 85°C 告警 |
指标清单参考:vLLM metrics 文档、NVIDIA DCGM Exporter。Grafana 面板模板:vLLM dashboard (ID 21043)。
9.6 KV Cache 分层(超过万 DAU 必上)
- LMCache:vLLM/SGLang 原生集成,GPU→CPU→NVMe 三级卸载,prefix 命中后 TTFT 降 5–10×
- Mooncake:Moonshot 开源,分布式 KV 池,跨节点共享;白皮书 Mooncake: Trading More Storage for Less Computation
- KV quant:FP8 KV 几乎无损,INT4 KV 在长上下文下降明显,生产谨慎
10. 架构与容量可视化
10.1 百万 DAU 推理平台参考架构
flowchart LR
U[用户] --> CDN[Anycast CDN / WAF]
CDN --> GW[LLM Gateway<br/>LiteLLM / Envoy]
GW --> RL[限流/计费/租户隔离]
RL --> R1[Router A<br/>SGLang Router]
RL --> R2[Router B]
R1 --> H1[热层<br/>GB300 NVL72 × N]
R1 --> H2[温层<br/>8× H200 集群]
R2 --> C1[冷/批<br/>PRO 6000 96G 集群]
H1 --> KV[(KV 分层池<br/>LMCache + Mooncake)]
H2 --> KV
C1 --> KV
H1 --> OBS[Prometheus<br/>Grafana<br/>Loki]
H2 --> OBS
C1 --> OBS
OBS --> AL[AlertManager<br/>PagerDuty]
10.2 DAU vs 单 DAU 月成本曲线(规模经济)
xychart-beta
title "单 DAU 月成本(¥)随规模变化"
x-axis "DAU" [1000, 5000, 10000, 50000, 100000, 500000, 1000000]
y-axis "¥ / DAU / 月" 0 --> 20
line [11, 11, 16, 13, 13, 13, 14]
10.3 不同硬件的 $/百万 token
xychart-beta
title "$ / 百万 token(3 年 TCO 分摊)"
x-axis ["Mac 512G", "PRO6000×1", "PRO6000×2", "8×H200", "8×B200", "8×B300", "NVL72", "Atlas 910B×8"]
y-axis "$ / M tok" 0 --> 8
bar [7.5, 1.3, 1.0, 1.0, 0.8, 0.75, 0.52, 0.9]
10.4 模型规模到硬件档位的映射
flowchart TD
subgraph 模型
M1[≤14B]
M2[32B]
M3[70B]
M4[200B+ MoE]
M5[600B+ 满血 MoE]
M6[1T+]
end
subgraph 硬件
H1[RTX 5090 32G]
H2[RTX PRO 6000 96G]
H3[2× PRO 6000 192G]
H4[8× H200 141G]
H5[8× B200/B300]
H6[GB200/GB300 NVL72]
end
M1 --> H1
M1 --> H2
M2 --> H1
M2 --> H2
M3 --> H2
M3 --> H4
M4 --> H3
M4 --> H4
M5 --> H4
M5 --> H5
M6 --> H5
M6 --> H6
11. 踩坑清单(一线教训)
- 只看显存不看带宽:同 96GB,HBM3e(4.8TB/s)vs GDDR7(1.8TB/s)解码差 2.5×
- 忽视 prefill:RAG/Agent prompt 常 10K+,算力不足卡首 token
- 5090 不是 4090 Plus:无 NVLink、575W、散热/供电要重做
- Mac 不能做并发:全员部署请用 GPU
- 昇腾适配坑:模型发布 → MindIE 可跑通常 2–8 周延迟
- 电源/机柜:2× PRO 6000 + EPYC 满载 ~1.8kW,家用 10A/230V 临界,三相才稳
- EULA:RTX 消费卡禁止数据中心部署(GeForce Driver EULA),SaaS 出海留意
- 不要神话单机跑 DeepSeek V3:Q4 量化 PPL 上升、长 CoT 稳定性下降,生产前必做业务回归
- NVLink Switch 拓扑陷阱:PCIe TP>2 性价比骤降;NVSwitch 节点内 TP=8 是黄金点,跨节点优先用 PP 而非 TP
- 别省 RDMA:多机 vLLM 不上 400G IB / RoCEv2,跨机 TP 基本废掉
12. 2026 H1 推荐汇总(一表贴墙)
| 角色 / 规模 | 推荐配置 | 核心负载 | 预算/CapEx | 月 OpEx 估算 |
|---|---|---|---|---|
| 个人开发者 | RTX 5090 + 128GB DDR5 | Qwen3-32B Q4、Llama-3.3-8B FP16 | ¥25–30k | ~¥200(电费) |
| 70B 以内 + CUDA 生态 | Mac Studio M4 Ultra 192GB | Qwen3-72B Q4、Llama-3.3-70B Q4 | ~¥28k($3,999) | ~¥100(电费) |
| 模型极客(跑 671B) | Mac Studio M3 Ultra 512GB | DeepSeek-V3 Q4、Qwen3-235B Q4 | ¥70–80k | ~¥150(电费) |
| CUDA 原型工作站 | DGX Spark 128GB | 原型 / LoRA 微调 | ~¥24k($3,299) | ~¥150(电费) |
| 小团队 Copilot(~20 并发) | 1× PRO 6000 96G 整机 | Qwen3-72B FP8 | ¥22–23 万 | ~¥5–6k(电+运维) |
| 小团队大模型私有(~100 并发) | 2× PRO 6000 96G 整机 | Qwen3-235B-A22B INT4 | ¥35–37 万 | ~¥8–10k(电+运维) |
| 1k DAU(~20 并发峰值) | 1× PRO 6000 整机 | Qwen3-72B FP8 | ~¥23 万 | ~¥5.3k |
| 5k DAU(~94 并发峰值) | 2×(2×PRO 6000) 双活 | 72B FP8 | ¥90–110 万 | ~¥24.5k |
| 10k DAU(~188 并发峰值) | 1 节点 8× H200 | Qwen3-235B / DeepSeek V3 | ¥350–420 万 | ~¥55k |
| 50k DAU(~938 并发峰值) | 4× 8× H200 | DeepSeek V3 FP8 | ¥1,400–1,700 万 | ~¥20 万 |
| 100k DAU(~1,875 并发峰值) | 8× 8× H200 或 4× 8×B200 | 生产集群 | ¥2,800–3,300 万 | ~¥56 万 |
| 500k DAU(~9,375 并发峰值) | 32× 8×H200 + B300 备份 | 跨机房多活 | ¥1.3–1.5 亿 | ~¥216 万 |
| 1M DAU(~18,750 并发峰值) | GB200/GB300 NVL72 × 多柜 | 超节点 + HGX 分层 | ¥2.5–3 亿 | ~¥430 万 |
| 信创 | Atlas 800I A2(8×910B)/节点 | DeepSeek V3 W8A8、Qwen3 | ¥120–150 万/节点 | ~¥5–6 万/节点 |
一句话总结:2026.5 的现实是——个人选 Mac 或 5090,团队选 RTX PRO 6000 Blackwell,国企选昇腾,万级 DAU 走 H200 节点,十万级上 B200/B300 集群,百万级必须 NVL72 超节点。自建还是上云?答案永远是:先把 DAU × 场景 × token 量算清,再决定砸硬件还是付 API。

