开源大模型本地部署硬件选型深度指南

作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17

本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。


1. 选型四坐标与容量公式

绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:

坐标关键指标决定什么
显存/统一内存容量GB能装下多大模型、多长 KV Cache
显存带宽GB/s解码阶段 tokens/s 的天花板
算力(FP8 / FP4 TFLOPS)T首 token 延迟 (TTFT) 与 prefill 吞吐
互联(NVLink / NVLink Switch / UB / PCIe)GB/s多卡/多机能否线性扩展

解码阶段 tok/s 的经验公式(内存带宽受限时成立):

tokens/s  ≈  显存带宽 (GB/s) / 激活参数体积 (GB)

例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论上限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文SGLang RadixAttention 论文

Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档


2. 硬件全景深度对比

2.1 Apple Silicon:Mac Studio 产品线

Apple Mac Studio 历代 Ultra 芯片内存上限对比:

芯片发布最大统一内存内存带宽备注
M2 Ultra2023.6192 GB800 GB/sMac Studio / Mac Pro
M3 Ultra2025.3192 GB800 GB/sMac Studio / Mac Pro
M4 Ultra2025.3192 GB546 GB/sMac Studio / Mac Pro

来源:Apple Mac Studio 规格页Apple M4 Ultra 规格(cpu-monkey)Wikipedia M3 Ultra

注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。

Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。

能跑的极限负载(社区实测,192 GB 上限)

  • Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
  • Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
  • DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案

M3 Ultra vs M4 Ultra 选择

  • 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
  • M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
  • 起价均约 US$ 3,999Apple 官网

不适合

  • 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
  • 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
  • 无 CUDA,绝大多数训练/微调工具链走弯路
  • 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型

2.2 NVIDIA 消费级:RTX 4090 / RTX 5090

RTX 4090RTX 5090
架构Ada (AD102)Blackwell (GB202)
显存24 GB GDDR6X32 GB GDDR7
带宽1,008 GB/s1,792 GB/s
FP8 / FP4 TFLOPS660 / —3,352 / 6,704(含稀疏)
TDP450 W575 W
MSRPUS$ 1,599US$ 1,999
国内参考价¥12–18k(二手)/ ¥18–22k(新)¥20–25k(AIB 版)

官方规格:RTX 4090RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。

整机 TCO 估算(3 年,含电费)

配置硬件成本满载功耗3 年电费(¥0.8/kWh,IDC)3 年总成本
1× RTX 5090 + 主机~¥30k~700W~¥1.5k~¥31.5k
2× RTX 5090 + 主机~¥55k~1,400W~¥3k~¥58k

实测(vLLM / TensorRT-LLM)

  • 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本
  • 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
  • 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
  • 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵

  • 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
  • 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)

2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell

2026 H1 单机本地部署最甜的卡

整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh)

配置硬件成本(含整机)满载功耗3 年电费3 年总成本
1× PRO 6000 整机~¥22 万~500W~¥1.1 万~¥23 万
2× PRO 6000 整机~¥35 万~800W~¥1.7 万~¥37 万

单卡可跑

  • Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
  • Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
  • DeepSeek-R1-Distill-Llama-70B FP8 单卡
  • 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南

并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):

并发用户数稳态 tok/s说明
5~250轻松,有大量余量
20~500舒适区,推荐日常生产
50~580接近上限,队列开始积压
100+需 2 卡单卡 KV Cache 不足

双卡(2× = 192GB)

  • DeepSeek-V3 671B INT4(~335GB)放不下
  • Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发

工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比


2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300

显存带宽FP8 / FP4 TFLOPS单卡价官方链接
H100 SXM5 80GBHBM33.35 TB/s1,979 / —~$25kH100
H100 NVL 94GBHBM33.9 TB/s1,979 / —~$30k同上
H200 SXM 141GBHBM3e4.8 TB/s1,979 / —~$30kH200
B200 SXM 192GBHBM3e8 TB/s4,500 / 9,000~$35–40kBlackwell 架构
B300 SXM 288GBHBM3e~10 TB/s~5,500 / ~11,000~$40–45kB300 发布

GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存 13.8TB、总带宽 576TB/s,单柜推理 DeepSeek V3 可达 30× 单节点吞吐,发布资料见 GB200 NVL72

租 vs 买的边界:8× H100/H200 机柜功耗 10kW 级,机房/冷却/运维都是专业活。个人/小团队 不要自购

主流云平台 GPU 按需租用价格(2025 年实测,含税前)

平台实例按需价预留价(1yr)来源
Lambda Cloud1× H100 SXM5 80G$2.49/hr$1.99/hrLambda 定价页
Lambda Cloud8× H100 SXM5 80G$19.92/hr$15.92/hrLambda 定价页
Lambda Cloud1× H200 SXM5 141G$3.29/hr$2.63/hrLambda 定价页
Lambda Cloud8× H200 SXM5 141G$26.32/hr$21.06/hrLambda 定价页
RunPod1× H100 SXM 80G$2.49/hr(社区)/ $3.99/hr(安全)RunPod 定价页
RunPod1× H200 SXM 141G$4.49/hr(社区)/ $5.99/hr(安全)RunPod 定价页
阿里云 PAI-DSW1× H100 80G~¥30–50/hr(按量)~¥20–35/hr(包月)阿里云价格计算器

8× H200 节点按需月费:Lambda $26.32×24×30 ≈ $18,950/月(~¥13.7 万);预留价约 $15,200/月(~¥11 万)。自建同等节点 3 年 TCO 约 ¥450–500 万,18–24 个月回本

8× H200 节点跑 DeepSeek-V3 671B FP8 原生,单节点 1,500–2,500 tok/s 总吞吐(SGLang / vLLM,batch 64+),参考 SGLang DeepSeek V3 benchmarkvLLM benchmark 报告


2.5 NVIDIA DGX Spark(GB10)

CES 2025 发布、2026 年初开始发货的"个人 AI 工作站"。

  • GB10 Grace Blackwell Superchip:20-core Arm CPU + Blackwell GPU
  • 128 GB LPDDR5X 统一内存,273 GB/s 带宽(注意不是 HBM)
  • 1 PetaFLOP FP4 算力
  • 起售价 US$ 3,299NVIDIA 官方页
  • 双机 ConnectX-7 200GbE 互联可扩展到 256GB
  • 官方:DGX SparkNVIDIA 公告

定位:CUDA 生态的个人工作站,对标 Mac Studio。

  • 273 GB/s 带宽是硬伤:Qwen3-32B Q4 解码理论上限 ~17 tok/s,实测 12–15,不如 5090
  • 优势是 CUDA 全家桶(TRT-LLM、NeMo、BitsAndBytes、PEFT、Unsloth 一把梭),开发体验比 Mac 强一档
  • 双机 256GB 跑 Llama-3.3-70B BF16 可行;70B FP8 单机 128GB 够

一句话:想要 CUDA 生态又不上 PRO 6000 预算,Spark 是唯一解;别拿它做生产推理


2.6 华为昇腾 910B / 910C

软件栈CANN + MindIE + MindSpore + vLLM-Ascend

2026.5 适配状态

  • DeepSeek V3/R1、Qwen2.5/Qwen3、GLM-4 官方 MindIE 适配路径齐全,支持 W8A8 量化(见 ModelZoo-PyTorch
  • Llama 系列社区适配但非一等公民
  • vLLM-Ascend 已合并 vLLM 主干(实验性),支持 DeepSeek、Qwen3、Llama3

谁该买:信创合规强约束的政企、央国企、银行、运营商、政务。不是这类客户别凑热闹——工具链成熟度距 CUDA 仍有真实差距,调优人力是隐藏成本。


2.7 AMD Instinct MI300X / MI325X / MI350X

显存带宽FP8 TFLOPS官方链接
MI300X192 GB HBM35.3 TB/s2,614AMD MI300X
MI325X256 GB HBM3e6 TB/s2,614AMD MI325X
MI350X288 GB HBM3e8 TB/s~5,000AMD CDNA4 / MI350

软件栈:ROCmvLLM ROCmSGLang ROCm

优势

  • MI300X 单卡 192GB 放下 Llama-3.3-70B BF16(~140GB),单机 8 卡能跑 DeepSeek V3 FP8 原生
  • 云端价(Azure ND MI300X v5、OCI BM.GPU.MI300X.8)通常比同配置 H100 低 20–30%
  • MLPerf Inference v4.1 上 MI300X Llama-2 70B 接近 H100

劣势:ROCm 在 FP8 kernel、FlashAttention-3、FP4 支持上仍落后 CUDA 半个身位;新模型 Day-0 可用性不如 N 卡。

个人/小企业自采可能性极低,均通过云租用体验。


2.8 中国特供 & 本土 GPU

  • NVIDIA H20 96GB:国内特供卡,算力砍到 H100 的 ~15%,但 HBM3 96GB + 4TB/s 带宽 让它在推理场景反而能打,单卡价 ~¥110–130k
  • 摩尔线程 MTT S5000:国产全功能 GPU,32GB 显存,对标 RTX 4090,官方页
  • 壁仞 BR100:7nm,HBM2e 64GB,受出口管制影响供应不稳,官网
  • 寒武纪 MLU370-X8:推理场景,48GB LPDDR5,产品页

这些卡在特定央国企招标中会出现,但软件生态距昇腾还有距离。除非有强行政要求,不建议作为首选。


3. 主流开源大模型 × 硬件匹配矩阵

单流解码 tok/s 估算(FP8/INT4 量化、短上下文):

模型参数/激活精度/体积RTX 4090 24GRTX 5090 32GPRO 6000 96G2×PRO 6000Mac M3U 512GDGX Spark 128G8×H200
Llama-3.3-8B8BFP16 16G100+150+200+6050
Qwen3-14B14BFP8 14G701101603535
Qwen3-32B32BINT4 16G40(紧)851302220
Llama-3.3-70B70BINT4 35G双卡 35559010–127很快但浪费
Qwen3-72B72BFP8 72G508510很快
Mixtral 8x22B141B/39BINT4 70G7011018
Qwen3-235B-A22B235B/22BINT4 120G60–8025–30
DeepSeek-V3/R1671B/37BINT4 ~340G17–20FP8 原生 1500+ 总吞
Kimi K2 1T1T/32BQ4 ~500GQ3 勉强集群
DeepSeek V4(假设)需 Q4数据中心级

说明:DeepSeek V4 截至 2026-05-10 未有官方发布公告;Kimi K2 1T 实测见 Moonshot AI 技术报告


4. 30 秒决策树

flowchart TD
    A[要部署什么模型?] --> B{模型规模}
    B -->|≤ 14B| C{用户规模}
    B -->|32B 级| D{场景}
    B -->|70B 级| E{场景}
    B -->|200B+ MoE| F{场景}
    B -->|600B+ 满血 MoE| G{场景}
    B -->|信创强约束| H[Atlas 800I A2 起步]

    C -->|1-3 人| C1[RTX 5090 32G]
    C -->|10-50 并发| C2[RTX PRO 6000 96G × 1]

    D -->|个人/原型| D1[RTX 5090 或 DGX Spark]
    D -->|生产并发| D2[PRO 6000 96G × 1 FP8]

    E -->|单用户探索| E1[Mac Studio M3 Ultra 256/512G]
    E -->|小团队私有| E2[PRO 6000 × 1 FP8 单卡]
    E -->|产品级并发| E3[2× PRO 6000 或 8× H100 节点]

    F -->|个人离线| F1[Mac Studio 512G Q4]
    F -->|团队生产| F2[2× PRO 6000 或 8× H200 节点]
    F -->|高并发产品| F3[多节点 8× H200/B200]

    G -->|单机极限| G1[Mac Studio 512G Q4 不适合服务]
    G -->|生产唯一解| G2[8× H200/B200/B300 节点]

两条红线:

  • 能不能装下:权重 + KV Cache + 激活值 ≤ 显存的 ~85%
  • 带宽够不够:目标 tok/s × 激活参数体积 ≤ 显存带宽的 ~70%

5. 三类用户的决策路径

5.1 资深开发者(个人,1–3 人使用)

  • 日常用 32B 以内 + 偶尔 70BRTX 5090 + 128GB DDR5,~¥25–30k;或二手 RTX 4090 ~¥12–18k
  • LoRA 微调 / MLX 原型Mac Studio M3 Ultra 256GB(~¥50k),静音、低功耗、能跑 70B
  • 要跑 DeepSeek/Qwen 超大 MoE 本地Mac Studio M3 Ultra 512GB(~¥70–80k),目前唯一 $10k 级本地跑 671B 方案
  • CUDA 生态 + 较大模型容量DGX Spark 128GB($3,299 起),微调/原型舒适,不做生产

5.2 创业者 / 10–30 人小团队

目标:全员可用的 Copilot / 客服 / 知识库。

  • 方案 A(推荐):1× RTX PRO 6000 Blackwell 96GB,跑 Qwen3-72B FP8 / Llama-3.3-70B FP8,~30 并发 QPS,日活 200–500 人,整机 ~¥180–250k
  • 方案 B(更大模型):2× PRO 6000 96GB(192G),跑 Qwen3-235B-A22B INT4 / Mixtral 8x22B FP8,总吞吐 300+ tok/s,整机 ~¥280–380k
  • 方案 C(信创):Atlas 800I A2(8×910B)~¥120–140 万,需配 1 名 MindIE 熟手
  • 不推荐:8× RTX 4090/5090 堆叠(无 NVLink、EULA 风险、电源/噪声)

5.3 中小企业 / 有模型微调训练需求

  • 7B–14B LoRA/全参:1 节点 8× RTX 6000 Ada / PRO 6000 Blackwell
  • 微调 70B:至少 8× H100 80GB(FSDP + QLoRA),本地不划算,租云
  • 全参训练 70B+ / 预训 MoE:放弃本地,租 H200/B200 集群

规则:训练进云、推理落地在 2026 仍然成立。


6. 按 DAU 反推的生产级选型(七档)

6.1 容量公式

基础假设(中强度交互型产品):

  • 单用户每日会话数:20 次
  • 单次 input+output:2,000 tokens(输出 ~600 tok)
  • 峰谷比:日总量 15% 落在峰值 1 小时(≈ 日均 3.6×)
  • 服务冗余:1.5×
日总 tokens       = DAU × 20 × 2000
日输出 tokens     = DAU × 20 × 600
峰值输出 tok/s    = 日输出 × 0.15 / 3600 × 1.5
DAU日总 tokens日输出 tokens峰值输出 tok/s
1,0004 千万1.2 千万~750
5,0002 亿6 千万~3,750
10,0004 亿1.2 亿~7,500
50,00020 亿6 亿~37,500
100,00040 亿12 亿~75,000
500,000200 亿60 亿~375,000
1,000,000400 亿120 亿~750,000

业务类型修正:纯客服 ×0.4;RAG ×0.8;IDE Copilot ×2.0;长 CoT Agent ×3–5。

6.2 单节点吞吐基准(Qwen3-72B FP8 / Llama-3.3-70B FP8 高并发稳态)

平台总吞吐 tok/s备注
1× RTX PRO 6000 Blackwell 96G~600batch 32,vLLM
2× RTX PRO 6000~1,200TP=2
4× RTX PRO 6000~2,200TP=4,PCIe 瓶颈
8× H100 80G SXM~3,500NVLink 全互联
8× H200 141G SXM~5,500HBM3e 带宽翻倍
8× B200 192G SXM~10,000+FP4 原生
8× B300 288G SXM~13,000+HBM3e 10TB/s
GB300 NVL72(72 卡超节点)~100,000+1 柜即集群
8× MI300X 192G~3,000ROCm vLLM
8× MI350X 288G~6,500CDNA4
Atlas 800I A2(8×910B)~2,500–3,500W8A8 MindIE
Atlas 900 A3(910C × 384)~150,000+超节点架构

6.3 七档 DAU 方案

▶ 6.3.1 DAU = 1,000(峰值 ~750 tok/s)

这是早期项目/内部工具典型规模。

并发估算:峰值 750 tok/s ÷ 平均输出速度 40 tok/s/用户 ≈ 同时在线 ~19 个并发请求

方案硬件并发上限月 OpEx 拆解3 年 CapEx备注
推荐1× RTX PRO 6000 96G(整机)~50 并发电费 ¥0.3k + 运维 ¥5k = ¥5.3k~¥23 万单卡 600 tok/s 覆盖峰值,余量充足
备选2× RTX 5090 32G(整机)~30 并发电费 ¥0.5k + 运维 ¥4k = ¥4.5k~¥10 万出海 SaaS 违反 EULA,内部用可以
云替代API(Together AI Qwen3-72B ~$0.30/M tok)无上限token 费 ¥5–12k = ¥5–12k0PoC / MVP 阶段首选,无 CapEx

电费基准:IDC 商业电价 ¥0.8/kWh(中国电力企业联合会参考),PRO 6000 整机满载 ~500W,月电费 ≈ 0.5kW × 720h × ¥0.8 ≈ ¥288

1k DAU 阶段 强烈建议先用 API,等 PMF 稳定且 prompt 模板收敛再自建,避免硬件投资被业务转弯打废。

▶ 6.3.2 DAU = 5,000(峰值 ~3,750 tok/s)

并发估算:3,750 ÷ 40 ≈ ~94 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐2 节点 × (2× PRO 6000 96G)~200 并发电费 ¥1.5k + 机房 ¥8k + 运维 ¥15k = ¥24.5k¥90–110 万双活冗余;2.4k tok/s 稳态,峰值轻微排队
精简1 节点 4× PRO 6000 96G~150 并发电费 ¥1.2k + 机房 ¥5k + 运维 ¥12k = ¥18k¥75 万单点风险高,仅内部系统
云上按需 2× H100 pod(Lambda $19.92/hr弹性¥21k($2,880/月)0无 CapEx,3 年 TCO > 自建约 1.5×

自建 vs 云:2 节点方案 3 年 TCO ≈ ¥110 万 + ¥24.5k×36 = ¥198 万;云上 3 年 ≈ ¥21k×36 = ¥76 万。DAU 5k 时云更划算,除非有数据合规要求。

▶ 6.3.3 DAU = 10,000(峰值 ~7,500 tok/s)

并发估算:7,500 ÷ 40 ≈ ~188 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐1 节点 8× H200 SXM~500 并发电费 ¥5k + 机房 ¥20k + 运维 ¥30k = ¥55k¥350–420 万5.5k tok/s + prefix cache 刚好覆盖
备选3 节点 × 4× PRO 6000~450 并发电费 ¥3.5k + 机房 ¥15k + 运维 ¥30k = ¥48.5k¥225 万CapEx 低 40%,运维更碎
信创1 节点 Atlas 800I A2~300 并发电费 ¥4k + 机房 ¥15k + 运维 ¥30k = ¥49k¥130 万需 1 名 MindIE 熟手(人力成本另计)
云长包1× H200 节点(Lambda 预留 $21.06/hr弹性¥11 万($15,163/月)0PoC / 初期,18 个月后自建回本

自建 8×H200 节点 3 年 TCO ≈ ¥400 万 + ¥55k×36 = ¥598 万;云长包 3 年 ≈ ¥11 万×36 = ¥396 万。此档自建 vs 云差距缩小,数据合规 + 延迟敏感场景倾向自建。

▶ 6.3.4 DAU = 50,000(峰值 ~37,500 tok/s)

单节点撑不住,集群时代开始。并发估算:37,500 ÷ 40 ≈ ~938 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐4 节点 × 8× H200(32 卡)~2,000 并发电费 ¥20k + 机房 ¥60k + 运维 ¥120k = ¥20 万¥1,400–1,700 万22k tok/s 稳态,prefix cache 可再提 30%
激进2 节点 × 8× B200(16 卡)~2,500 并发电费 ¥18k + 机房 ¥50k + 运维 ¥100k = ¥17 万¥1,200 万卡少节点少,TCO 更优
异构2×8×H200(热)+ 4×4×PRO6000(冷批)~1,800 并发电费 ¥22k + 机房 ¥65k + 运维 ¥130k = ¥22 万¥1,500 万冷热分层,高价值请求走 H200
信创4 节点 Atlas 800I A2~1,200 并发电费 ¥16k + 机房 ¥50k + 运维 ¥120k = ¥19 万¥500 万需专属团队(人力 ¥50k+/月另计)

此档必须上:多活、灰度 canary、prefix cache、KV offload(LMCache / Mooncake)、KEDA 自动扩缩容。

▶ 6.3.5 DAU = 100,000(峰值 ~75,000 tok/s)

中型 AI 产品区间。自建机房 / GPU colo / 包云,三选一。并发估算:75,000 ÷ 40 ≈ ~1,875 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐8 节点 × 8× H200(64 卡) + 2 节点 B200 备份~4,000 并发电费 ¥40k + 机房 ¥120k + 运维 ¥400k = ¥56 万¥2,800–3,300 万~44k tok/s 稳态,留 60% 余量
激进4 节点 × 8× B200(32 卡)~5,000 并发电费 ¥36k + 机房 ¥100k + 运维 ¥350k = ¥49 万¥2,400 万节点减半,运维更简
异构分层4×8×H200(热)+ 8×8×PRO6000(批/离线)~3,500 并发电费 ¥50k + 机房 ¥130k + 运维 ¥450k = ¥63 万¥3,100 万高价值走 H200,长 RAG / 批走 PRO6000
信创12 节点 Atlas 800I A2(96 卡 910B)~3,000 并发电费 ¥48k + 机房 ¥120k + 运维 ¥300k = ¥47 万¥1,500 万仅合规刚需
云长包8×B200 节点(CoreWeave弹性¥150 万+0免 2 周交付窗口,适合快速上线

工程难点超过硬件:400G IB / RoCEv2 RDMA、KV 分层(GPU→CPU→NVMe)、请求调度、租户隔离、SLO 可观测性、多模型 A/B。

▶ 6.3.6 DAU = 500,000(峰值 ~375,000 tok/s)

互联网级产品。自建机柜或与云厂签 reserved instance。并发估算:375,000 ÷ 40 ≈ ~9,375 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐32 节点 × 8× H200(256 卡) + 4 节点 B300 备份~20,000 并发电费 ¥160k + 机房 ¥500k + 运维 ¥1,500k = ¥216 万¥1.3–1.5 亿180k tok/s 稳态,双活跨机房
激进16 节点 × 8× B200(128 卡)~20,000 并发电费 ¥144k + 机房 ¥450k + 运维 ¥1,200k = ¥180 万¥1.1 亿B200 集群,节点减半
前沿GB200 NVL72 机柜 + 4× 8×B200~25,000 并发电费 ¥200k + 机房 ¥600k + 运维 ¥1,400k = ¥220 万¥1.2 亿超节点拿 MoE 红利
混合8×8×B200(热)+ 16×8×H200(次级)+ 16×8×PRO6000(批量)~22,000 并发电费 ¥220k + 机房 ¥600k + 运维 ¥1,600k = ¥242 万¥1.4 亿三层分级 SLA

此档位 必须

  • 多机房 active-active
  • DR(异地容灾)
  • 专职平台团队(≥ 10 人,人力成本 ¥100–200 万/月)
  • Anyscale Ray Serve / SkyPilot 这类调度层
  • 基础设施预算 > 软件工程预算

▶ 6.3.7 DAU = 1,000,000(峰值 ~750,000 tok/s)

接近 OpenAI / Anthropic / Moonshot / DeepSeek 单产品线规模。并发估算:750,000 ÷ 40 ≈ ~18,750 个并发请求

方案硬件并发上限月 OpEx 拆解CapEx备注
推荐60 节点 × 8× H200(480 卡)+ 12 节点 B300~40,000 并发电费 ¥300k + 机房 ¥1,000k + 运维 ¥3,000k = ¥430 万¥2.5–3 亿360k tok/s 稳态,多区域
前沿多柜 GB200/GB300 NVL72(3–6 柜)~50,000 并发电费 ¥350k + 机房 ¥1,200k + 运维 ¥2,500k = ¥405 万¥2.2 亿超节点是百万 DAU 原生架构
激进32 节点 × 8× B300(256 卡)~45,000 并发电费 ¥320k + 机房 ¥1,000k + 运维 ¥2,800k = ¥412 万¥2 亿FP4 原生,HBM3e 10TB/s
混合GB200 NVL72 × 2(热)+ 32×8×H200(温)+ 64×8×PRO6000(批/RAG)~55,000 并发电费 ¥400k + 机房 ¥1,200k + 运维 ¥3,500k = ¥511 万¥3.2 亿四层 SLA,最灵活

此档位 GB200/GB300 NVL72 是最优解:72 卡单域 NVLink 意味着 MoE 专家并行 + 超大 KV Cache 直接丢进共享内存,吞吐比等量 HGX 节点高 2–4×。参考 NVIDIA MLPerf v5.0 提交

工程挑战:

  • 跨机房 / 跨 AZ 路由(Envoy Gateway + LiteLLM router
  • KV Cache 分布式(Mooncake 分池)
  • 模型版本 / 多 LoRA 热切
  • 每秒 token 成本持续审计(FinOps 维度)

6.4 七档汇总表

DAU峰值 tok/s最小推荐硬件典型 CapEx3 年 TCO单 DAU 月成本
1,0007501× PRO 6000 整机¥22 万¥40 万~¥11
5,0003,7502×(2×PRO 6000)¥100 万¥200 万~¥11
10,0007,5001× 8×H200 节点¥400 万¥580 万~¥16
50,00037,5004× 8×H200¥1,500 万¥2,400 万~¥13
100,00075,0008× 8×H200¥3,000 万¥4,800 万~¥13
500,000375,00032×8×H200 + 备份¥1.4 亿¥2.4 亿~¥13
1,000,000750,000NVL72 × 多 + H200/B300¥2.5–3 亿¥4.8 亿~¥13–14

洞察

  1. 规模经济在 1 万 DAU 拐点出现;之后单 DAU 成本稳定在 ¥11–14
  2. 1k DAU 档每 DAU 成本被"冗余最小单元"拉低(因为 1 台 PRO 6000 本来就能撑更多)
  3. 10 万 DAU 后 B200/B300 + NVL72 是整体最省
  4. 500k 以上必须跨机房,运维/人力占比反超硬件

7. 成本视角:$/百万 token 的真实对比

电费基准:IDC 商业用电 ¥0.8/kWh(中国电力企业联合会参考区间,沿海一线城市 ¥0.7–1.0,内蒙/贵州等西部 ¥0.3–0.5,此处取中值)。3 年按 8,760h/年 × 3 = 26,280h 计算,利用率 70%(推理服务非满载)。

3 年 TCO / 可产出 tokens(仅硬件 + 电 + 折旧,不含机房租金/人力):

方案CapEx满载功耗3 年电费(70% 利用率)稳态 tok/s3 年 tokens$/百万 token
Mac M4 Ultra 192GB¥28k~80W~¥1.5k121.1 T~$3–4
Mac M3 Ultra 512GB¥75k~120W~¥2.2k151.4 T~$7–8
1× PRO 6000 Blackwell(整机)¥23 万~500W~¥9.2k20018.5 T~¥1.3
2× PRO 6000(整机)¥37 万~800W~¥14.7k45041.6 T~¥1.0
8× H200 节点¥400 万~10kW~¥18.4 万5,500508 T~¥0.9
8× B200 节点¥550 万~11kW~¥20.2 万10,000924 T~¥0.8
8× B300 节点¥650 万~12kW~¥22 万13,0001,201 T~¥0.75
GB200 NVL72 机柜¥3,500 万~120kW~¥220 万100,0009,245 T~¥0.52
Atlas 800I A2(910B×8)¥130 万~8kW~¥14.7 万3,000277 T~¥0.9
云租 H100 按需(Lambda)~$2.5–4(Lambda 定价
云租 H200 按需(Lambda)~$3–5(Lambda 定价
开源模型 API(Together AI Qwen3-72B)~$0.30/M tok(Together AI 定价
闭源 API(GPT-4o / Claude 3.5 级)$5–15

$/百万 token 换算说明:自建方案以人民币计,按 1 USD ≈ 7.2 CNY 换算后填入,便于与云 API 横向对比。

结论

  • 开源 API(Together AI 等)$0.30/M tok 是目前最便宜的"零 CapEx"方案,适合 DAU < 5k 或 PMF 未验证阶段
  • 单卡 PRO 6000 Blackwell 自建约 ¥1.3/M tok,日活超过 ~200 人后比 API 划算
  • 超节点(NVL72)单位 token 成本最低,但只对 10 万 DAU+ 有意义
  • Mac Studio 的价值是"跑得起 671B",不是 $/token——M4 Ultra 跑 70B 以内反而比 M3 Ultra 性价比更高

8. 软件栈的硬选择

引擎定位文档
vLLM通用首选,PagedAttention + Continuous Batching 事实标准vllm.ai
SGLangMoE / DeepSeek / Qwen 吞吐常胜 vLLM 10–30%,RadixAttentionsglang
TensorRT-LLMN 卡极限压榨,产线首选TRT-LLM
llama.cpp / OllamaCPU/GPU/Mac 都能跑,不谈极限吞吐llama.cpp
MLXApple 原生,比 llama.cpp 快 30–50%MLX
MindIE / vLLM-Ascend昇腾专属MindIE
LMDeploy / TurboMind商汤推的推理引擎LMDeploy

量化组合推荐


9. 工程落地

9.1 部署 checklist(上线前逐项打勾)

硬件层

  • 功耗预算:单节点实测满载 × 1.2 < 机柜供电额定值
  • 散热:前后进出风温差 < 15°C,热点 GPU 温度 < 85°C
  • NVLink / IB 链路状态(nvidia-smi topo -mibstatus
  • ECC 启用(工作站卡默认关,需 nvidia-smi -e 1
  • NVMe 裕量 > 2× 模型权重总和(LMCache offload 用)

系统层

  • CUDA ≥ 12.6,cuDNN 最新,驱动 ≥ 560
  • 关闭 CPU C-states(BIOS),关闭透明大页 THP
  • nvidia-persistenced 常驻,nvidia-smi -pm 1
  • MIG / MPS 根据多租户需求开启(MPS 文档

服务层

  • 推理引擎版本固定(vLLM / SGLang 指定 commit)
  • 模型权重 SHA 校验写进启动日志
  • 健康探活:/health/metrics、实际 1-token 生成探测
  • 灰度路由(先 5% 流量,观测 1h 无异常再放量)
  • 限流:QPS、token/s、并发连接三维度
  • 超时:TTFT > 5s 或 total > 60s 主动切断

可观测

  • 指标:TTFT p50/p95/p99、output tok/s、queue time、KV hit rate、GPU util、SM occupancy、HBM util
  • 日志:结构化 JSON,保留 prompt hash 而非 prompt 本身(隐私)
  • 告警:TTFT p95 > SLO 50% 三分钟触发

容量

  • 峰值压测通过:实际 1.5× 峰值持续 30min 无 SLO 破坏
  • 故障演练:一节点下线后 60s 内重分布,无 5xx 爆发

9.2 vLLM 生产启动参数模板(8×H200,Qwen3-72B FP8)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
VLLM_WORKER_MULTIPROC_METHOD=spawn \
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-72B-Instruct-FP8 \
  --served-model-name qwen3-72b \
  --tensor-parallel-size 8 \
  --max-model-len 131072 \
  --max-num-batched-tokens 32768 \
  --max-num-seqs 256 \
  --gpu-memory-utilization 0.92 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --kv-cache-dtype fp8_e4m3 \
  --quantization fp8 \
  --dtype auto \
  --disable-log-requests \
  --trust-remote-code \
  --host 0.0.0.0 --port 8000

官方参数表:vLLM engine args

9.3 SGLang 生产启动模板(MoE 优选,DeepSeek V3 FP8,8×H200)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V3 \
  --tp 8 \
  --enable-torch-compile \
  --disable-radix-cache false \
  --mem-fraction-static 0.88 \
  --context-length 131072 \
  --quantization fp8 \
  --enable-ep-moe \
  --chunked-prefill-size 16384 \
  --schedule-policy lpm \
  --host 0.0.0.0 --port 30000

参数说明:SGLang server args;DeepSeek V3 专用调优见 SGLang DeepSeek guide

9.4 压测脚本(GenAI-Perf / vLLM benchmark)

使用 NVIDIA GenAI-Perf

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
genai-perf profile \
  --model qwen3-72b \
  --service-kind openai --endpoint-type chat \
  --url http://localhost:8000 \
  --synthetic-input-tokens-mean 1500 \
  --synthetic-input-tokens-stddev 300 \
  --output-tokens-mean 600 \
  --output-tokens-stddev 100 \
  --concurrency 128 \
  --measurement-interval 60000 \
  --warmup-request-count 20 \
  --tokenizer Qwen/Qwen3-72B-Instruct

或用 vLLM benchmark_serving.py

1
2
3
4
5
python benchmarks/benchmark_serving.py \
  --backend vllm --model Qwen/Qwen3-72B-Instruct-FP8 \
  --dataset-name sharegpt --dataset-path ShareGPT_V3.json \
  --num-prompts 2000 --request-rate 32 \
  --save-result --result-dir ./bench

关注的 SLO 指标:

  • TTFT p95 ≤ 500ms(聊天)/ ≤ 200ms(IDE Copilot)
  • output tok/s p50 ≥ 30(用户可读速度 > 阅读速度)
  • E2E 成功率 ≥ 99.5%
  • KV cache hit rate ≥ 30%(RAG/Agent 往往能到 50–70%)

9.5 监控清单(Prometheus + Grafana)

指标名(vLLM)含义告警阈值
vllm:time_to_first_token_secondsTTFTp95 > SLO×1.5 持续 3min
vllm:time_per_output_token_secondsTPOTp95 > 50ms
vllm:num_requests_running在跑请求< max-num-seqs × 0.9 时可扩量
vllm:num_requests_waiting队列持续 > 0 即容量不足
vllm:gpu_cache_usage_percKV 占用> 95% 触发 preemption
vllm:request_prefill_time_secondsPrefill 耗时长 prompt 场景重点看
DCGM_FI_DEV_GPU_UTILSM 利用率< 60% 说明 batch 不够
DCGM_FI_DEV_FB_USED显存占用留 5% 头
DCGM_FI_DEV_GPU_TEMPGPU 温度> 85°C 告警

指标清单参考:vLLM metrics 文档NVIDIA DCGM Exporter。Grafana 面板模板:vLLM dashboard (ID 21043)

9.6 KV Cache 分层(超过万 DAU 必上)


10. 架构与容量可视化

10.1 百万 DAU 推理平台参考架构

flowchart LR
    U[用户] --> CDN[Anycast CDN / WAF]
    CDN --> GW[LLM Gateway<br/>LiteLLM / Envoy]
    GW --> RL[限流/计费/租户隔离]
    RL --> R1[Router A<br/>SGLang Router]
    RL --> R2[Router B]

    R1 --> H1[热层<br/>GB300 NVL72 × N]
    R1 --> H2[温层<br/>8× H200 集群]
    R2 --> C1[冷/批<br/>PRO 6000 96G 集群]

    H1 --> KV[(KV 分层池<br/>LMCache + Mooncake)]
    H2 --> KV
    C1 --> KV

    H1 --> OBS[Prometheus<br/>Grafana<br/>Loki]
    H2 --> OBS
    C1 --> OBS

    OBS --> AL[AlertManager<br/>PagerDuty]

10.2 DAU vs 单 DAU 月成本曲线(规模经济)

xychart-beta
    title "单 DAU 月成本(¥)随规模变化"
    x-axis "DAU" [1000, 5000, 10000, 50000, 100000, 500000, 1000000]
    y-axis "¥ / DAU / 月" 0 --> 20
    line [11, 11, 16, 13, 13, 13, 14]

10.3 不同硬件的 $/百万 token

xychart-beta
    title "$ / 百万 token(3 年 TCO 分摊)"
    x-axis ["Mac 512G", "PRO6000×1", "PRO6000×2", "8×H200", "8×B200", "8×B300", "NVL72", "Atlas 910B×8"]
    y-axis "$ / M tok" 0 --> 8
    bar [7.5, 1.3, 1.0, 1.0, 0.8, 0.75, 0.52, 0.9]

10.4 模型规模到硬件档位的映射

flowchart TD
    subgraph 模型
        M1[≤14B]
        M2[32B]
        M3[70B]
        M4[200B+ MoE]
        M5[600B+ 满血 MoE]
        M6[1T+]
    end
    subgraph 硬件
        H1[RTX 5090 32G]
        H2[RTX PRO 6000 96G]
        H3[2× PRO 6000 192G]
        H4[8× H200 141G]
        H5[8× B200/B300]
        H6[GB200/GB300 NVL72]
    end
    M1 --> H1
    M1 --> H2
    M2 --> H1
    M2 --> H2
    M3 --> H2
    M3 --> H4
    M4 --> H3
    M4 --> H4
    M5 --> H4
    M5 --> H5
    M6 --> H5
    M6 --> H6

11. 踩坑清单(一线教训)

  1. 只看显存不看带宽:同 96GB,HBM3e(4.8TB/s)vs GDDR7(1.8TB/s)解码差 2.5×
  2. 忽视 prefill:RAG/Agent prompt 常 10K+,算力不足卡首 token
  3. 5090 不是 4090 Plus:无 NVLink、575W、散热/供电要重做
  4. Mac 不能做并发:全员部署请用 GPU
  5. 昇腾适配坑:模型发布 → MindIE 可跑通常 2–8 周延迟
  6. 电源/机柜:2× PRO 6000 + EPYC 满载 ~1.8kW,家用 10A/230V 临界,三相才稳
  7. EULA:RTX 消费卡禁止数据中心部署(GeForce Driver EULA),SaaS 出海留意
  8. 不要神话单机跑 DeepSeek V3:Q4 量化 PPL 上升、长 CoT 稳定性下降,生产前必做业务回归
  9. NVLink Switch 拓扑陷阱:PCIe TP>2 性价比骤降;NVSwitch 节点内 TP=8 是黄金点,跨节点优先用 PP 而非 TP
  10. 别省 RDMA:多机 vLLM 不上 400G IB / RoCEv2,跨机 TP 基本废掉

12. 2026 H1 推荐汇总(一表贴墙)

角色 / 规模推荐配置核心负载预算/CapEx月 OpEx 估算
个人开发者RTX 5090 + 128GB DDR5Qwen3-32B Q4、Llama-3.3-8B FP16¥25–30k~¥200(电费)
70B 以内 + CUDA 生态Mac Studio M4 Ultra 192GBQwen3-72B Q4、Llama-3.3-70B Q4~¥28k($3,999)~¥100(电费)
模型极客(跑 671B)Mac Studio M3 Ultra 512GBDeepSeek-V3 Q4、Qwen3-235B Q4¥70–80k~¥150(电费)
CUDA 原型工作站DGX Spark 128GB原型 / LoRA 微调~¥24k($3,299)~¥150(电费)
小团队 Copilot(~20 并发)1× PRO 6000 96G 整机Qwen3-72B FP8¥22–23 万~¥5–6k(电+运维)
小团队大模型私有(~100 并发)2× PRO 6000 96G 整机Qwen3-235B-A22B INT4¥35–37 万~¥8–10k(电+运维)
1k DAU(~20 并发峰值)1× PRO 6000 整机Qwen3-72B FP8~¥23 万~¥5.3k
5k DAU(~94 并发峰值)2×(2×PRO 6000) 双活72B FP8¥90–110 万~¥24.5k
10k DAU(~188 并发峰值)1 节点 8× H200Qwen3-235B / DeepSeek V3¥350–420 万~¥55k
50k DAU(~938 并发峰值)4× 8× H200DeepSeek V3 FP8¥1,400–1,700 万~¥20 万
100k DAU(~1,875 并发峰值)8× 8× H200 或 4× 8×B200生产集群¥2,800–3,300 万~¥56 万
500k DAU(~9,375 并发峰值)32× 8×H200 + B300 备份跨机房多活¥1.3–1.5 亿~¥216 万
1M DAU(~18,750 并发峰值)GB200/GB300 NVL72 × 多柜超节点 + HGX 分层¥2.5–3 亿~¥430 万
信创Atlas 800I A2(8×910B)/节点DeepSeek V3 W8A8、Qwen3¥120–150 万/节点~¥5–6 万/节点

一句话总结:2026.5 的现实是——个人选 Mac 或 5090,团队选 RTX PRO 6000 Blackwell,国企选昇腾,万级 DAU 走 H200 节点,十万级上 B200/B300 集群,百万级必须 NVL72 超节点。自建还是上云?答案永远是:先把 DAU × 场景 × token 量算清,再决定砸硬件还是付 API


SkySeraph
SkySeraph
AI for All & All for AI
留言 Comments