🧮 LLM 显存计算器
3D Parallel
支持 TP(张量) / PP(流水线) / DP(数据) / SP(序列) 混合并行计算
v3.7 Strict Mode
模型规格 (Model Specs)
-- 自定义模型 --
Qwen2-72B (Dense)
Llama-3-8B (Dense)
Llama-3-70B (Dense)
Llama-3-405B (Dense)
Qwen1.5-MoE (A2.7B)
Mixtral 8x7B (A13B)
DeepSeek-V3 (Total 671B / Active 37B)
Qwen3-Next (Total 80B / Active 3B)
Total Params (B)
?
模型总参数量。影响权重存储。
Active Params (B)
?
单次前向传播激活的参数量。MoE 模型通常远小于总参数。Dense 模型二者相等。
Hidden Size (H)
Layers (L)
这是 MoE 模型
激活系数(Factor)
?
MoE 特有的激活膨胀系数。包含 Router logits, Dispatch Mask, Padding (Capacity Factor) 等开销。稳健建议 1.3。
3D 并行策略
DP=8
GPU 总数 (N)
?
集群中的总 GPU 数量 (World Size)。
单卡显存 (GB)
?
输入单张显卡的显存大小。可通过右侧下拉快速选择常见规格。
▼
24 GB (4090)
32 GB (V100)
40 GB (A100)
48 GB (A6000)
80 GB (A100/H800)
96 GB (A100x)
141 GB (H200)
192 GB (H200x)
TP Size (张量)
?
Tensor Parallel. 切分单层矩阵。降低单卡权重和激活显存。需要高带宽(NVLink)。
PP Size (流水线)
?
Pipeline Parallel. 切分层数。降低单卡权重,但增加 Activation Bubble。
精度模式 (Bytes/Param)
?
16 Bytes: 标准混合精度 (FP16权重+FP32备份+FP32优化器)
12 Bytes: 优化模式 (FP16权重+FP32优化器,无Master Weights)
16 Bytes (标准 Mixed Precision)
12 Bytes (激进 Pure BF16 / Optimized)
ZeRO 优化等级 (DP)
?
作用于 DP 组内。
ZeRO-3: 全切分 (最省显存)
ZeRO-2: 切梯度+优化器
DDP: 不切分
DeepSpeed ZeRO-3 (Fully Sharded)
DeepSpeed ZeRO-2 (Grad+Opt Sharded)
DDP / No ZeRO (Replicated)
启用 SP (序列并行)
?
Sequence Parallelism. 将激活值沿序列维度切分到 TP 组内。显著降低长文本显存。
配置错误: TP * PP > GPU总数!
训练超参 (Hyperparams)
Sequence Length (Seq)
2k
4k
8k
16k
32k
64k
128k
Micro Batch
?
单次迭代的数据量。PP开启时,通常 Pipeline Depth = PP Size,此处指单步 MB。
Checkpointing
开启 (Standard)
关闭 (Off)
Selective
计算显存占用 (Calculate)
Model States
0
GB
Weights+Grads
Activations
0
GB
Seq & Batch
Total VRAM / Card
0
GB
waiting...
3D 并行分析报告 (Analysis)
📜 显示详细计算过程
请点击计算...
×
🧮 详细计算过程推导
关闭