1️⃣ 训练后量化(Post-Training Quantization, PTQ)——最快见效的路径。无需重新训练即可压缩模型,立刻获得延迟与吞吐量的提升。
2️⃣ 量化感知训练(Quantization-Aware Training, QAT)——针对低精度进行微调。当 PTQ 的精度下降不可接受时,用它来恢复/提升准确率。
3️⃣ 量化感知蒸馏(Quantization-Aware Distillation, QAD)——把量化与蒸馏结合,在尽量保持质量的前提下,实现超低精度推理。
4️⃣ 推测式解码(Speculative Decoding)——通过“折叠”顺序解码步骤来大幅降低解码延迟;无需重新训练。
5️⃣ 剪枝/裁剪 + 蒸馏(Pruning + Distillation)——在保留模型行为的同时,永久性减少模型体积与成本,适用于更专用的应用场景。