大型语言模型(LLM)在部署端最常用的压缩路径是后训练量化(Post-training quantization, PTQ)。但在≤4bit的低比特权重量化下,均匀、无校准的经典方法(如RTN)常因“离群值”而显著劣化——同一缩放因子被迫同时服务于极大值与普通权重,导致整行或整列被“牵连”,困于“共享尺度”的精度瓶颈。论文SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights聚焦“无需校准、均匀量化”的场景,试图在保持实现简单、速度快、架构无关的同时,显著缩小与校准或非均匀格式(如NF4)的质量差距。
论文核心思想与贡献如下:
1)提出“双轴缩放”(dual-scaling)权重量化参数化:在矩阵两维同时引入缩放向量s→(行向)与t→(列向),以在行/列之间调配离群值的影响,从而避免单尺度无法化解的“连坐效应”。
2)提出用于度量“可量化性”的代理指标——矩阵失衡(imbalance):定义为所有行/列标准差中的最大值与最小值之比,并以此作为优化目标。
3)给出基于Sinkhorn–Knopp思想的快速迭代法(Sinkhorn-Normalized Quantization, SINQ):不是标准化行列“和”,而是标准化行列“标准差”;通过交替归一化行/列std,使其同时收敛到同一标尺,降低失衡。
4)系统实验表明:在Qwen3 系列、DeepSeek-V2.5 等模型上,SINQ在无校准均匀量化下显著优于SOTA基线,并可与校准(AWQ)与非均匀量化(NF4)兼容叠加;同时量化耗时接近RTN。
论文作者为Lorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli,来自华为。
SINQ on GitHub: https://github.com/huawei-csl/SINQ