现有大模型在推理阶段能耗高、吞吐受限。模拟存内计算(AIMC)通过在非易失存储器阵列内并行完成矩阵–向量乘,实现极高的能效与密度,但其先天存在权重编程误差与时变噪声、输入DAC与输出ADC的低比特量化且多为“静态范围”等非理想性,直接把“现成LLM”搬到AIMC往往性能崩塌,难以达到常见“W4/A8”量化水平。论文Analog Foundation Models提出“模拟基础模型”的系统化训练与评测方案,使通用LLM在真实硬件噪声与低比特约束下,仍可逼近4-bit权重、8-bit激活基线表现,并兼顾迁移到低精度数字硬件运行。
论文作者为Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian,来自IBM和ETH Zürich。
一、AIMC硬件约束与误差来源
1)权重噪声:源于NVM导电态器件间差异与时序漂移;
2)输入量化:AIMC常用静态范围的8-bit DAC,对每层可设但非按token自适应;
3)输出量化:ADC动态范围固定且需跨层一致,通常也为静态范围;
4)工程取舍:提升模拟电路精度成本陡增,因此更可行的路径是在模型端做适配。
二、方法总览:从“现成LLM”到“模拟基础模型”
整体流程三步:①用教师模型自采样合成训练语料;②以知识蒸馏训练学生模型,同时执行硬件感知(HWA)策略;③部署到AIMC或低精度数字硬件。论文在Phi-3-mini-4k-instruct与Llama-3.2-1B-Instruct上,使用少量token(实测扩展至约20B token最有效)完成从通用LLM到AIMC鲁棒版本的迁移。
HWA训练包含四个关键组件(前向施加、反向以STE或无噪梯度通过):
1)输入静态量化学习(SI8):为每层学习输入范围β,使量化误差最小且范围紧致;
2)全局静态输出量化(O8):用直通估计在8-bit全局固定输出范围下保持极小平均精度损失;
3)权重噪声注入:前向对每通道权重注入与通道最大绝对值成比例的加性高斯噪声(γ≈0.02~0.03)以提升对硬件噪声的泛化;
4)迭代权重裁剪:按通道标准差自适应阈值做对称裁剪,收紧分布、增强鲁棒性;作者观察到对LLM而言“裁剪>噪声”,二者结合最佳。
训练开销:以蒸馏损失在GPU集群上完成,显存更大可显著降本提速。
三、评测设置与噪声建模
硬件噪声:采用真实PCM-AIMC芯片提取的权重编程噪声模型,多次随机种子重复评测以稳定统计;同时做通道归一的加性高斯噪声幅值扫描,检验跨设备/幅度的泛化。
基准:覆盖MMLU、GSM8K、HellaSwag、ANLI、MedQA、AGIEval、ARC-C/E、BoolQ等能力评测,以及安全与指令跟随(IFEval、XSTest)。
四、核心结果一:对硬件噪声的鲁棒性
把原始FP16模型直接加入真实硬件噪声后,平均精度显著下滑;而“模拟基础模型”在同时启用SI8与全局O8前提下,仅较FP16平均降幅约几个百分点,且在GSM8K、HellaSwag、ANLI等难题上的跌幅明显收敛,显著优于常见QAT与PTQ(如SpinQuant)方案。对加性高斯噪声的幅度扫描显示,Analog-FM曲线基线更高、衰减更缓,整体较QAT可再高出近一位数百分点的平均准确率。
五、核心结果二:安全与指令遵从
在IFEval上,Analog-FM基本保持教师模型的指令遵从能力;在XSTest上,对有害提示的拒答率维持或略升,对无害提示的误拒保持在合理区间;受噪声影响的波动小于原始模型(原始模型在加噪后更易“放松”安全阈)。
六、核心结果三:数字硬件上的4-bit后量化
将Analog-FM权重以随机四舍五入(RTN)直接后量化至W4(仍配SI8/O8),凭借训练期的“裁剪+噪声注入”已将权重分布收紧并去脆弱化,其W4性能优于LLM-QAT与SpinQuant(静态A8)并逼近动态激活量化(DI8)的SpinQuant,而后者在硬件上成本更高。
七、核心结果四:测试时计算扩展(TTC)
在MATH-500上进行多样本生成+过程奖励模型打分+投票筛选,Analog-FM(即使含硬件噪声)随生成数n提升呈现更好的“可扩展性”;随着n增大,Analog-FM与原始FP16差距缩小,相较QAT基线的优势从小幅扩大到数个百分点。
八、消融与方法学洞见
1)输出静态量化:简单STE已足以在全局O8下维持极小平均损失;
2)噪声注入:与通道最大权重幅值成比例的加性高斯噪声效果最佳;
3)权重裁剪:对LLM尤为关键,单用即可显著增韧,叠加噪声注入最优;
4)数据侧:合成数据+蒸馏优于开源数据直训,但高质量开源数据配合蒸馏也能逼近;token规模在约20B附近边际收益趋缓。
九、局限性与未来方向
训练资源仍不小(尽管仅占原始预训练token的极小比例),推理/数学推导类任务与FP16仍有差距。未来方向包括:更低成本的HWA-LoRA式适配、面向模拟噪声的后训练鲁棒化(接近PTQ成本)、更优的范围学习与跨芯片噪声自适应等。
十、对工程实践的启示
1)设计约束优先:在编译/部署图中明确SI8与全局O8,避免动态激活量化的硬件开销;
2)模型侧“去脆弱化”:在蒸馏-HWA训练中联合“范围学习+裁剪+噪声注入”,先稳住通道分布再兼顾泛化;
3)双模部署:一次训练同时服务AIMC(抗真实权重噪声)与数字NPU/GPU的W4-INT推理;
4)推理时算力换精度:对复杂推理题引入多样本与过程奖励选择,可进一步弥补模拟/低比特的基线差距。
十一、一句话总结
本论文的研究打通了“高容量LLM × 低精度/有噪AIMC”的落地路径:以合成数据蒸馏为骨、以范围学习/裁剪/噪声注入为筋,不改变硬件静态量化假设的前提下,把鲁棒性“预编译”进参数分布,从而在AIMC与W4数字硬件上都取得接近4-bit级的实用性能,并在测试时计算扩展中表现更佳。
Analog foundation models on GitHub: https://github.com/IBM/analog-foundation-models