DoRA: Weight-Decomposed Low-Rank Adaptation（权重分解低秩适配）

论文DoRA: Weight-Decomposed Low-Rank Adaptation（权重分解低秩适配）介绍了一种新的参数高效微调方法（PEFT）——DoRA，其旨在缩小LoRA和完全微调（FT）之间的准确性差距。通过将预训练权重分解为幅度和方向两个部分，DoRA专门采用LoRA进行方向更新，从而提高学习能力和训练稳定性，同时避免额外的推理成本。实验表明，DoRA在各种任务上，如常识推理和视觉指令微调，均优于LoRA。

论文作者为Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen，来自NVIDIA和HKUST。

论文内容概要如下：

一、引言

PEFT方法如LoRA因其高效性而广受欢迎，但在准确性上往往不及FT。DoRA通过将权重分解为幅度和方向组件，旨在解决这一问题。这种方法不仅模仿了FT的学习能力，还提高了LoRA的训练稳定性，同时没有增加推理开销。

二、相关工作

PEFT方法分为三类：

基于适配器的方法：在模型中引入额外的可训练模块。
基于提示的方法：在输入中添加软标记。
低秩适配方法（LoRA及其变种）：使用低秩矩阵进行权重更新。

DoRA属于第三类，但通过引入权重分解分析来克服LoRA的局限性。

三、权重分解分析

权重分解分析将权重重新参数化为幅度和方向组件。分析表明，LoRA和FT表现出不同的学习模式：

LoRA显示出方向和幅度变化之间的比例关系，缺乏细微调整能力。
FT展示了更为多样的学习模式，具有负斜率趋势，表明其具备进行细微调整的能力。

四、方法论：权重分解低秩适配（DoRA）

DoRA将预训练权重分解为幅度（m）和方向（V）组件。方向组件通过LoRA进一步更新，实现高效微调。这种分解简化了LoRA的学习任务，专注于方向更新，同时通过权重归一化原则保持稳定性。

公式：

五、DoRA的梯度分析

DoRA的梯度分析显示，权重分解使梯度的协方差矩阵更接近于单位矩阵，有利于优化。这种方法允许更稳定的学习模式，有效增强了LoRA的学习能力。

六、减少训练开销

为了在反向传播过程中减少内存消耗，DoRA将方向更新的范数视为常数，从梯度图中分离出来。此调整显著减少了内存使用，而不会影响准确性。

其、实验

DoRA在各种任务和模型中进行了评估，显示出相对于LoRA的一贯性能提升。

常识推理：
- DoRA在LLaMA模型上显著优于LoRA。
- 采用减半秩的DoRA（DoRA†）仍优于LoRA，突显其高效性。
图像/视频-文本理解：
- 在VL-BART上，DoRA在图像和视频-文本任务中均优于LoRA。
视觉指令微调：
- 在LLaVA-1.5-7B的视觉指令微调任务中，DoRA表现优于LoRA和FT。
与其他LoRA变种的兼容性：
- DoRA与VeRA兼容，组合使用（DVoRA）表现优于VeRA和LoRA。

八、DoRA的鲁棒性和微调粒度

DoRA在不同秩和训练样本量下均表现出色，一直优于LoRA。
通过选择性地仅更新特定模块的幅度组件，DoRA可以在减少可训练参数的情况下保持较高的准确性。

九、更广泛的影响

QDoRA：在QLoRA的基础上增强LoRA的准确性，显示出在Orca-Math上的良好结果。
文本到图像生成：DoRA在细化稳定扩散模型的文本到图像生成任务中显著优于LoRA。

十、结论

DoRA缩小了LoRA和FT之间的差距，提供了一种参数高效的微调方法，其学习能力接近于FT。DoRA在多个任务和模型架构中表现出持续改进，且无额外的推理开销。未来工作将探索DoRA在音频等其他领域的适用性。

DoRA on GitHub: https://github.com/NVlabs/DoRA