DoRA: Weight-Decomposed Low-Rank Adaptation(权重分解低秩适配)

论文DoRA: Weight-Decomposed Low-Rank Adaptation(权重分解低秩适配)介绍了一种新的参数高效微调方法(PEFT)——DoRA,其旨在缩小LoRA和完全微调(FT)之间的准确性差距。通过将预训练权重分解为幅度和方向两个部分,DoRA专门采用LoRA进行方向更新,从而提高学习能力和训练稳定性,同时避免额外的推理成本。实验表明,DoRA在各种任务上,如常识推理和视觉指令微调,均优于LoRA。

论文作者为Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen,来自NVIDIA和HKUST。

论文内容概要如下:

一、引言

PEFT方法如LoRA因其高效性而广受欢迎,但在准确性上往往不及FT。DoRA通过将权重分解为幅度和方向组件,旨在解决这一问题。这种方法不仅模仿了FT的学习能力,还提高了LoRA的训练稳定性,同时没有增加推理开销。

二、相关工作

PEFT方法分为三类:

  1. 基于适配器的方法:在模型中引入额外的可训练模块。
  2. 基于提示的方法:在输入中添加软标记。
  3. 低秩适配方法(LoRA及其变种):使用低秩矩阵进行权重更新。

DoRA属于第三类,但通过引入权重分解分析来克服LoRA的局限性。

三、权重分解分析

权重分解分析将权重重新参数化为幅度和方向组件。分析表明,LoRA和FT表现出不同的学习模式:

  • LoRA显示出方向和幅度变化之间的比例关系,缺乏细微调整能力。
  • FT展示了更为多样的学习模式,具有负斜率趋势,表明其具备进行细微调整的能力。

四、方法论:权重分解低秩适配(DoRA)

DoRA将预训练权重分解为幅度(m)和方向(V)组件。方向组件通过LoRA进一步更新,实现高效微调。这种分解简化了LoRA的学习任务,专注于方向更新,同时通过权重归一化原则保持稳定性。

公式

五、DoRA的梯度分析

DoRA的梯度分析显示,权重分解使梯度的协方差矩阵更接近于单位矩阵,有利于优化。这种方法允许更稳定的学习模式,有效增强了LoRA的学习能力。

六、减少训练开销

为了在反向传播过程中减少内存消耗,DoRA将方向更新的范数视为常数,从梯度图中分离出来。此调整显著减少了内存使用,而不会影响准确性。

其、实验

DoRA在各种任务和模型中进行了评估,显示出相对于LoRA的一贯性能提升。

  1. 常识推理
    • DoRA在LLaMA模型上显著优于LoRA。
    • 采用减半秩的DoRA(DoRA†)仍优于LoRA,突显其高效性。
  2. 图像/视频-文本理解
    • 在VL-BART上,DoRA在图像和视频-文本任务中均优于LoRA。
  3. 视觉指令微调
    • 在LLaVA-1.5-7B的视觉指令微调任务中,DoRA表现优于LoRA和FT。
  4. 与其他LoRA变种的兼容性
    • DoRA与VeRA兼容,组合使用(DVoRA)表现优于VeRA和LoRA。

八、DoRA的鲁棒性和微调粒度

  • DoRA在不同秩和训练样本量下均表现出色,一直优于LoRA。
  • 通过选择性地仅更新特定模块的幅度组件,DoRA可以在减少可训练参数的情况下保持较高的准确性。

九、更广泛的影响

  • QDoRA:在QLoRA的基础上增强LoRA的准确性,显示出在Orca-Math上的良好结果。
  • 文本到图像生成:DoRA在细化稳定扩散模型的文本到图像生成任务中显著优于LoRA。

十、结论

DoRA缩小了LoRA和FT之间的差距,提供了一种参数高效的微调方法,其学习能力接近于FT。DoRA在多个任务和模型架构中表现出持续改进,且无额外的推理开销。未来工作将探索DoRA在音频等其他领域的适用性。


DoRA on GitHub: https://github.com/NVlabs/DoRA

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注