研究人员打造BiDoRA解决DoRA耦合，以高效微调解锁小数据潜力(研究人员提出的设想是什么请摘抄相关的内容) #科技 #大小 #参数 #方向 #团队 #模型

如今，像 GPT 系列这样的大模型已经展现出了惊人的通用能力，但要让它们在某个具体领域发挥最大效力，还需要进行“微调”（Fine-Tuning）。传统的“完整微调”方法，需要调整模型中全部的数百亿甚至千亿参数，这不仅需要海量的计算资源（比如数十上百块顶级 GPU），训练时间也十分漫长。因此，“参数高效微调”（PEFT，Parameter-Efficient Fine-Tuning）技术应运而生，它旨在只调整模型中极小一部分的参数，就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中，LoRA 是一个里程碑式的工作。而研究团队关注到，业内最近提出的 DoRA（Weight-Decomposed Low-Rank Adaptation）在 LoRA 的基础上更进了一步。DoRA 的核心思想是，它认为模型权重的更新，可以被分解为“大小”（magnitude）和“方向”（direction）两个独立维度的变化。这个洞察非常深刻，因为它更贴近模型在完整微调时的真实动态。通过这种分解，DoRA 确实在很多任务上超越了 LoRA。

然而，在深入研究 DoRA 的过程中，研究团队发现它虽然方向走对了，但仍然存在一些问题。DoRA 在训练时，是同时优化大小和方向这两个部分的，并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题：第一，它让模型的能力过于强大，很容易“死记硬背”训练数据，导致在面对新数据时表现不佳，也就是人们常说的“过拟合”。第二，大小和方向的同步更新会形成一种内在的牵制，限制了模型寻找最优解的学习能力。

所以，研究团队这次研究的核心目标非常明确：保留 DoRA 关于权重分解的深刻洞察，但要打破其大小和方向更新过程中的耦合性。因此，其希望设计一种新的训练范式，能够让这两个组件的优化过程分离开来，从而有效抑制过拟合，使其性能表现能再上一个台阶。

针对上面提到的问题，研究团队最终研发出了一种全新的 PEFT 方法，称为 BiDoRA（Bi-level Optimization-based Weight-Decomposed Low-Rank Adaptation）。它的核心是一种基于双层优化（Bi-level Optimization）的训练框架。

（https://arxiv.org/pdf/2410.09758）

它将原本一体化的训练过程，巧妙地拆分成了两个相互嵌套、异步进行的循环。具体来说，研究团队会把训练数据分成训练集和验证集两部分。在“内层循环”里，先“冻结”住权重的大小（magnitude），只用训练集来学习权重的“方向”（direction）。这一步的目标是，在给定大小的情况下，找到最好的方向。接着，在“外层循环”中，研究团队利用刚刚在内层学到的最优方向，反过来在验证集上评估并更新权重的大小。这一步的目标是，为已经找到的最佳方向，匹配一个最合适的大小。

通过这种方式，研究团队成功地在训练动态上将大小和方向的更新过程解耦，还因此发现了一些新规律和新现象：

首先，他们证实解耦训练能够显著提升模型的泛化能力。实验数据显示，BiDoRA 训练的模型在训练集和测试集上的表现差距（performance gap）远小于 DoRA。同时, 在生物医学领域的极小数据集上（训练数据小于 1000 个），BiDoRA 效果提升显著。在预测肽类是否能穿透血脑屏障（BBB，Blood-Brain Barrier）时，BiDoRA 仅使用全量微调 1/326 的参数，就实现了显著更高的 F1 分数（92.0 对 89.4）。在预测蛋白质热稳定性时，BiDoRA 使用全量微调 1/408 的参数，F1 分数几乎相同（78.2 对 78.4）。BiDoRA 在多项任务中持续优于当前最先进的参数高效微调方法，如 LoRA 和 DoRA。

其次，他们还发现了一个新规律。学界已经有研究表明，在理想的完整微调中，权重大小和方向的更新存在一种负相关的关系。研究团队借助“权重分解分析”这一工具，发现 LoRA 表现为正相关，这解释了它为什么有时效果不佳，而 DoRA 改进了这一点，呈现出-1.784 的负相关。而研究团队的 BiDoRA，得益于彻底的解耦训练，实现了高达-8.042 的负相关性。这意味着 BiDoRA 的训练动态更接近于完整微调，这为它的优异性能提供了强有力的实验支撑。

在论文的同行评审阶段，研究团队收到了来自多位匿名审稿人的专业且中肯的意见。综合来看，审稿人们的赞誉主要集中在以下几个方面：

首先，审稿人普遍认为本次课题的研究动机非常清晰且具有说服力。研究团队精准地指出了现有先进方法（DoRA）中存在的“耦合更新”这一核心缺陷，并以此为切入点展开研究，使得整个工作的逻辑链条非常坚实。

其次，审稿人也对研究团队提出的 BiDoRA 方法的原创性和新颖性给予了高度评价。将双层优化（Bi-level Optimization）这一已在其他领域（如神经架构搜索）验证的有效思想，创造性地应用于 PEFT 领域，并以此来解决权重分解中的耦合问题，这被认为是一个非常聪明且有效的尝试。

再者，审稿人对研究团队实验的全面性和扎实程度印象深刻。他们不仅在多个权威的自然语言理解基准（如 GLUE）上验证了方法的有效性，还将实验扩展到了自然语言生成、命名实体识别，甚至是一些数据量极度稀缺的生物医学任务上。在所有这些场景下，BiDoRA 都展现出了一致的优越性。

研究团队对 BiDoRA 的应用前景非常乐观，尤其是在那些数据资源极其宝贵的领域。在未来的几年内，研究团队认为它可以在生物医学领域产生具体的应用价值，这也正是研究团队在论文中特别进行实验验证的方向。在生物医学研究中，获取高质量、大规模的标注数据往往是极其困难和昂贵的。在这样“极小数据集”的场景下，传统的大模型微调方法极易发生严重的过拟合。而本次方法天生就具有强大的抗过拟合能力，因为它通过双层优化的机制，引入了内部的验证与权衡，迫使模型学习更具泛化性的特征。论文中的实验也清楚地表明，在这些生物医学任务上，BiDoRA 相比其他方法的优势甚至比在数据充足的自然语言处理任务上更为明显。

据了解，在研究团队最初设计出 BiDoRA 的双层优化框架时，其发现 BiDoRA 虽然比 LoRA 要好，但相比 DoRA 的提升并不像理论分析的那么显著。研究团队猜想：会不会是因为他们的双层优化机制，将本就不算多的训练数据进一步分割成了更小的训练集和验证集，导致每个训练循环得到的数据不够多？这时，研究团队立刻联想到了在“神经架构搜索”（NAS，Neural Architecture Search）领域的一个常用技巧。在 NAS 中，研究者们通常会先在一个代理任务上搜索出最优的网络架构，然后会有一个“重训练”（Retraining）阶段：固定住搜索到的这个最优架构，再用全部的训练数据从头开始训练这个架构的权重，以求达到最佳性能。

研究团队决定借鉴这个思想，于是在 BiDoRA 的流程中增加了一个最终的重训练阶段：在双层优化的“搜索阶段”结束后，他们固定住学到的最优的“大小”分量，然后合并原始的训练集和验证集，用这完整的数据集，对“方向”分量进行一次充分的训练。当再次进行加上了重训练步骤的实验后，结果表明，BiDoRA 的性能在几乎所有任务上都获得了显著且一致的提升，完全超越了 DoRA，展现出了研究团队理论预期的强大实力。

在后续研究计划上：

研究团队的第一个方向是计划进一步提升 BiDoRA 的训练效率和理论完备性。正如其在论文的“未来工作”部分提到的，BiDoRA 虽然效果好，但它的双层优化机制引入了额外的计算开销，特别是在计算“超梯度”（hyper-gradient）时。目前，研究团队的实现方式是相对基础的，但学界已经涌现出一些更先进、更高效的超梯度估计算法，比如 SAMA、MixFlow-MG 等。因此，研究团队的下一步计划是，将这些前沿的优化技术集成到 BiDoRA 中，目标是在不牺牲甚至提升性能的前提下，大幅降低其训练时间和计算成本。同时，他们目前更多是通过大量实验经验性地证明了 BiDoRA 在解耦权重更新上的优越性，未来其希望能够从数学上给出一个严格的理论分析，从根本上揭示其工作机理。

第二个方向也是研究团队更期待的一个方向，是将 BiDoRA 更深入、更广泛地应用于生物医学领域。其在当前工作中已经初步验证了它在小数据集上的巨大潜力，这给了他们极大的信心。接下来，研究团队计划与生物、医学领域的专家进行更紧密的合作，将 BiDoRA 作为一个核心工具，去挑战一些更复杂、更前沿的课题。

参考资料：

https://arxiv.org/pdf/2410.09758

排版：刘雅坤