研究人员在离线学习加入多样性激励，减轻创意写作“AI味”(研究人员在离线工作) #科技 #多样性 #代码生成 #团队 #模型 #Qwen

（来源：DeepTech深科技）

自 2025 年起，AI 业内先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自动化代码生成工具，展现了 AI 发展的下一个风口——即利用大模型调用各种分析工具，更好地完成自动化代码生成或辅助人类更快速地进行代码工作。

基于此，上海交通大学本科校友、美国西北大学博士生郁家豪和所在团队研究了如何提高大模型在代码生成这项复杂任务上的性能。

图 | 郁家豪（来源：郁家豪）

经调研，测试时拓展（TTS，Testing Time Scaling）被广泛应用在代码生成上，即先是生成多个候补答案，并通过对比选取最好的方案，来取得相对较好的结果。同时，离线学习（offline learning），即提前生成好数据再让大模型进行学习也是 AI 社区中一种主流的做法。相比在线学习（online learning）需要同时采集数据和训练模型的做法，离线学习所需要的计算资源更低，更方便人们开展算法实验。

但是，研究团队发现离线学习会在一定程度上损失大模型生成回答的多样性，从而会降低测试时拓展时所带来的性能提升。在代码生成任务中，如果生成的多个候补回答非常相近就会造成冗余，以至于并不能很好地提升性能。因此，如何在离线学习的场景下，解决模型生成回答多样性不足的问题，是研究团队的工作重点。

为了解决这一问题，他们提出一种新型训练方法，即在离线学习的损失项中加入了鼓励多样性这一项，通过控制多样性的做法，使得模型在离线学习之后能够生成不一样的候补回答，而不是生成相似的单一回答。这样一来，在后续的测试时拓展时，最终的模型准确率相比常规的离线学习算法有着很高提升。

最终，研究团队在开源数据集 SWE-Bench 上验证了相关结果，证明其所训练的模型取得了 SWE-Bench-Verified 开源榜单第四、SWE-Bench-Lite 开源榜单第一的好成绩，证明了这一算法的合理性。

通过和其他团队的在线学习训练模型方案加以对比，研究团队发现本次方法可以在一定程度上弥补离线学习相比在线学习的天然多样性不足，为在需要测试时拓展的复杂问题上引申出了“除在线学习以外”的新思路，即引入了鼓励多样性的离线学习的新思路。

（来源：https://arxiv.org/pdf/2509.12434）

在应用前景上：

首先，在一些需要多轮交互以及调用工具的复杂任务比如代码生成、数学竞赛、网络攻防夺旗赛（CTF，Capture The Flag）中，可以使用类似技术更高效地进行模型训练。另外，对于一些复杂的数学竞赛题目来说，当使用那些鼓励生成多样性训练的模型的时候，在多次尝试之中可以给出不同的解题思路，从而提高最终的解题率。

其次，在创意写作方面，大模型的创意写作一直被诟病“AI 味很重”，AI 经常被吐槽喜欢使用一些固定句式。而通过鼓励多样性，本次方法也能在某种程度上减轻模型的固化回答，使得创意写作更加优质和更加多样化，从而更好地启发人类的写作思路。

研究团队表示，研究中最难忘的事情便是离线学习数据采集的模型选择。他们最初计划使用 Anthropic 的商业模型 Claude Sonnet 4 进行采集，采集一小部分数据之后发现课题组开销竟然达到五百多美元💵。评估一下之后他们发现，要完整地进行数据采集可能需要高达上万美元💵的开销，这超出了课题组的预算。于是，他们开始寻求替代模型，同时替代模型必须具备较好的智能体代码生成能力。

在此期间，恰逢国产模型（国模）出现了一波井喷式爆发。从 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5，这些国模的价格都远比 Anthropic 的模型要便宜。研究团队进行了几次小样本采集实验，结果发现这三个国模的性能都接近 Claude Sonnet 4，完全可以作为实验代替模型。更巧的是，GLM-4.5 在发布之后，其背后公司推出了一个月内试用 1 万亿 token 的套餐，这正好与研究团队的实验节奏相吻合。于是，他们使用 GLM-4.5 提供的套餐完成了离线数据采集，采集数据的开销从预期的上万美元💵压缩到 50 元人民币。“并且在后学的模型微调中，这些数据的质量也很高，这具体反应在了微调之后的模型性能上。”研究团队告诉 DeepTech。

同时，研究团队用于微调的模型也是 Qwen3-coder-30B，这也是一款国模。当前，大模型研究社区也在普遍采用最新 Qwen 模型作为微调任务。“这些经历让我们感慨：在 2023 年，开源领域几乎只有 Llama，大家进行模型微调研究都只基于 Llama2 进行；在 2025 年，国模已经完成了接力棒的交接，代替 Llama 成为了开源领域的主流，并且和闭源模型的差距也在不断缩小。”研究团队表示。

后续，他们打算针对回答多样性和测试时拓展的性能加以进一步研究。之所以开展这一方向是因为：通过评估其他使用闭源模型的研究团队在 SWE-Bench 上的提交结果，该团队发现当人们尝试使用不同模型进行测试时拓展，人们会认为不同模型产生回答的多样性更高，也会认为最后的效果会更加好。

但是，这些都只是经验之谈。截至目前，没有任何一个研究团队进行过定量研究。到底多少个不同模型参与测试时拓展最好？如果这些模型之间的性能差距很大，会不会影响最后的效果？“这些问题还没有人探索过，因此是我们打算后续探索的目标。”研究团队表示。

参考资料：

https://arxiv.org/pdf/2509.12434