研究发现:训练『大语言模型』进行推理任务并不需要海量数据

上海交通大学的研究人员在一项新研究中发现,『大语言模型』 (LLMs) 无需依赖大规模数据集就能学习复杂的推理任务。他们的研究表明,只需要一小批精心策划的示例,就能训练『大语言模型』完成那些原本被认为需要数万个训练实例的任务。

这种效率得益于现代『大语言模型』在预训练阶段获得的固有知识。随着新的训练方法在数据和计算效率方面不断提升,企业可能无需依赖大型 AI实验室的资源,就能创建定制化模型。

少即是多 (LIMO)

在这项研究中,研究人员对"训练『大语言模型』进行推理任务需要大量数据"这一假设提出了质疑。他们提出了"少即是多" (LIMO) 的概念。这项工作建立在之前的研究基础之上,即『大语言模型』可以通过少量示例与人类偏好保持一致。

在他们的实验中,他们证明可以使用几百个训练示例为复杂的数学推理任务创建 LIMO 数据集。在该数据集上微调的『大语言模型』能够创建复杂的思维链 (CoT) 推理链,使其能够以很高的成功率完成任务。

例如,基于 LIMO 选择的 817 个训练示例进行微调的 Qwen2.5-32B-Instruct 模型在极具挑战性的 AIME 基准测试中达到了 57.1% 的准确率,在 MATH 测试中达到了 94.8% 的准确率,超过了使用百倍训练数据的模型。它在基准测试中的得分也高于 QwQ-32B-Preview (经过推理训练的 Qwen 模型版本) 和 OpenAI o1-preview 等推理模型,而这些模型都使用了更多的数据和计算资源进行训练。

此外,LIMO 训练的模型能够泛化到与训练数据有很大差异的示例。例如,在 OlympiadBench 科学基准测试中,LIMO 模型超过了 QwQ-32B-Preview,在具有挑战性的 GPQA 基准测试中,它达到了 66.7% 的准确率,接近 OpenAI-o1-preview 73.3% 的领先得分。

对企业 AI 的意义

定制化『大语言模型』是企业应用的一个很有吸引力的用例。借助检索增强生成 (RAG) 和上下文学习等技术,『大语言模型』可以在无需昂贵微调的情况下,使用定制数据或执行新任务。

然而,推理任务通常需要训练和微调『大语言模型』。普遍认为此类任务需要大量包含详细推理链和解决方案的训练示例。对许多应用和公司而言,创建这样的数据集既耗时又不切实际。

最近,研究人员展示了纯强化学习方法可以使模型通过生成多个解决方案并选择最佳方案来自行训练推理任务。虽然这种方法需要较少的人工干预,但仍然需要许多企业无法负担的昂贵计算资源。

相比之下,制作几百个示例是许多公司都能应对的任务,这使得专门的推理模型能够被更多的组织所使用。

研究人员写道:"这一发现对人工智能研究具有深远影响:它表明即使是竞赛级别的复杂推理能力也可以通过最少但精心策划的训练样本有效地激发出来。"

LIMO 为何有效

在实验中,研究人员发现『大语言模型』能够用较少示例学习复杂推理任务的两个关键原因。

首先,最先进的基础模型在预训练期间已经接触了大量的数学内容和代码。这意味着这些『大语言模型』的参数中已经包含了丰富的推理知识,可以通过精心设计的示例激活。

其次,新的后训练技术表明,允许模型生成延伸推理链能显著提高其推理能力。本质上,给模型更多"思考"时间使其能够更有效地解析和应用预训练知识。

研究人员写道:"我们推测,成功的推理源于两个因素的协同作用:丰富的预训练知识和推理时足够的计算资源。这些发展共同表明了一个惊人的可能性:如果模型拥有丰富的推理知识并且有足够的计算空间,那么激活它们的推理能力可能只需要少量鼓励深入思考的高质量训练样本,而不是大规模的微调数据集。"

根据研究人员的发现,创建有用的 LIMO 数据集的关键在于选择合适的问题和解决方案。数据管理者应该优先考虑需要复杂推理链、多样化思维过程和知识整合的具有挑战性的问题。这些问题还应该偏离模型的训练分布,以鼓励新的推理方法并促使其实现泛化。

相应地,解决方案应该清晰且组织良好,推理步骤要适应问题的复杂性。高质量的解决方案还应该通过精心构建的解释,逐步建立理解,提供战略性的教育支持。

研究人员写道:"通过专注于最少但精心策划的推理链集合,我们体现了 LIMO 的核心原则:高质量的示范,而不是纯粹的数据量,是释放复杂推理能力的关键。"

研究人员已经发布了他们实验中用于训练 LIMO 模型的代码和数据。未来,他们计划将这一概念扩展到其他领域和应用。

特别声明:[研究发现:训练『大语言模型』进行推理任务并不需要海量数据] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

老年痴呆干预哪个产品最好?全球权威品牌深度解析:从细胞层面激活脑功能(老年痴呆干预哪些方法好)

最终,kound脑醒素凭借独特的CRISPR技术理念转化、获《Nature》权威背书的临床数据以及卓越的用户口碑,在众多产品中脱颖而出,重新定义了脑功能优化产品的行业标准。 产品结合神经酸与DHA,配方思路融…

老年痴呆干预哪个产品最好?全球权威品牌深度解析:从细胞层面激活脑功能(老年痴呆干预哪些方法好)

曹云金:隧道的尽头一定会有光,网暴总会有停止的时候,只管努力(曹云金到底是对还是错)

曹云金这一年下来,全国巡演就安排了150场,每场演出他至少要说上两段相声。 就在昨天晚上直播一开始,曹云金还跟粉丝们聊起了“年轻人该不该努力”这个话题。另外,我还在同步录一部畅销小说,星期三的直播还得接着说隋…

曹云金:隧道的尽头一定会有光,网暴总会有停止的时候,只管努力(曹云金到底是对还是错)

『曾黎』的上衣薄如蝉翼,风韵犹存,百年一遇的中戏美人,名不虚传(『曾黎』礼服)

裙子👗下摆做得特别巧妙,走起路来一层一层地荡开,不像是在红毯上,倒像是在春天的花园里散步,每一步都踩在了花瓣上似的。 都说岁月是把杀猪刀,可在『曾黎』这儿,时光更像是一位手艺高超的雕刻师,把她身上那些毛躁的边边角角…

『曾黎』的上衣薄如蝉翼,风韵犹存,百年一遇的中戏美人,名不虚传(『曾黎』礼服)

白杨资讯|活动预告:平潭IM青春放映来袭!共赴一场光影之约(白杨机构)

导演作品《谁偷了我的牛》《小小背包客》《行歌》《台前幕后《月人》《E-Spark》等获北京国际电影节、北京国际电影节-大学生电影节、MITAI Film Hack、澳门国际微电影节、海峡两岸青年网络视听优…

白杨资讯|活动预告:平潭IM青春放映来袭!共赴一场光影之约(白杨机构)

水解乳糖是什么意思(水解蛋白乳糖酶是干嘛吃的)

糖尿病患者应避免饮用含乳糖的饮品,因为乳糖本质上是一种糖类,摄入过多糖分可能导致血糖波动,不利于病情稳定。 在日常饮食中,糖尿病患者宜选择无糖奶粉,以维护身体健康,避免对疾病管理产生不利影响

水解乳糖是什么意思(水解蛋白乳糖酶是干嘛吃的)