通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。

但问题来了:

一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。

另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。

现在,来自阿里通义实验室的解决方案公开了:开源ZeroSearch,提供了一种无需与真实搜索引擎交互的强化学习框架。

实验表明,ZeroSearch仅需3B参数的LLM作为检索模块,即可有效提升搜索能力,节省了高昂API成本。

ZeroSearch让LLM“自给自足”实现搜索进化

研究团队用模拟搜索环境+渐进式抗噪训练,让LLM不再依赖昂贵搜索引擎API。

轻量微调:把LLM变成“搜索引擎模拟器”

用少量标注数据微调LLM,使其能按指令生成两种文档——有用结果噪声干扰

通过收集与真实搜索引擎交互的数据,ZeroSearch对LLM进行轻量级监督微调。

在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。

这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。

课程化抗噪训练:像打游戏升级一样练模型

训练初期返回高质文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。

ZeroSearch引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。

这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。

强化学习闭环:自产自销的搜索生态

ZeroSearch通过模拟搜索引擎,完全消除了与真实搜索引擎交互的API费用,使得大规模强化学习训练变得更加经济可行。

并且,ZeroSearch兼容多种强化学习算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。

这些算法为模型提供了不同的优化策略,使得ZeroSearch能够在不同的模型和任务中表现出色。

实验表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch的零API成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

在图中,我们可以清晰地看到ZeroSearch在多个问答数据集上的表现。

无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch都显著优于现有的基线方法,包括直接提示、RAG和Search-R1等。

这表明ZeroSearch不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。

上图展示了ZeroSearch和Search-R1(使用真实搜索引擎)在LLaMA-3.2-3B模型上的奖励曲线对比。

ZeroSearch的学习曲线更加平滑且最终性能优于Search-R1,表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

可以看到使用7B参数的检索模块就能达到与谷歌搜索相当的性能,而14B参数的检索模块甚至能够超越谷歌搜索

这表明ZeroSearch不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为LLM的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

比较了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch与PPO和GRPO两种强化学习算法的兼容性。

实验结果表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

特别声明:[通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

紫光汉图发布“双引擎·印未来”打印机🖨️新品,国产打印生态迈入智能化新阶段

日前,紫光汉图“双引擎·印未来”新品发布会在北京通明湖会展中心举行。工业和信息化部、中国电子信息行业联合会等政府及产业界代表出席,共同见证国产打印生态迈出关键一步。新紫光集团高级副总裁邬睿在致辞中表示,中国打…

紫光汉图发布“双引擎·印未来”打印机🖨️新品,国产打印生态迈入智能化新阶段

复古鸡翅木大号毛笔架:文房四宝新宠,书写诗意生活!🎨(鸡翅木小件)

想要给你的书房增添一抹古典气息吗?这款复古鸡翅木大号毛笔架不仅美观实用,更是文房四宝中的新宠。它不仅能够优雅地展示你的毛笔,还能成为书房中的一件艺术品。快来了解这款笔架的独特魅力吧!🎨

复古鸡翅木大号毛笔架:文房四宝新宠,书写诗意生活!🎨(鸡翅木小件)

柚子礼繁花似锦玻璃杯碗套装 ·四件套:让餐桌绽放春天的色彩🌸✨

想要给家里的餐桌添一抹春意吗?柚子礼的繁花似锦玻璃杯碗套装,以四件套的形式呈现,不仅美观实用,还能瞬间点亮你的用餐氛围。从材质到设计,再到实用性,本文将全方位解析这套餐具的魅力所在,让你轻松拥有一个如诗如画的用餐环境!🌸✨

柚子礼繁花似锦玻璃杯碗套装 ·四件套:让餐桌绽放春天的色彩🌸✨

昆明智慧通交通卡上线荣耀手机,近期将登苹果设备(昆明智慧通行app)

根据官方信息,使用这张 NFC 交通卡乘坐昆明市内公交、地铁可享 9折优惠,乘车时可“熄屏一碰秒过闸”,相比扫码乘车速度更快,部分机型在电量耗尽后还能继续刷卡乘车。 二、打开“乘车”: 三、选择“昆明智慧…

昆明智慧通交通卡上线荣耀手机,近期将登苹果设备(昆明智慧通行app)

Steam游戏推荐之《星露谷物语》(steam推荐好游戏)

想在Steam上找一款“不肝不氪、能躺平又能上头”的农场游戏?《星露谷物语》就是答案!它融合了种田、社交、挖矿与联机,适合新手入门也耐玩到百小时。本文拆解玩法逻辑、设置建议和多人协作技巧,教你从零开始玩出幸福感。

Steam游戏推荐之《<strong>星露谷物语</strong>》(steam推荐好游戏)