“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队

中国科学院磐石研发团队 投稿

量子位 | 公众号 QbitAI

科研er看过来!还在反复尝试材料组合方案,耗时又耗力?

新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

不同于当前效率低下、盲目性高的传统智能规划方法,中国科学院磐石研发团队此次提出的混合规划器,同时融合了神经规划系统和符号规划系统的优势。

借鉴人类的闭环反馈机制,构建双向规划机制,在表达能力、适应能力、泛化能力以及可解释性上都实现了显著提升。

还能只在正向规划器需要时,自动激活反馈接收,在规划覆盖率和规划效率上均显著优于OpenAI o1

目前该智能规划器已加入“磐石·科学基础大模型”,该项目已面向科学领域集成了一系列专用模型。

借鉴人类运动学习的“反馈闭环理念”

基于Knowledge of Result(KR)的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。

在运动学习中KR是执行运动后的增强信息,表明既定目标是否成功,而闭环系统是以反馈、错误检测和错误纠正为核心的过程。

规划任务中的问题、规划器和动作序列可近似对应于人类运动学习中的试验、学习者和行动序列,规划任务与运动学习有较强的相似性。

反馈闭环与对应的规划问题

因此,“神经-符号”融合规划器通过借鉴人类运动学习中的反馈闭环理念,构建了一种闭环反馈的双向规划机制——KRCL(Knowledge-of-Results based Closed-Loop),正向神经规划器生成问题的动作序列与反向KR反馈机制构成动态的错误检测-纠正闭环。

通过有效利用信息的双向传递和反馈来评估和调整动作,在规划中研究以KR信息为中心的闭环规划结构,实现准确的反馈以加强错误检测和错误纠正,持续评估和调整规划器的动作,从而促进规划器的有效学习。

“神经-符号”融合新型规划器架构

在正方向,神经规划器利用其强大的表示和学习能力生成规划问题的动作序列,可提高规划效率和灵活性。

实现正反向闭环的KR增强信息则利用文本相似度方法来量化,通过比较推理目标和真实目标来计算它们的相似度。

KR强信息赋予规划器思考能力并对结果进行校正。闭环反馈过程兼顾有效学习与推理能力,促进规划器纠正错误并能够更精准地指导规划器寻找正确的解决方案。

只在“需要”的时候接收反馈

人类运动学习中,传统的固定KR机制由指导者控制KR信息,限制了学习者的学习动机和获取的反馈信息。

为了解决该问题,提出了自我控制机制,允许学习者决定何时获得KR,这种方式不仅可以增强学习动机,还可以增强信息处理能力,特别是可以提高闭环系统的错误检测和错误纠正能力。

面向规划问题的自我控制机制

此外,过多的KR增强反馈会使正向规划器依赖于KR,导致短期表现提升,但会影响模型的长远表现和迁移能力。

因此,“磐石”研发团队提出了面向规划问题的自我控制机制,从规划问题的难度和模型表现两方面展开研究。

它在适当时机选择性地引入KR反馈,避免了固定KR策略中的反馈冗余问题,从而在规划器的学习过程中实现了更快的收敛和更高的覆盖率。

规划覆盖率和规划效率显著领先

研发团队在国际IPC(International Planning Competition)竞赛的8个代表性规划任务上系统性地评估了KRCL的性能。

8个代表性规划任务上的系统评估

结果显示KRCL的平均覆盖率显著优于其他对比规划器,证明了所提出的基于神经-符号融合的双向规划器可以指导规划器寻找正确的解决方案,精准有效地解决规划任务。

此外,团队还在PlanBench(用于评估大语言模型规划性能的基准数据集)上对KRCL与大型语言模型OpenAI o1在规划任务中的性能进行了对比。

PlanBench上的性能对比

实验结果表明, KRCL在规划覆盖率和规划效率方面均显著优于OpenAI o1,进一步验证了该方法在规划任务中的优势。

KRCL通过神经和符号系统优势互补,能够有效提升规划性能,并利用其强大的闭环反馈机制、精准的推理校正能力以及高效的自主规划特性,可为各类科学研究任务提供更可靠、更智能的规划工具。

论文链接:

特别声明:[“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

又低调又美的通勤穿搭,爱了爱了(低调的另一种有内涵的名字)

又低调又美的通勤穿搭,爱了爱了(低调的另一种有内涵的名字)

realme UI 6.0全量推送,看似更新,其实是场“分级游戏”?(realme ui v2.0)

我对 realme UI 6.0 的态度很明确:这次确实有亮点,比如旁路快充+Boost模式真正照顾到游戏与重度用户,但覆盖的机型仅6款,这不是技术限制,这是资源分配。 如果你是 GT7 Pro、neo …

realme UI 6.0全量推送,看似更新,其实是场“分级游戏”?(realme ui v2.0)

数智百科 | 一分钟读懂超融合架构

传统数据中心像手工作坊,计算、存储、网络各自为政,需要买服务器、配存储、调网络……而超融合(HCI)把三大件打包成标准积木块。 超融合方案仅需2 小时:插入新节点→自动识别→资源池扩容。 开箱即用的超融合落…

数智百科 | 一分钟读懂超融合架构

私募大V的“逆袭秀”正在上演 谁在悄然复活?

过去三年多的私募圈,有人春风得意,有人则在黑夜中艰难前行。桥水、邓晓峰等投资机构一路战胜市场,而一些曾经光芒四射的投资大腕们却突然业绩下滑,陷入净值的黑洞。2025年夏天,一场“私募大V的逆袭秀”正在上演

私募大V的“逆袭秀”正在上演 谁在悄然复活?

智联安申请多功能多模滤波器专利,用于调整滤波器带宽(智联门户操作)

金融界2025年8月6日消息,国家知识产权局信息显示,北京智联安科技有限公司申请一项名为“一种多功能多模滤波器”的专利,公开号CN120433749A,申请日期为2025年07月。 专利摘要显示,本发明提供了…

智联安申请多功能多模滤波器专利,用于调整滤波器带宽(智联门户操作)