斯坦福开源复杂推理AI Agent，融合超10种工具(斯坦福jsd) #科技 #斯坦福 #Agent #指令 #推理 #工具

多知7月26日消息，『斯坦福大学』在今年上旬开源了一款名为 OctoTools 的 AI Agent。该工具能够结合超过11种不同的工具，以应对复杂的推理任务。

据了解，传统的AI助手通常依赖于单一模型或有限的工具集，很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务。例如，当解决视觉谜题时，需要精细图像理解和基于文本的混合推理……

基于此，斯坦福开源了OctoTools，这是一个融合了11种不同工具专用于复杂推理的AI Agent。

研究人员在16个不同的任务(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上验证了OctoTools的通用性，比GPT-4o的平均准确率提高了9.3%，这使得它能够在数学、科学和医学等复杂场景中轻松完成任务。

目前用户可以通过 OctoTools 更好地解决视觉谜题或进行基于文本的推理，提升工作效率。

OctoTools 技术原理：

工具卡片（Tool Cards）：工具卡片是 OctoTools 的核心组件之一，封装了工具的元数据和功能。每个工具卡片定义了工具的输入输出格式、功能描述和调用方式。　　

规划器（Planner）：规划器基于语言模型，负责生成从全局视角的初步计划。根据用户查询和可用工具，制定一个高层次的解决方案路径。　　

执行器（Executor）：执行器将规划器生成的文本指令转换为可执行的命令，运行这些命令获取中间结果。

多步推理过程：基于多步推理逐步解决问题。在每一步中，规划器根据当前上下文生成新的行动指令，执行器执行指令获取结果，然后更新上下文。

论文链接：https://arxiv.org/pdf/2502.11271

代码链接：https://github.com/octotools/octotools

斯坦福开源复杂推理AI Agent，融合超10种工具(斯坦福jsd)