多知7月26日消息,斯坦福大学在今年上旬开源了一款名为 OctoTools 的 AI Agent。该工具能够结合超过11种不同的工具,以应对复杂的推理任务。
据了解,传统的AI助手通常依赖于单一模型或有限的工具集,很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务。例如,当解决视觉谜题时,需要精细图像理解和基于文本的混合推理……
基于此,斯坦福开源了OctoTools,这是一个融合了11种不同工具专用于复杂推理的AI Agent。
研究人员在16个不同的任务(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上验证了OctoTools的通用性,比GPT-4o的平均准确率提高了9.3%,这使得它能够在数学、科学和医学等复杂场景中轻松完成任务。
目前用户可以通过 OctoTools 更好地解决视觉谜题或进行基于文本的推理,提升工作效率。
OctoTools 技术原理:
工具卡片(Tool Cards):工具卡片是 OctoTools 的核心组件之一,封装了工具的元数据和功能。每个工具卡片定义了工具的输入输出格式、功能描述和调用方式。
规划器(Planner):规划器基于语言模型,负责生成从全局视角的初步计划。根据用户查询和可用工具,制定一个高层次的解决方案路径。
执行器(Executor):执行器将规划器生成的文本指令转换为可执行的命令,运行这些命令获取中间结果。
多步推理过程:基于多步推理逐步解决问题。在每一步中,规划器根据当前上下文生成新的行动指令,执行器执行指令获取结果,然后更新上下文。
论文链接:https://arxiv.org/pdf/2502.11271
代码链接:https://github.com/octotools/octotools