谷歌《Agents》白皮书(the next google)

智能体:生成式 AI 的能力拓展者

在生成式 AI 飞速发展的当下,智能体(Agents)作为其重要拓展,正逐渐成为研究与应用的焦点。

一、核心定义

(一)智能体的本质

智能体可以被定义为一种自主的、以目标为导向的应用,它通过观察环境并调用工具来实现目标。其核心特性包括自主性、主动推理以及与环境的互动能力。这种智能体聚焦于以语言模型为核心的应用,而非广义的 AI 智能体。

智能体的三大核心组件是模型(Model)、工具(Tools)和编排层(Orchestration Layer)。模型作为决策中枢,负责推理、规划及工具选择,能够采用不同的推理框架来指导行动。工具是智能体与外部世界互动的桥梁,包括扩展(Extensions)、函数(Functions)和数据存储(Data Stores)等多种类型。编排层则负责管控信息处理、推理和行动的循环过程,同时维护记忆和状态。

与传统生成式模型相比,智能体的核心差异在于其能力边界和交互方式。智能体能够通过工具与外部系统进行实时交互,而传统模型则受限于其训练数据。

二、智能体的工作原理

(一)工作原理类比

智能体的工作原理可以类比为一位忙碌的大厨。大厨在厨房中需要明确目标(制作美味菜肴),收集信息(食材和顾客需求),进行内部推理(如何烹饪),执行行动(烹饪过程),并根据反馈进行调整(优化菜肴)。类似地,智能体通过目标设定、信息收集、内部推理、执行行动和观察调整等步骤来实现其目标。

(二)三大主流推理框架

ReAct:将推理与行动紧密结合,减少幻觉,提高输出结果的准确性和可靠性。

思维链(Chain-of-Thought, CoT):通过分解复杂问题为多个中间步骤,提升逻辑推理的准确性,适用于需要逐步分析的场景。

思维树(Tree-of-Thoughts, ToT):探索多条可能的路径,支持复杂问题的解决,适用于需要多路径探索的任务。

这三种推理框架为智能体提供了不同的推理方式,可以根据具体任务的需求进行选择和组合。

(三)智能体连接外部的三大核心工具

扩展(Extensions):简化智能体与 API 的交互,通过示例指导智能体动态选择合适的工具,支持复杂规划和实时信息获取。

函数调用(Function Calling):在客户端执行 API 调用,适用于需要安全控制、异步处理或数据预处理的场景,为开发者提供更细粒度的控制。

数据存储(Data Stores):作为外部记忆库,通过 RAG 技术解决知识过时问题,确保智能体能够基于最新信息进行决策和行动。

三、提升智能体性能:三大靶向学习方法

为了进一步提升智能体的性能,靶向学习方法显得尤为重要。这些方法包括:

在上下文中学习(In-context learning):通过在推理时提供示例和工具,让模型“即时学习”如何使用工具。

基于检索的上下文学习(Retrieval-based in-context learning):动态检索相关信息、工具和示例,结合外部知识库,提升模型的推理能力。

基于微调的学习(Fine-tuning based learning):通过在特定数据集上进行微调,让模型提前学习如何使用工具,适用于需要高精度的任务。

结合使用这些方法可以实现优势互补,提升智能体在复杂任务中的表现。

四、总结与未来展望

(一)核心要点总结

智能体扩展了生成式 AI 的能力边界:通过工具与外部世界互动,智能体能够完成复杂的任务。

编排层是智能体的核心:管控信息、推理和行动的循环,确保智能体高效运行。

工具是连接现实世界的关键:根据具体场景选择合适的工具类型,如扩展、函数调用或数据存储。

靶向学习提升模型的工具使用能力:通过多种学习方法,增强智能体在实际任务中的表现。

(二)未来展望

智能体链(Agent Chaining):将复杂任务拆解并分配给多个专业智能体,实现更高效的任务执行和更精准的结果输出。

更强大的工具交互:支持多模态工具和对物理设备的控制,拓展智能体在现实世界中的应用范围。

更优的推理能力:融合记忆增强和多模态信息处理,提升智能体对复杂情况的理解和应对能力。

智能体开发的迭代性:智能体的开发是一个持续优化的过程,需要不断实验和调整以适配具体业务需求。

智能体作为生成式 AI 的重要延伸,正在不断拓展其能力边界。随着技术的不断进步,智能体将在更多领域发挥重要作用,为人类社会的发展创造更多价值。

特别声明:[谷歌《Agents》白皮书(the next google)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

CASETiFY 再度携手飞天小女警推出联名系列,释放属于你的超能力!(再度携手什么意思)

继 2023年之后,花花、泡泡与毛毛再度集结,将勇敢、可爱与大胆的多重魅力融入潮流科技配件之中,鼓励每一位女孩勇敢做自己,迎接世界的每一次挑战与冒险。飞天小女警 x CASETiFY 联名系列通过丰富多样…

CASETiFY 再度携手飞天小女警推出联名系列,释放属于你的超能力!(再度携手什么意思)

加拿大之后,欧洲终于明白:平等的朋友,美国给不了(加拿大几年了)

最近,欧洲和美国在技术领域的摩擦越来越显眼。从欧盟对美国科技巨头开出天价罚单,到美国反过来对欧洲官员实施签证限制,一系列事件让不少人觉得,欧洲似乎真的动了和美国技术“决裂”的念头。美国出台的《通胀削减法案》,…

加拿大之后,欧洲终于明白:平等的朋友,美国给不了(加拿大几年了)

能见度监测站适配多种高速气象观测需求(能见度仪校准)

山东水境传感的【SJ-NJD50】能见度监测站就是专用于高速沿线的监测设备,多台联网就能覆盖高速沿线区域,能测 0-50km 的能见度,还能识别雾、雨、雪等天气现象,识别率也比较高。它的适配性也比较强,能在…

能见度监测站适配多种高速气象观测需求(能见度仪校准)

联合国教科文组织发布李子柒最新视频:喊你来当春节的传承人(联合国教科文组织英语怎么说)

视频里,她向全球发出邀请:春节申遗成功一周年了,喊你来当这份文化遗产的传承人。当全球观众通过她的镜头,看见具体可感的“年”,并被告知“你也可以是传承人”时,那份文化的认同与行动的自觉,或许便在这一刻被悄然唤醒…

联合国教科文组织发布李子柒最新视频:喊你来当春节的传承人(联合国教科文组织英语怎么说)

惊爆!2026年屏幕监控软件大揭秘,多版本系统适配哪家强?(2025年屏保图片)

1、实时屏幕监控:管理员可远程实时查看任一员工电脑的当前『操作界面』,支持多屏幕同时观看,并可按时间轴进行历史屏幕录像回放。它的审计功能十分强大,能详细记录每一次屏幕操作的时间、内容等信息,为网络管理提供了有力…

惊爆!2026年屏幕监控软件大揭秘,多版本系统适配哪家强?(2025年屏保图片)