随着智能体被逐渐应用于各行各业,它们对业务运营、人机协作和国家安全的影响正在不断扩大,确保智能体安全、可解释且可靠的责任也随之加重。美国政策研究智库R街研究所(R Street Institute)发表了“The Rise of AI Agents: Anticipating CyberSecurityOpportunities, Risks, and the Next Frontier”的报告,概述了智能体系统的架构,探讨了智能体在网络安全用例中的部署方式,并识别了它们在网络安全领域的优势及在四个不同的基础功能层面(感知、推理、行动和记忆)产生的新风险。启元洞见编译该报告,为智能体相关研究提供参考。
一、引言
2023年被称为“生成式人工智能”元年,2024年则稳步迈向“人工智能实用化”,而2025年则被誉为“智能体”元年。智能体的核心是“由人工智能驱动的自主智能系统,旨在独立执行特定任务,无需人工干预。”尽管目前对智能体尚未有明确的定义,但都强调了其包括学习、记忆、计划、推理、决策和适应在内的一系列自主追求和完成目标的能力。与非智能体系统不同,它能在较少的人工干预下执行多步骤任务,潜力巨大但也带来了全新挑战。
随着智能体开始承担越来越多的认知和操作任务,它们对业务运营、劳动力动态和数字基础设施的影响日益显著。与早期的人工智能发展浪潮一样,在智能体领域建立技术领导地位可能带来重大的经济和地缘政治影响,尤其是将智能体嵌入到金融、医疗保健和国防等敏感领域的关键工作流程中。
二、智能体系统的架构
从架构上看,智能体通常作为『大语言模型』(LLM)的上一层运行,包含四个基础组件:感知、推理、行动和记忆。感知模块负责从外部来源获取数据,例如用户输入或应用程序编程接口(API)。收集数据后,推理模块利用LLM的功能来规划或推断最佳行动方案。然后,行动模块可以通过工具、API或与第三方系统的集成来执行任务。最后,记忆模块存储上下文信息,通常使用矢量数据库或基于会话的内存管理器。该架构背后是一个支撑基础架构堆栈:用于LLM访问的模型API、用于快速检索的内存存储、用于协调任务状态的会话管理器、用于操作输出的外部工具集成,甚至还有支持模块化开发的开源框架和库。多智能体系统又增加了一层复杂性,允许智能体在共享环境中协作或将任务委托给其他智能体。虽然这种日益增长的互联互通可以增强智能体的能力,但它也可能带来关于可解释性、隐私、系统安全性和可靠性的新挑战。
三、七种主要智能体类型
1.简单反射智能体。这类智能体代表了最基本的智能体形式,因为它们仅基于预定义的条件—动作规则进行操作。这类智能体通常用于基于关键字的垃圾邮件过滤器等系统,这些系统会根据预定规则或关键字列表为电子邮件分配标签(垃圾邮件或非垃圾邮件)。
2.基于模型的反射智能体。基于模型的反射智能体建立在简单的反射智能体基础上,能够维持内部状态,从而根据历史环境或数据调整动作,这类似于智能恒温器根据过去的模式调节温度。
3.基于目标的智能体。这类智能体引入了一层意向性,根据行动是否有助于实现既定目标来选择行动。这类智能体属于第三类,它可以通过最少的人工干预来预订航班和协调住宿。
4.基于效用的智能体。基于效用的智能体更进一步,通过权衡可能的结果来确定哪种行动方案最有利,例如优化配送路线以节省时间、价值或燃料。
5.学习智能体。这些智能体超越了上述四类中的固定策略,能够根据反馈和新数据不断改进其方法和性能。例如,一个人工智能系统可以根据特定学生的行为和进度来制定个性化的课程计划。
6.多智能体系统。在更复杂的环境中,多智能体系统将不同的智能体聚集在一起,通过合作或竞争的方式完成共享任务,例如协调供应链物流。
7.分层智能体。分层智能体在各个层级构建决策结构,以反映组织工作流程的方式委派子任务并管理子系统。
当今许多领先的智能体,包括谷歌的ProjectAstra、OpenAI的Operator和CrewAI,都反映了一个发展趋势:面向不同环境与行业灵活应用的通用智能体系统正在加速兴起。随着智能体技术的成熟,围绕网络安全、互操作性和治理标准的构建工作已经全面展开。这些举措涵盖多智能体环境、安全、威胁、风险和结果(MAESTRO)威胁建模框架、沙盒和权限策略,以及对内存限制和数据边界的更多关注。
四、智能体的网络安全优势
智能体不仅提高了效率,而且还通过自主辅助网络工作人员执行持续监控、漏洞管理、威胁检测、事件响应和决策等重要任务来增强网络安全。
(一)持续监控和漏洞管理
随着云计算、物联网和边缘计算的快速发展,现代数字环境的攻击面呈现高度分散化特征。传统基于定期扫描的漏洞管理方法已难以应对动态变化的威胁环境。智能体通过持续监控系统架构、自动识别漏洞并根据业务影响确定修复优先级,显著提升了漏洞管理效率。谷歌Project Zero团队已成功运用智能体发现多个零日漏洞 ,验证了该技术在漏洞挖掘方面的潜力。同时,人工智能驱动的自动化渗透测试能够模拟攻击行为,帮助企业在真实攻击发生前发现并修复安全隐患。这种主动防御模式正在重塑现代漏洞管理体系。
(二)实时威胁检测与智能响应
在威胁检测领域,智能体通过多源数据关联分析和模式学习,实现了从被动防御到主动响应的转变。美国现代安全运营中心采用多智能体协同工作模式:监控智能体负责网络流量分析,情报智能体整合威胁信息,响应智能体执行隔离、阻断等处置措施。微软Security Copilot等解决方案已实现分钟级威胁检测与响应,将平均响应时间缩短了60%以上。这种实时响应能力在应对勒索软件、零日攻击等高级威胁时尤为重要,有效降低了安全事件可能造成的损失。
(三)网络安全人力增强与决策支持
面对全球400万的网络安全人才缺口,智能体正成为提升安全团队效率的关键助力。通过自动化处理70%以上的告警误报,智能体每周可为安全分析师节省40小时的工作时间。思科人工智能助手等解决方案不仅能完成常规安全运维,还能为复杂安全决策提供数据支持。这种“人机协同”模式既缓解了安全人员的工作压力,又提升了整体安全运营水平。实践表明,采用人工智能辅助的安全团队在事件处理效率和准确性方面都有显著提升,为应对日益严峻的网络安全挑战提供了新思路。
五、网络安全考虑和潜在风险
事实证明,智能体的强大之处不仅在于它们能够独立完成各种任务,还在于它们能够基于新数据高效地在数字环境中学习和适应。然而,智能体的记忆力、自主性和推理等能力,也可能使它们成为极具吸引力的攻击目标。
虽然概念化智能体架构的方法多种多样,但我们将其架构分为四个主要层:感知、推理、行动和记忆。每一层都对应着智能体生命周期中数据收集、分析、应用和优化的关键阶段。由于每一层在智能体的工作流程中发挥着不同的作用,因此不同模块中相关的风险和缓解需求也各不相同,从而影响了每个阶段的网络安全考量。
(一)感知模块
在第一层,智能体的任务是通过传感器(例如摄像头、数据输入)扫描和观察给定环境,为其提供基础上下文信息,然后将这些数据转换为合适的处理格式。由于感知模块依赖多个数据管道进行分析,因此该层可能面临各种特定数据的安全风险,这些风险会影响智能体工作流的数据机密性和完整性。这些攻击包括但不限于对抗性数据注入(也称为数据中毒)和人工智能模型供应链风险。
对抗性数据注入是针对智能体工作流程感知层最突出的安全风险之一,因为它会篡改模型的完整性以及智能体在训练中真实分析数据点的能力。在图像处理中,恶意行为者可能会操纵图像像素,在图像中添加额外的噪点,或进行其他类型的扰动,而这些扰动无论是人眼还是通过人工智能感知系统都难以察觉。此类数据中毒方法还可能通过改变训练集的分布或重塑数据以符合对抗目标,将智能体的数据分析从开发人员设定的预期模式“重新调整”为恶意行为者设定的恶意模式。
事实上,威胁行为者可以利用人工智能和软件供应链的去中心化特性,在预训练阶段将恶意数据嵌入这些基础模型中。此类攻击的性质取决于目标,范围从数据中毒到权重中毒,以及标签修改的方法。这两种类型的后门攻击都可能导致智能体系统下游性能受损。
(二)推理模块
智能体工作流程的第二层是推理模块,它控制着智能体的内部决策过程。在此阶段,第一层感知模块收集的数据将被解释并转换为可操作的输出。智能体会审查和分析上下文信息,并可能运用预先学习的启发式方法、模式或逻辑顺序,在图形处理单元(GPU)或张量处理单元(TPU)等专用硬件和模型托管环境的支持下得出结论。由于推理模块在分析和判断中发挥着核心作用,因此该层的漏洞和不良的网络环境状况可能导致错误的决策或错误描述,尤其是在攻击者操纵信号或利用模型及基础设施中的漏洞的情况下。最终,这种不准确性可能会损害最终用户对智能体可靠性和准确性的信任。
此阶段最常见的安全风险之一是模型底层漏洞的利用。这些缺陷可能源于广泛使用的人工智能框架,也可能来自错误配置的库和不安全的模型托管环境,尤其是那些允许用户上传未经严格验证的用户生成模型的环境。另一类可能影响智能体知识库的攻击是模型利用攻击。攻击者不会直接瞄准人工智能输入,而是尝试探测人工智能的内部逻辑,以提取专有知识、内部决策路径或敏感的训练数据。
(三)行动模块
智能体工作流的第三层是行动模块,负责将第二层中的决策过程转化为实际操作。由于这是执行操作的阶段,即使是看似微小的操作也可能导致意想不到的,甚至可能有害的后果。这使得行动模块对利用智能体与外部系统交互能力的攻击特别敏感。
恶意行为者可能通过各种途径入侵此层,包括但不限于提示注入、命令劫持、未经授权的访问、权限提升以及API集成中的漏洞。这些风险凸显了在此层实施严格的输出验证和访问控制的重要性。
(四)内存模块
智能体工作流的第四层也是最后一层是记忆模块,它负责跨任务保留上下文、存储相关数据,并根据过去的交互为未来的决策提供信息。该模块将智能体与其他人工智能模型或基于LLM的工具区分开来,后者通常在单个会话或查询窗口内运行。通过实现长期情境感知、学习持久性和记忆驱动的适应性,记忆模块促进了智能体随着时间的推移不断自我完善的能力。
这一层可能发生的主要网络安全风险之一是内存篡改或损坏,威胁行为者操纵存储的内存来扭曲智能体的理解或引入不正确的历史数据。这些攻击可能会降低智能体的性能,或潜移默化地影响未来的行动,使其产生有害的输出。
记忆模块之所以尤为重要,是因为它与智能体生命周期前三层的递归关系。如果将数据生命周期概念化为一个圆圈,那么第四层实际上就闭合了循环,这意味着在流程早期引入的任何漏洞或风险,例如中毒数据或训练过程以及错误推理,不仅可以保留,而且可以随着时间的推移而得到强化。
六、结论
智能体的兴起标志着新兴技术与数字世界互动、解读和影响方式的显著转变。智能体越来越多地被称为人工智能创新的“第三次浪潮”,它代表着对依赖人类持续监督和干预的被动模式的突破。智能体具备自主行动、推理和通过经验学习的能力,有望重新定义人机协作的模式。