今天分享的是:中国电信:2025年AI智能体安全治理白皮书
报告共计:48页
《AI智能体安全治理白皮书》核心内容总结
《AI智能体安全治理白皮书》由中国电信牵头,联合公安部第三研究所、华为、蚂蚁集团、清华大学等多方编写,聚焦AI智能体从“对话智能”向“决策智能”跃迁阶段的安全治理,构建了覆盖技术、实践与建议的完整体系。
白皮书明确,AI智能体是具备自主感知、决策、执行能力的智能系统,相比『大语言模型』,其核心功能更侧重多轮分析决策与工具调用,自主能力、环境交互能力更强,工作流更复杂。当前AI智能体已在金融、医疗、制造等领域推动变革,但也伴随新型安全风险,如2025年4月某智能体系统被诱导执行木马程序,以及终端智能体遭提示词注入窃取隐私等案例,凸显安全治理紧迫性。
从“感知-决策-记忆-执行”四层架构来看,各层级风险各具特点。感知层面临指令劫持、环境干扰等问题,如攻击者通过隐藏指令或伪造信号误导智能体;决策层存在错误推理放大与逻辑陷阱风险,模型幻觉可能引发连锁错误行动;记忆层易出现隐私泄露、记忆污染,恶意信息一旦写入长期记忆会持续影响智能体行为;执行层则面临通信劫持、目标函数篡改等问题,可能导致物理或数字世界的失控操作。
针对这些风险,白皮书提出分层治理方案。感知层通过工具访问控制、输入输出过滤、多源传感器冗余等保障安全;决策层实施决策验证、降低模型幻觉、监控多智能体交互;记忆层采用数据加密、沙箱隔离、自动化扫描等保护记忆内容与存储安全;执行层通过人工确认高风险操作、监控智能体行为、阻断恶意智能体等防范风险。
实践层面,中国电信星辰智能体平台构建了全流程安全防护,对知识库进行安全审查,在工作流编排中设置安全围栏,运营中实现风险闭环处置;蚂蚁集团研发MCPScan工具,通过多阶段扫描识别MCP协议风险;端侧智能体则建立多维度评测框架与自动化流程,覆盖15余种任务及6大类风险,提升移动端智能体安全性。
最后,白皮书建议从完善顶层设计、夯实技术能力、强化前沿场景布局三方面持续推进治理,推动AI智能体安全、可控、可信发展,为产业界、学术界及政策制定机构提供系统性参考。
要不要我帮你整理一份AI智能体四层架构风险与治理措施对照表,方便快速查阅各层级核心问题与应对方案?
以下为报告节选内容