AgentAuditor: 让智能体安全评估器的精确度达到人类水平

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器(evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法,无论是基于规则还是依赖大模型,都面临着 “看不懂”、“看不全”、“看不准” 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能体在交互过程中引入的微妙风险;而基于大模型的评估方法,无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型,在精确度上均不如人意。

为了解决这一难题,来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们,推出 AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架,让 LLM 评估器达到了人类专家的评估水平,精准识别智能体的安全风险。

  • 论文题目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 论文链接:
  • https://arxiv.org/abs/2506.00641
  • 代码 / 项目主页:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览:AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和 RAG(检索强化推理)结合在一起,赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力,最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现:

1. 特征记忆构建 (Feature Memory Construction): 将原始、杂乱的智能体交互记录,转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容,更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction): 从特征记忆中筛选出最具代表性的 “案例”,并由 LLM(AgentAuditor 内部使用的同一个 LLM,确保自洽性)生成高质量的思维链(CoT)推理过程。这些 CoT 就像人类专家的 “判案经验”,为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning): 面对新的智能体交互案例,AgentAuditor 通过多阶段、上下文感知的检索机制,从推理记忆中动态调取最相关的 “判案经验”(CoT),辅助 LLM 评估器做出更精准、更鲁棒的判断。

数据集:ASSEBench 的构建

为了全面验证 AgentAuditor 的实力,并填补智能体安全(Safety)与安全(Security)评估基准的空白,研究团队还精心打造了 ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准:

  • 规模宏大: 包含 4 个子集,共 2293 条精心标注的真实智能体交互记录。
  • 覆盖广泛: 涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。
  • 标注精细: 采用创新的人机协同标注流程,并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准,评估更细致。
  • 双管齐下: 同时关注智能体的 “Safety”(避免无意犯错)和 “Security”(抵御恶意攻击)两大方面。

实验效果:AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明:

  • 普遍提升显著: AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%!
  • 直逼人类水平: 搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了 SOTA 成绩,其评估准确率(如在 R-Judge 上达到 96.1% Acc)已接近甚至超越单个人类标注员的平均水平。
  • 强大的自适应能力: 面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集,AgentAuditor 能自适应调整其推理策略,显著缩小不同模型在不同标准下的性能差距。

上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率(Acc)和 F1 分数;右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

  • 系统性分析挑战: 深入剖析了当前自动化评估 Agent 安全面临的核心难题。
  • 创新框架: 通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT,显著增强 LLM 评估能力。
  • 首个专用基准: ASSEBench 填补了领域空白,为人机协同标注提供了新范式。
  • 人类级表现: 实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出,为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展,也为未来构建更安全、更可靠的智能体防御系统指明了方向。

猜你喜欢

猛士M817,危险瞬间智能避险!(猛士csz181)

AEB紧急制动+主动转向协同介入,遇障碍自动减速避让;eAES系统预判行人车辆,精准控距防碰撞。危急时刻毫秒级响应,化险为夷更从容,安全守护全场景!…

猛士M817,危险瞬间智能避险!(猛士csz181)

中国队在世界杯夺冠了!是机器人队(世界杯 中国足球还要等多久)

记者了解到,在类人组成人尺寸组别比赛中,清华大学火神队和中国农业大学山海队会师决赛,提前锁定冠亚军,打破中国战队从未在RoboCup类人组夺冠的历史,两支战队使用的均是中国国产机器人加速进化T1。 在类人组…

中国队在世界杯夺冠了!是机器人队(世界杯 中国足球还要等多久)

XPS光电子峰和俄歇电子峰峰位表(光电子谱峰)

光电子发射后原子内层产生一个空穴,这时原子处于激发态,在去激发过程中又能引起俄歇电子发射,其过程几乎和光电子发射同时发生,所以在能谱图中除光电子峰外还会出现X射线激发的俄歇电子峰,而且俄歇电子峰往往出现一群…

XPS光电子峰和俄歇电子峰峰位表(光电子谱峰)

云昊曝面对面内幕,替许敏委屈落泪,批评三石不文明行为

倘若有一天,她的儿子长大后转而以同样的态度对待自己,那时三石就会明白,自己当初对许敏的所作所为带来了多大的伤害。从血缘关系来看很有道理,但现实是,许敏夫妇对姚策的付出,真正如同对待亲生儿子一样,甚至在某些方面…

云昊曝面对面内幕,替许敏委屈落泪,批评三石不文明行为

张小斐一觉醒来天塌了,导演暧昧细节曝光,10年前秘密铺路揭秘(张小斐新作)

在这组漫画的背后,温情与深意也悄然流露,让许多人感受到了一份难得的温暖。张小斐在其中扮演贾玲母亲的角色,充分展现了贾玲对她的信任。张小斐也在舞台上展现出了与贾玲完美配合的天赋,赢得了观众的喜爱。 尽管人们常说…

张小斐一觉醒来天塌了,导演暧昧细节曝光,10年前秘密铺路揭秘(张小斐新作)