AgentAuditor: 让智能体安全评估器的精确度达到人类水平

今日霍州(www.jrhz.info)©️

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器(evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法,无论是基于规则还是依赖大模型,都面临着 “看不懂”、“看不全”、“看不准” 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能体在交互过程中引入的微妙风险;而基于大模型的评估方法,无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型,在精确度上均不如人意。

为了解决这一难题,来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们,推出 AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架,让 LLM 评估器达到了人类专家的评估水平,精准识别智能体的安全风险。

今日霍州(www.jrhz.info)©️

  • 论文题目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 论文链接:
  • https://arxiv.org/abs/2506.00641
  • 代码 / 项目主页:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览:AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和 RAG(检索强化推理)结合在一起,赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力,最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现:

1. 特征记忆构建 (Feature Memory Construction): 将原始、杂乱的智能体交互记录,转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容,更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction): 从特征记忆中筛选出最具代表性的 “案例”,并由 LLM(AgentAuditor 内部使用的同一个 LLM,确保自洽性)生成高质量的思维链(CoT)推理过程。这些 CoT 就像人类专家的 “判案经验”,为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning): 面对新的智能体交互案例,AgentAuditor 通过多阶段、上下文感知的检索机制,从推理记忆中动态调取最相关的 “判案经验”(CoT),辅助 LLM 评估器做出更精准、更鲁棒的判断。

今日霍州(www.jrhz.info)©️

数据集:ASSEBench 的构建

为了全面验证 AgentAuditor 的实力,并填补智能体安全(Safety)与安全(Security)评估基准的空白,研究团队还精心打造了 ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准:

  • 规模宏大: 包含 4 个子集,共 2293 条精心标注的真实智能体交互记录。
  • 覆盖广泛: 涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。
  • 标注精细: 采用创新的人机协同标注流程,并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准,评估更细致。
  • 双管齐下: 同时关注智能体的 “Safety”(避免无意犯错)和 “Security”(抵御恶意攻击)两大方面。

今日霍州(www.jrhz.info)©️

实验效果:AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明:

  • 普遍提升显著: AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%!
  • 直逼人类水平: 搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了 SOTA 成绩,其评估准确率(如在 R-Judge 上达到 96.1% Acc)已接近甚至超越单个人类标注员的平均水平。
  • 强大的自适应能力: 面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集,AgentAuditor 能自适应调整其推理策略,显著缩小不同模型在不同标准下的性能差距。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率(Acc)和 F1 分数;右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

  • 系统性分析挑战: 深入剖析了当前自动化评估 Agent 安全面临的核心难题。
  • 创新框架: 通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT,显著增强 LLM 评估能力。
  • 首个专用基准: ASSEBench 填补了领域空白,为人机协同标注提供了新范式。
  • 人类级表现: 实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出,为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展,也为未来构建更安全、更可靠的智能体防御系统指明了方向。

特别声明:[AgentAuditor: 让智能体安全评估器的精确度达到人类水平] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

柬埔寨首相:已同安瓦尔和特朗普通话 呼吁和平解决争端(柬埔寨首相:不会退缩)

泰国看守政府总理阿努廷和柬埔寨首相洪玛奈证实,他们与『美国总统特朗普』就泰柬边境冲突进行了电话沟通。特朗普在『社交媒体』上表示,两国领导人同意从当晚起停火

柬埔寨首相:已同安瓦尔和特朗普通话 呼吁和平解决争端(柬埔寨首相:不会退缩)

无线🛜互联·远程管控:冷库温湿度24小时不间断监控系统技术方案(无线🛜远程控制)

基于物联网技术的智能监控系统,可实现温湿度数据的实时采集、传输、分析与报警,彻底解决传统管理模式的弊端,为冷库运营提供科学决策依据。远程配置:支持通过平台远程设置传感器的采集频率(1 分钟~1 小时可自定…

无线🛜互联·远程管控:冷库温湿度24小时不间断监控系统技术方案(无线🛜远程控制)

亲上黑寡妇却像进了地狱?达蒙爆料,比尴尬更刺鼻的是真相

在好莱坞的光谱中,亲密戏常被镀上金色的神话光环,演员的专业与敬业被反复咏唱,仿佛镜头之外皆是玫瑰与『香氛』的殿堂。彼时,41岁的达蒙早已凭《谍影重重》系列封神,两人合作机会寥寥,可这部影片里的吻戏,却成了他记忆里…

亲上黑寡妇却像进了地狱?达蒙爆料,比尴尬更刺鼻的是真相

1976年,知性优雅的谢芳在这部影片中饰演农村妇女,很意外哦

谢芳是北影的著名演员,她在1965年主演了谢晋执导的电影《舞台姐妹》,这部电影让她一度声名鹊起。由于谢芳已经40岁,年过中年的她虽然气质成熟、知性优雅,但与影片中奋战在大山中的铁血女支书形象相比,还是存在一定…

1976年,知性优雅的谢芳在这部影片中饰演农村妇女,很意外哦

太敢说!苏有朋怕过气多次转型,称运气是努力的伏笔(苏有靖是谁)

最近,苏有朋在某节目中坦言,从偶像歌手转型为演员并非偶然,他之所以做出这样的决定,背后其实有一个深刻的原因——他一直害怕自己会被时代遗忘。他以不断自我更新的方式证明,自己依旧充满活力与创造力。这种坚持和…

太敢说!苏有朋怕过气多次转型,称运气是努力的伏笔(苏有靖是谁)