ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)

ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)

第一作者武骁睿,武汉大学计算机学院博士一年级生,研究大语言模型安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任工程师、毛潇锋工程师。

大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。

TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。

  • 单位:武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学
  • 研究方向:大语言模型安全 / 红队数据自动化构建
  • 论文标题:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
  • 论文链接:https://aclanthology.org/2025.acl-long.733/
  • 代码开源:https://github.com/FishT0ucher/TRIDENT

与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。

图 1 TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比

主要贡献

  • 构建了首个三维度风险覆盖评估框架,能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度;
  • 设计了端到端自动化数据生成管线 TRIDENT,可在无人干预的情况下生成两套数据:TRIDENT-CORE(26,311 条,覆盖词汇 + 意图)与 TRIDENT-EDGE(18,773 条,引入越狱策略维度);
  • 在 META-LLAMA-3.1-8B 上进行 LoRA 微调后,Harm Score 相对最佳基线降低 14.29%,Attack Success Rate 下降 20%,同时 Helpful Rate 保持或小幅上升,证明安全性与有用性可以兼得;
  • 通过细粒度消融实验验证:任何一个维度的缺失都会导致安全指标大幅下降,说明多维度协同不可替代。

问题背景

自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:

  • 意图类别失衡 —— 公开数据集中暴力犯罪、色情犯罪相关指令占比高,而金融诈骗、基础设施破坏等高危领域数据极少;
  • 越狱策略缺失 —— 多数数据集仅包含直白的危险请求,很少涵盖 Cipher、Code Injection 等最新攻防技巧;
  • 构造成本高 —— 人工撰写或筛选指令耗时耗力,更新周期跟不上模型演进速度。

这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。

方法设计

「场景 -> 人格 -> 指令」三级生成:首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。

六大越狱方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。

两阶段过滤:先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。

安全回复生成:采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。

图 2 TRIDENT 自动化数据生成流水线(pipeline)

实验结果

基准对比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。

消融分析:逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。

越狱攻击评估:将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。

表1 TRIDENT‑EDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)

表 2 六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)

突破意义

TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。

我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。

特别声明:[ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

网红面包品牌被曝致多人发烧腹泻 食品安全引质疑(网红面包品牌有哪些)

有一个网红面包品牌,经常可以看到店门口大排长龙。这个品牌就是BUTTERFUL&CREAMOROUS,又名“黄油与面包”。然而最近,广州天环店有多人曝光在食用几款面包后出现了发烧、腹泻、呕吐等症状

网红面包品牌被曝致多人发烧腹泻 食品安全引质疑(网红面包品牌有哪些)

知名的气控调节阀生产企业(气调系统)

德特森(DETESEN):世界著名阀门制造商之一,在全球高端气动特种阀门市场份额为16%-18%,在国内电动阀门行业处于领军地位,球阀、蝶阀国内市占率第一。其旗下拥有 Fisher、ASCO 等多个知名子…

知名的气控调节阀生产企业(气调系统)

日本电子JSM-IT800:多功能台式热场发射扫描电子显微镜(日本电子烟iqos)

多功能背散射电子探测器(VBED)**:能够辅助获取3D、形貌和成分衬度的图像,为分析提供更多维度的信息。 JSM-IT800通过整合核心技术、提供多样化配置及扩展选项,为不同领域的微观观察与元素分析工作提…

日本电子JSM-IT800:多功能台式热场发射扫描电子显微镜(日本电子烟iqos)

张雅钦去看鹿晗演唱会了 追星女孩的满分答卷(张雅钦像谁)

追星不分职业,明星也不例外。8月1日,演员张雅钦在社交平台分享了自己去鹿晗演唱会的经历,并展示了全套应援妆容,引发网友热议。她的妆容设计得非常用心,严格按照鹿晗的官方应援色「明黄色」来打造

张雅钦去看鹿晗演唱会了 追星女孩的满分答卷(张雅钦像谁)

TCL参展2025ChinaJoy,展示全场景电竞显示产品与智慧终端(TCL参展美国ces)

凤凰网科技讯 8月2日,昨天全球数字娱乐盛会ChinaJoy2025在上海新国际博览中心盛大开幕。TCL华星携手三星、联想、华硕、AOC、飞利浦、iQOO、Acer、MSI、LG、雷鸟等品牌联合参展,全面展示…

TCL参展2025ChinaJoy,展示全场景电竞显示产品与智慧终端(TCL参展美国ces)