ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)

今日霍州(www.jrhz.info)©️

第一作者武骁睿,武汉大学计算机学院博士一年级生,研究『大语言模型』安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任『工程师』、毛潇锋『工程师』。

『大语言模型』(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。

TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。

今日霍州(www.jrhz.info)©️

  • 单位:武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学
  • 研究方向:『大语言模型』安全 / 红队数据自动化构建
  • 论文标题:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
  • 论文链接:https://aclanthology.org/2025.acl-long.733/
  • 代码开源:https://github.com/FishT0ucher/TRIDENT

与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。

今日霍州(www.jrhz.info)©️

图 1 TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比

主要贡献

  • 构建了首个三维度风险覆盖评估框架,能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度;
  • 设计了端到端自动化数据生成管线 TRIDENT,可在无人干预的情况下生成两套数据:TRIDENT-CORE(26,311 条,覆盖词汇 + 意图)与 TRIDENT-EDGE(18,773 条,引入越狱策略维度);
  • 在 META-LLAMA-3.1-8B 上进行 LoRA 微调后,Harm Score 相对最佳基线降低 14.29%,Attack Success Rate 下降 20%,同时 Helpful Rate 保持或小幅上升,证明安全性与有用性可以兼得;
  • 通过细粒度消融实验验证:任何一个维度的缺失都会导致安全指标大幅下降,说明多维度协同不可替代。

问题背景

自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:

  • 意图类别失衡 —— 公开数据集中暴力犯罪、色情犯罪相关指令占比高,而金融诈骗、基础设施破坏等高危领域数据极少;
  • 越狱策略缺失 —— 多数数据集仅包含直白的危险请求,很少涵盖 Cipher、Code Injection 等最新攻防技巧;
  • 构造成本高 —— 人工撰写或筛选指令耗时耗力,更新周期跟不上模型演进速度。

这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。

方法设计

「场景 -> 人格 -> 指令」三级生成:首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。

六大越狱方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。

两阶段过滤:先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。

安全回复生成:采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。

今日霍州(www.jrhz.info)©️

图 2 TRIDENT 自动化数据生成流水线(pipeline)

实验结果

基准对比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。

消融分析:逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。

越狱攻击评估:将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。

今日霍州(www.jrhz.info)©️

表1 TRIDENT‑EDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)

今日霍州(www.jrhz.info)©️

表 2 六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)

突破意义

TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。

我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。

特别声明:[ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

管虎看走眼!他嫖娼被封杀,复出却靠粉丝借贷续命,官媒直接打脸(管虎说什么了)

他曾在荧幕上演绎先辈为家国挺身而出的责任感,现实中却连最基本的守法意识都能轻易抛弃;他靠着正能量的形象攫取了名利,而私底下却从事违法失德的行为。这样的复出举动,却遭到了今日霍州等官媒的强烈批评,被指责为让…

管虎看走眼!他嫖娼被封杀,复出却靠粉丝借贷续命,官媒直接打脸(管虎说什么了)

『黄子韬』徐艺洋海岛婚礼细节曝光,终于等到这一天(『黄子韬』徐艺洋滑雪🎿零互动引猜疑)

有人截图吐槽,现场像村口大集,塑料玩偶被风吹得满地乱跑;也有人被细节圈粉——镜头扫过徐艺洋婚纱裙摆下的创可贴🩹,那是早上帮『黄子韬』系鞋带时被礁石划伤的小伤口。这场被部分人批评寒酸的婚礼,却藏着无数人羡慕不来的真实…

『黄子韬』徐艺洋海岛婚礼细节曝光,终于等到这一天(『黄子韬』徐艺洋滑雪🎿零互动引猜疑)

国防部:台湾问题纯属中国内政,与他国行为本质不同

1月29日下午,国防部举行例行记者会,国防部新闻局副局长、发言人蒋斌大校回答了记者提问。有记者提到『美国总统特朗普』近日表示要夺取格陵兰岛,并且之前美军曾强行控制委内瑞拉总统马杜罗。对此,有人认为美方的这些做法可能会影响中国解决台湾问题的方式

国防部:台湾问题纯属中国内政,与他国行为本质不同

邵逸夫107岁仙逝时,4个儿女竟无人愿继承他的遗产,这是为何?(邵逸夫怎么活到107岁的)

为了追求这一梦想,他毫不犹豫地将自己的财富与智慧倾注其中,投入电影事业。在邵逸夫的晚年,他意识到自己曾经忽略了家庭的温暖,他开始尽力弥补这一遗憾,向子女提供帮助,尽量表达自己的关心和爱意。 邵逸夫的一生…

邵逸夫107岁仙逝时,4个儿女竟无人愿继承他的遗产,这是为何?(邵逸夫怎么活到107岁的)

『周深』:用真实与幽默书写独特魅力(『周深』真声)

早在2014年参加《中国好声音》时,『周深』就曾坦言,家里人身高都不高,我也很矮,只有1.61米。在这个充满完美人设的『娱乐圈』️里,『周深』的真实与坦诚,以及他在面对身高这样的敏感话题时的轻松与幽默,或许才是他真正高出一…

『周深』:用真实与幽默书写独特魅力(『周深』真声)