ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)

ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)

第一作者武骁睿,武汉大学计算机学院博士一年级生,研究『大语言模型』安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任『工程师』、毛潇锋『工程师』。

『大语言模型』(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。

TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。

  • 单位:武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学
  • 研究方向:『大语言模型』安全 / 红队数据自动化构建
  • 论文标题:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
  • 论文链接:https://aclanthology.org/2025.acl-long.733/
  • 代码开源:https://github.com/FishT0ucher/TRIDENT

与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。

图 1 TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比

主要贡献

  • 构建了首个三维度风险覆盖评估框架,能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度;
  • 设计了端到端自动化数据生成管线 TRIDENT,可在无人干预的情况下生成两套数据:TRIDENT-CORE(26,311 条,覆盖词汇 + 意图)与 TRIDENT-EDGE(18,773 条,引入越狱策略维度);
  • 在 META-LLAMA-3.1-8B 上进行 LoRA 微调后,Harm Score 相对最佳基线降低 14.29%,Attack Success Rate 下降 20%,同时 Helpful Rate 保持或小幅上升,证明安全性与有用性可以兼得;
  • 通过细粒度消融实验验证:任何一个维度的缺失都会导致安全指标大幅下降,说明多维度协同不可替代。

问题背景

自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:

  • 意图类别失衡 —— 公开数据集中暴力犯罪、色情犯罪相关指令占比高,而金融诈骗、基础设施破坏等高危领域数据极少;
  • 越狱策略缺失 —— 多数数据集仅包含直白的危险请求,很少涵盖 Cipher、Code Injection 等最新攻防技巧;
  • 构造成本高 —— 人工撰写或筛选指令耗时耗力,更新周期跟不上模型演进速度。

这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。

方法设计

「场景 -> 人格 -> 指令」三级生成:首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。

六大越狱方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。

两阶段过滤:先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。

安全回复生成:采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。

图 2 TRIDENT 自动化数据生成流水线(pipeline)

实验结果

基准对比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。

消融分析:逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。

越狱攻击评估:将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。

表1 TRIDENT‑EDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)

表 2 六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)

突破意义

TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。

我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。

特别声明:[ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法(acl会议含金量)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

54岁汪峰带小娇妻去济州岛旅行,给森林北撑伞,细节暴露两人关系(汪峰带女儿)

汪峰与『章子怡』曾被视为『娱乐圈』️的模范夫妻,两人育有一双儿女,但这段婚姻仍以分道扬镳告终。离婚后,『章子怡』专注于电影事业,而汪峰则开启了新的感情篇章,与比自己小19岁的森林北相恋。值得注意的是,伞面明显向女方倾斜,这…

54岁汪峰带小娇妻去济州岛旅行,给森林北撑伞,细节暴露两人关系(汪峰带女儿)

未野、飞科剃须刀🪒值得买吗?如何选?斥巨资测评PK净须好物榜(飞科剃须刀🪒的用法)

如何评估一款剃须刀🪒的净须性能,其实除了能否一次剃净胡须,我们还要看它的剃须难易指数,剃刮后皮肤的光洁程度以及脸上有无黑点留下!在我用未野剃须刀🪒的这段时间,我发现它家的毛绒舒适圈技术很牛,因为刀头周围都很细腻…

未野、飞科剃须刀🪒值得买吗?如何选?斥巨资测评PK净须好物榜(飞科剃须刀🪒的用法)

超高端CT设备落户海宁(高端ct参数配置)

“联影uCT 960+的强大功能将全面覆盖海宁市人民医院多个临床领域,为不同需求的患者提供精准服务。” 在功能成像领域,联影uCT 960+的能谱成像技术可深入分析人体病灶的组织成分与组织特性,为影像诊断提…

超高端CT设备落户海宁(高端ct参数配置)

国庆抢票忙到焦头烂额?这款AI多语言软件救大命(国庆抢票难吗)

林悦呢,在这个特殊时期,忙得焦头烂额,连抢票这件原本对她出行很重要的事情都顾不上了。 偶然的机会她接触到一款 AI 多语言软件。有了这款功能强大的 AI 多语言软件,林悦所在的公司在国际市场上拥有了更为突出…

国庆抢票忙到焦头烂额?这款AI多语言软件救大命(国庆抢票难吗)

朴敏英近况「脸凹、骨盆凸」爆瘦成纸片人!全网担忧(朴敏英近期日程)

昨日《行骗天下KR》发布会上,朴敏英一袭裸粉色鱼尾裙惊现"骷髅身材",直接冲上热搜榜首! 面对炸锅的舆论,敏英欧尼火速发文安抚:"正在拍《Siren》因此控制饮食,工作太忙不小心又掉秤啦

朴敏英近况「脸凹、骨盆凸」爆瘦成纸片人!全网担忧(朴敏英近期日程)