可验证的Agentic Workflow?MermaidFlow开启安全、稳健的新范式(可验证的小学生身份证号码)

可验证的Agentic Workflow?MermaidFlow开启安全、稳健的新范式(可验证的小学生身份证号码)

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。

为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了Meta-GPT、ADAS、AFlow等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。

尽管这些系统能够灵活的表达工作流,但在自动化搜索工作流的过程中,存在合理性难以保证、可验证性不足、 难以直观表达等突出挑战,严重制约了多智能体系统的可靠落地与规模化部署。

近日,来自新加坡 A*STAR 的 Centre for Frontier AI Research (CFAR) 研究所与南洋理工大学的研究团队联合发布了创新性工作流框架「MermaidFlow」,推动智能体系统迈向结构化进化与安全可验证的新范式。

  • 论文链接:https://arxiv.org/pdf/2505.22967
  • GitHub 开源代码:https://github.com/chengqiArchy/MermaidFlow

Mermaid 破局:

让结构式工作流表达取代脚本混战

传统瓶颈:命令式脚本使工作流频频 「翻车」

在现有多智能体系统中,大模型生成的工作流往往以 Python 脚本或 JSON 树等命令式(imperative)代码直接输出,ADAS, AFlow 等主流系统也普遍采用了这种表达范式。这种低层次、混杂的生成方式,将流程规划与具体实现深度耦合,结构信息隐含在复杂代码中,直接导致了以下三大核心瓶颈:

  • 结构不透明:工作流整体架构深藏在杂乱代码里,流程关系难以一目了然,协作全局难以把控。
  • 合理性难验证:流程逻辑与实现细节高度耦合,缺乏静态检查和自动验证机制,容易隐藏致命漏洞。
  • 调试与优化困难:错误往往只有在实际运行时才暴露,流程复现、问题定位和后续优化极为低效。

MermaidFlow: 引领结构化与可验证工作流表达

MermaidFlow 以结构化图语言 Mermaid 为基础,提出了一种全新的工作流表达机制。不同于直接输出可执行脚本的方式,MermaidFlow 强调将智能体行为规划过程显式建模为结构化流程图谱,并引入形式化语义,确保流程清晰、可查、可验证。

相比传统的 Python/JSON 脚本,基于 Mermaid 的工作流表达具有以下核心特点:

  • 图式结构清晰可见:每一个智能体定义、依赖关系、数据流都被结构化地表达成图中的节点与连边,使整个工作流一目了然、可交互、可审查.
  • 流程验证内嵌其中:MermaidFlow 引入了多类语义约束(如依赖闭环、角色一致性、输入输出类型匹配等),支持静态结构验证与生成时一致性检查,避免生成不符合规则的图。
  • 天然支持演化与调试:结构化工作流图更易于进行片段级替换、增量修复与版本比较,支持可控的演化式优化(见后节)。

图1 MermaidFlow:从结构化图到可验证执行的一站式工作流表达闭环 。左侧部分展示了基于 Mermaid 的声明式工作流表达,结构清晰、依赖显式,具备良好的人类可读性。人们可以清晰得知道, 在该工作流中存在什么节点, 他们之间的连接情况是怎么样的。

借助 MermaidFlow 所提出的结构化图式表达,多智能体协作的工作流规划过程不再是脆弱难控的黑盒编排,而是具备清晰结构、可视节点与可验证语义的 「白盒流程」。这种方式极大地提升了Agentic Workflow 的可解释性、可验证性与后续演化的可操作性,为大规模部署打下坚实基础。

💡作者研究发现大语言模型对Mermaid 语言具备天然的生成优势。这也让MermaidFlow 与 LLM 的结合变得格外丝滑又强大🧠✨

MermaidFlow 中的安全演化策略:

工作流的自我升级之道

MermaidFlow 基于Mermaid 语言对智能体工作流进行显式建模,使每个任务节点、数据依赖与执行顺序都成为可视、可解析、可操作的语义单元。相比传统的命令式脚本,结构化表达更具模块化特性,支持按节点插入、删除与替换,天然适配图级别的优化操作。每一次结构调整都具备清晰的语义边界,显著降低了修改的不确定性与调试复杂度

得益于 MermaidFlow 引入的静态验证机制(如节点类型匹配、输入输出闭环、角色一致性等约束),每一代演化生成的工作流候选都能在生成阶段就进行结构合规性检查,过滤掉语义不完整或存在潜在风险的 「劣质图」。这种 「先验校验 + 后验优化」 的策略,显著提高了搜索空间的质量和鲁棒性,避免了大量无效或不合法的探索路径

图 2 MermaidFlow 的安全演化式优化流程概览。 本系统以结构化的 Mermaid 图表达作为工作流起点,通过安全约束的进化算法(Safety-Aware Evolutionary Programming)在类型保持(typed)、结构可感知(structure-aware)、静态可验证(static verifiable)等维度上持续优化工作流结构。

实验性能

MermaidFlow 不再依赖具备强编程能力的大语言模型,也能生成高质量的工作流。在 GSM8K、MATH、HumanEval、MBPP 等多个主流任务数据集上,MermaidFlow 均展现出优秀的性能,体现出较强的实用价值。更关键的是,得益于结构化表达与静态可验证机制,MermaidFlow 在进化流程中生成可执行且结构合理工作流的成功率超过 90%,相比于传统基于脚本拼接的方法,极大提升了智能体系统的可控性和鲁棒性,为智能体系统的稳健部署提供了坚实的支撑。

图 3 MermaidFlow 在主流任务上的评测结果。

下图展示了 MermaidFlow 在结构化表示下的进化过程示例。得益于每个节点及其连接关系均具备明确的语义边界,系统能够便捷且安全地进行局部片段的替换、重组与演化操作(如 crossover、节点替换、连边调整等)。图中演示了系统如何通过对 Workflow 5 和 Workflow 4 进行 crossover 操作,生成结构更健壮的 Workflow 8,引入了更优的 ensemble 与 test 模块。这一结构可控的演化机制,有效提升了工作流生成过程的安全性、可控性与可维护性。

图 4 MermaidFlow 灵活的工作流进化合成过程。

结语

随着多智能体系统和大模型 AI 持续演进,如何实现结构化、可验证与高效进化的工作流,已成为智能体研究的重要命题。MermaidFlow 提出的结构化可验证工作流表达方式,为智能体系统实现高效、可控的协作流程提供了基础支撑。未来的 AI 协作,也许正需要这样一套「看得见、查得清、能进化」的流程底座。随着应用领域的不断拓展与工程落地,这一框架有望为智能体生态的持续进步提供有益参考。

特别声明:该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

海尔主导一项ISO国际标准立项(海尔的核心能力是什么)

此次,由海尔专家担任召集人的WG10工作组负责该国际标准制定,不仅为中国家电行业在ISO国际标准主导立项层面创造了进一步突破,也在关键国际标准组织内占据实质性席位,成为近年中国企业深度参与全球技术治理、持续…

海尔主导一项ISO国际标准立项(海尔的核心能力是什么)

欧乐BiO7电动牙刷:口腔护理的智能革命,从此爱上刷牙(欧乐b700电动牙刷)

对于矫正牙齿的人群,iO7的敏感模式配合正畸刷头能温柔清洁托槽周围;咖啡茶饮爱好者则会爱上它的美白抛光模式,相当于每天给牙齿做微型洁牙。 想象这样的场景:清晨睡眼惺忪时,拿起iO7的瞬间,智能显示屏自动亮起…

欧乐BiO7电动牙刷:口腔护理的智能革命,从此爱上刷牙(欧乐b700电动牙刷)

家用马桶品牌哪个好?购买前看这马桶十大品牌榜就行,轻松选购!(家用马桶哪种好用)

惠达在2025年荣获马桶十大品牌,得益于其在产品、品牌与服务上的卓越表现。十大品牌榜单里,(箭牌、恒洁、东鹏、法恩莎、浪鲸、安华、康丽洁)7个广东品牌强势入围,福建漳州航标、厦门佳浴与河北唐山惠达也各占一席…

家用马桶品牌哪个好?购买前看这马桶十大品牌榜就行,轻松选购!(家用马桶哪种好用)

娱乐连连看:肖战、杨幂、陈飞宇、周也、陈慧琳、钟丽缇(娱乐连连看 王一博)

有人说,杨幂跟两年前可大不一样了,现在眼神里全是戏,演技提升得飞快,作品感染力也越来越强。这部作品对他来说太重要了,能不能重回热门艺人行列,就看这一回了。为了捧儿子,陈飞宇的父母也是下了血本,自掏腰包给他买…

娱乐连连看:肖战、杨幂、陈飞宇、周也、陈慧琳、钟丽缇(娱乐连连看 王一博)

近视眼要配近视泳镜吗_近视,近视眼,视力(眼近视必须配眼镜)

近视眼患者需要配戴近视泳镜以保护眼睛免受伤害并提高游泳体验。配戴近视泳镜可确保清晰的水下视力,使患者能够看到潜在危险如深水区、障碍物等,从而预防事故的发生。此外,对于深度感知差的近视眼患者来说,使用普通泳镜可能会感到不适甚至有溺水风险,而近

近视眼要配近视泳镜吗_近视,近视眼,视力(眼近视必须配眼镜)