专题|微众银行构建全栈自主的AI智算网络

专题|微众银行构建全栈自主的AI智算网络

文/微众银行基础科技产品部 杨俊杰 臧杰东 南斗玄 崔嘉伟

随着AI应用的深入,模型参数规模指数级增长,传统算力网络在带宽、时延和扩展性上的瓶颈日益凸显。为了进一步提升网络带宽容量和传输效率,有效缩短模型训练周期,更好地服务业务发展,微众银行面向金融行业的AI智算场景,基于自主可控交换芯片、开源操作系统,推出了金融行业首款自研交换机,并构建了软硬件全栈自主可控的AI智算网络解决方案。

目前,这款交换机已在微众银行生产运营环境正式投入使用,最高可满足单端口400G GPU/NPU算力卡的组网需求,建网成本较过往节省约70%,为微众银行迈向AI原生奠定重要基础。DeepSeek开源模型发布后,微众银行亦基于已建成的高性能AI智算网络解决方案,快速实现DeepSeek-R1-671B满血版推理模型的本地化部署。

挑战

1. AI分布式训练常遇“拦路虎”

在大规模训练中,多节点分布式训练技术是主流方案,且跨节点通信多采用成本效益高并易于扩展的无损以太网。

在以太网中,大规模部署高性能计算网络通常采用多级CLOS的架构来实现无阻塞的网络,其中网络中的交换机之间,通过等价多路径ECMP(Equal-Cost Multi-Path)实现流量的负载均衡。在网络流量为众多小流时,ECMP流量负载分担成效显著,但在高性能计算网络中,ECMP往往因流量的低熵特性而影响哈希处理效果,容易因多股大流挤压在同一条链路上而造成拥塞,无法满足金融业对高带宽、低时延、零丢包的严苛要求。因此,在基于以太网开展大规模AI分布式训练时,往往因多链路流量负载分担不均,而横生网络拥塞“拦路虎”。

2. 易被外部商用方案处处“卡脖子”

数字化转型趋势和地缘政治叠加影响下,金融机构普遍存在核心技术自主可控并兼顾开放性特色的需求,希望能够兼容不同品牌和技术路线的软硬件,以增强供应链管理的安全与弹性。

就AI智算场景而言,硬件上采用适配金融业务的自主可控CPU、交换芯片,可削减复杂供应链的潜在隐患,为金融服务的稳定与安全提供保障;软件上采纳开源技术,根据业务特性定制化开发网络操作系统、高性能网络智能管控平台,金融机构能够训练出更加贴合业务需求的大模型。同时,随着业务模型的不断演进,自研软件在敏捷迭代方面优势显著,进而使得金融机构在优化服务流程、提高应对市场变化灵活性等方面更具竞争力。

然而,目前无论是硬件还是软件,在迭代优化上,更多的还是依赖外部商用单点优化解决方案,不仅成本高昂,还只能“头痛医头脚痛医脚”,处处被“卡脖子”。

破题

面对种种挑战,微众银行另辟蹊径,深度拆解自身业务发展需求,面向AI智算场景打造高性能AI智算网络解决方案。方案从硬件层的交换机到软件层的网络操作系统,再到秒级监控的智能管控,实现AI智算场景下的全栈自主可控,既保障金融供应链安全,又实现软硬件解耦与灵活组合配置,解决方案架构见图所示。

图 微众银行AI智算网络解决方案架构

1. 自研交换机

硬件方面,微众银行在金融行业开创性地使用12.8T交换芯片、信创CPU打造了型号为“WB3000”的专属交换机。该交换机基于单芯片与单协议栈架构,采用标准1U数据中心盒式设计,具备32个400G端口的接入能力,能够满足100G、200G及400G等多种型号GPU及NPU算力卡在无损以太网环境下的组网需求;支持数据中心各种标准路由协议;支持RDMA无损以太网的PFC、ECN等关键特性,并针对NCCL、HCCL等国内外主流厂商的集合通信库完成了测试与适配工作。

微众银行自研交换机

这一成果为微众银行自身面向AI智算场景的训练、推理提供了强有力的技术保障,在企业金融风控大模型的应用中,实测训练时长大幅缩短。DeepSeek开源模型发布后,该交换机迅速支撑微众银行完成DeepSeek-R1-671B满血版推理模型的本地化部署,不仅保证了模型的高效可用性,更确保了金融数据的安全性和合规性,为模型在实际业务中的稳定运行奠定了坚实基础。同时,对行业而言,该交换机也为同业在AI算力卡的选型方面拓展了更多可能性,有助于推动金融行业在AI算力网络建设领域的进一步发展与优化。

2. 自研网络操作系统

软件方面,微众银行基于开源SONiC(Software for Open Networking in The Cloud,即“云中开放网络软件”)深度自研,打造金融行业高性能、高可靠、智能化的网络操作系统。

针对大模型分布式训练时的流量模型,微众银行结合信创交换芯片SAI接口提供的确定性Hash能力,在网络操作系统层面,创新开发了适应不同组网架构、可自定义的链路级负载分担组件Link-SLB,解决大规模部署无损以太网时因ECMP不均引起Hash冲突而导致的网络拥塞难题,并适配了各算力卡机间的跨集群组网。

该组件的关键特性:一是确定性Hash能力,通过流量Hash路径的预配置,低熵大流量能够按规划进行无冲突地转发,对比传统五元组Hash方式,实测集合通信算法带宽可提升近40%。二是差异化分层策略,针对CLOS架构的Spine/Leaf层级,差异化配置负载分担策略。三是毫秒级容灾切换,链路故障的场景下,毫秒级响应并将流量切换到预配置的备用链路上,快速恢复传统五元组Hash的能力,能有效缩小故障影响范围和时长,保障训练任务持续稳定运行。

受益于开源,反哺回馈社区。在研发网络操作系统的过程中,积极将成果开源回馈SONiC社区,贡献了自主研发的ARP保活特性代码,助力改进SONiC系统处理部分网络协议的方式,提高了整个系统的运行效率。微众银行也因此成为全球首家上榜SONiC社区贡献组织名单(Contributing Organizations List)的金融机构。

3. 自研智能网络管控系统

日常AI训练过程中,如何快人一步发现网络拥塞并妥当处理更为重要。为此,微众银行自研针对高性能无损以太网的智能网络管控系统,为AI智算网络提供智能化调度的“全知视角”。

一是拥塞秒级感知,针对AI训练场景下网络拥塞调度的场景,智能网络管控系统的控制器通过采用Telemetry秒级采集方式,提供了颗粒度更小、敏感度更高的数值监控(如接口流量、PFC计数等),并且联动自研告警判定组件,实现设备性能指标、拥塞指标的快速感知与精准定位。二是最优路径调度,基于网络实时拓扑自动计算并调度至最优新路径,且同步对新路径进行容量评估,避免产生新拥塞。三是持续可视监控,拥塞调度全程数据可视,包括采集指标、交换机内部转发时延、IFA链路转发时延、sFlow流量分析、运营视图等,训练任务结束后,控制器对完成的调度策略自动回收,避免旧调度干扰新任务。

展望

十年风华,微众银行作为中国首家数字银行,始终坚持通过自主可控的科技创新,稳步推动金融服务迈向新的高度。面对人工智能技术蓬勃发展的历史性机遇,微众银行在AI智算场景下走出了一条软硬件全栈自主可控的道路,不仅为金融业AI算力网络建设提供了可复制经验,也是推动信创技术生态发展的有力支持。

未来,微众银行将持续深耕AI智算场景,基于自主可控25.6T和51.2T交换芯片,持续迭代更高性能的交换机及网络操作系统,以应对更大规模、更高带宽的AI智算网络需求。同时,微众银行也将进一步总结提炼在智能网络管控方面的经验,计划未来形成标准化公共组件向全球开源共享,为金融领域网络智慧运营和高性能网络运营提供思路启发,协力探讨更数智化的未来。

(此文刊发于《金融电子化》2025年4月上半月刊)

特别声明:[专题|微众银行构建全栈自主的AI智算网络] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

芙绒2025新款棉床褥垫子床垫提花榻榻米薄塔,让你的睡眠如梦似幻!💖(ps怎么画点阵)

想要一夜好眠?芙绒2025新款棉床褥垫子床垫提花榻榻米薄塔,以超凡的舒适度和美观的设计,让你的睡眠质量全面提升。无论你是追求极致舒适,还是注重外观美感,这款床垫都能满足你的需求,让你的卧室焕然一新。💖

芙绒2025新款棉床褥垫子床垫提花榻榻米薄塔,让你的睡眠如梦似幻!💖(ps怎么画点阵)

淘宝联盟佣金暴涨?1000元任务60人点击7成交,安全升级后还能玩吗?(淘宝联盟佣金暴涨)

最近不少淘客发现:原本轻松赚取的高佣金任务突然变难了!1000元任务仅7人成交,点击量却高达60人,这是不是平台在“暗中调价”?别慌!这背后是淘宝联盟系统全面升级后的流量分配逻辑重构——从“唯点击论”转向“真实转化优先”,新手淘客如何破局?

淘宝联盟佣金暴涨?1000元任务60人点击7成交,安全升级后还能玩吗?(淘宝联盟佣金暴涨)

帅呆!韩国低调大佬的超硬核黑白稿,头像线稿素材赢麻了-7.GAME(韩国帅帅的男演员🎭️)

来自韩国的低调概念设计师,插画师。擅长以线条的疏密关系营造画面的光影造型,虽然只是男性♂️头像,但细看画面细节十分丰富,对于线稿的对比造型功底十分强悍。喜欢机械设计的朋友看过来! 【花先舍】<科幻机械设计班 …

帅呆!韩国低调大佬的超硬核黑白稿,头像线稿素材赢麻了-7.GAME(韩国帅帅的男演员🎭️)

国产积木拼搭:可爱的方仔照相馆(国产积木玩具)

国产积木拼搭:可爱的方仔照相馆(国产积木玩具)

3斤礼盒装云南墨江紫糯米:舌尖上的黑珍珠,品味千年梯田的馈赠✨(云南三匕多少钱一斤)

想不想尝一口来自千年梯田的馈赠?云南墨江紫糯米,被誉为“黑珍珠”的美食,不仅口感香糯,而且营养价值高。这不仅仅是一份食物,更是文化和历史的传承。今天,就让我们一起走进云南墨江,探索这份生态种植的美味吧!✨

3斤礼盒装云南墨江紫糯米:舌尖上的黑珍珠,品味千年梯田的馈赠✨(云南三匕多少钱一斤)