专题|微众银行构建全栈自主的AI智算网络

专题|微众银行构建全栈自主的AI智算网络

文/微众银行基础科技产品部 杨俊杰 臧杰东 南斗玄 崔嘉伟

随着AI应用的深入,模型参数规模指数级增长,传统算力网络在带宽、时延和扩展性上的瓶颈日益凸显。为了进一步提升网络带宽容量和传输效率,有效缩短模型训练周期,更好地服务业务发展,微众银行面向金融行业的AI智算场景,基于自主可控交换芯片、开源操作系统,推出了金融行业首款自研交换机,并构建了软硬件全栈自主可控的AI智算网络解决方案。

目前,这款交换机已在微众银行生产运营环境正式投入使用,最高可满足单端口400G GPU/NPU算力卡的组网需求,建网成本较过往节省约70%,为微众银行迈向AI原生奠定重要基础。DeepSeek开源模型发布后,微众银行亦基于已建成的高性能AI智算网络解决方案,快速实现DeepSeek-R1-671B满血版推理模型的本地化部署。

挑战

1. AI分布式训练常遇“拦路虎”

在大规模训练中,多节点分布式训练技术是主流方案,且跨节点通信多采用成本效益高并易于扩展的无损以太网。

在以太网中,大规模部署高性能计算网络通常采用多级CLOS的架构来实现无阻塞的网络,其中网络中的交换机之间,通过等价多路径ECMP(Equal-Cost Multi-Path)实现流量的负载均衡。在网络流量为众多小流时,ECMP流量负载分担成效显著,但在高性能计算网络中,ECMP往往因流量的低熵特性而影响哈希处理效果,容易因多股大流挤压在同一条链路上而造成拥塞,无法满足金融业对高带宽、低时延、零丢包的严苛要求。因此,在基于以太网开展大规模AI分布式训练时,往往因多链路流量负载分担不均,而横生网络拥塞“拦路虎”。

2. 易被外部商用方案处处“卡脖子”

在数字化转型趋势和地缘政治叠加影响下,金融机构普遍存在核心技术自主可控并兼顾开放性特色的需求,希望能够兼容不同品牌和技术路线的软硬件,以增强供应链管理的安全与弹性。

就AI智算场景而言,硬件上采用适配金融业务的自主可控CPU、交换芯片,可削减复杂供应链的潜在隐患,为金融服务的稳定与安全提供保障;软件上采纳开源技术,根据业务特性定制化开发网络操作系统、高性能网络智能管控平台,金融机构能够训练出更加贴合业务需求的大模型。同时,随着业务模型的不断演进,自研软件在敏捷迭代方面优势显著,进而使得金融机构在优化服务流程、提高应对市场变化灵活性等方面更具竞争力。

然而,目前无论是硬件还是软件,在迭代优化上,更多的还是依赖外部商用单点优化解决方案,不仅成本高昂,还只能“头痛医头脚痛医脚”,处处被“卡脖子”。

破题

面对种种挑战,微众银行另辟蹊径,深度拆解自身业务发展需求,面向AI智算场景打造高性能AI智算网络解决方案。方案从硬件层的交换机到软件层的网络操作系统,再到秒级监控的智能管控,实现AI智算场景下的全栈自主可控,既保障金融供应链安全,又实现软硬件解耦与灵活组合配置,解决方案架构见图所示。

图 微众银行AI智算网络解决方案架构

1. 自研交换机

硬件方面,微众银行在金融行业开创性地使用12.8T交换芯片、信创CPU打造了型号为“WB3000”的专属交换机。该交换机基于单芯片与单协议栈架构,采用标准1U数据中心盒式设计,具备32个400G端口的接入能力,能够满足100G、200G及400G等多种型号GPU及NPU算力卡在无损以太网环境下的组网需求;支持数据中心各种标准路由协议;支持RDMA无损以太网的PFC、ECN等关键特性,并针对NCCL、HCCL等国内外主流厂商的集合通信库完成了测试与适配工作。

微众银行自研交换机

这一成果为微众银行自身面向AI智算场景的训练、推理提供了强有力的技术保障,在企业金融风控大模型的应用中,实测训练时长大幅缩短。DeepSeek开源模型发布后,该交换机迅速支撑微众银行完成DeepSeek-R1-671B满血版推理模型的本地化部署,不仅保证了模型的高效可用性,更确保了金融数据的安全性和合规性,为模型在实际业务中的稳定运行奠定了坚实基础。同时,对行业而言,该交换机也为同业在AI算力卡的选型方面拓展了更多可能性,有助于推动金融行业在AI算力网络建设领域的进一步发展与优化。

2. 自研网络操作系统

软件方面,微众银行基于开源SONiC(Software for Open Networking in The Cloud,即“云中开放网络软件”)深度自研,打造金融行业高性能、高可靠、智能化的网络操作系统。

针对大模型分布式训练时的流量模型,微众银行结合信创交换芯片SAI接口提供的确定性Hash能力,在网络操作系统层面,创新开发了适应不同组网架构、可自定义的链路级负载分担组件Link-SLB,解决大规模部署无损以太网时因ECMP不均引起Hash冲突而导致的网络拥塞难题,并适配了各算力卡机间的跨集群组网。

该组件的关键特性:一是确定性Hash能力,通过流量Hash路径的预配置,低熵大流量能够按规划进行无冲突地转发,对比传统五元组Hash方式,实测集合通信算法带宽可提升近40%。二是差异化分层策略,针对CLOS架构的Spine/Leaf层级,差异化配置负载分担策略。三是毫秒级容灾切换,链路故障的场景下,毫秒级响应并将流量切换到预配置的备用链路上,快速恢复传统五元组Hash的能力,能有效缩小故障影响范围和时长,保障训练任务持续稳定运行。

受益于开源,反哺回馈社区。在研发网络操作系统的过程中,积极将成果开源回馈SONiC社区,贡献了自主研发的ARP保活特性代码,助力改进SONiC系统处理部分网络协议的方式,提高了整个系统的运行效率。微众银行也因此成为全球首家上榜SONiC社区贡献组织名单(Contributing Organizations List)的金融机构。

3. 自研智能网络管控系统

日常AI训练过程中,如何快人一步发现网络拥塞并妥当处理更为重要。为此,微众银行自研针对高性能无损以太网的智能网络管控系统,为AI智算网络提供智能化调度的“全知视角”。

一是拥塞秒级感知,针对AI训练场景下网络拥塞调度的场景,智能网络管控系统的控制器通过采用Telemetry秒级采集方式,提供了颗粒度更小、敏感度更高的数值监控(如接口流量、PFC计数等),并且联动自研告警判定组件,实现设备性能指标、拥塞指标的快速感知与精准定位。二是最优路径调度,基于网络实时拓扑自动计算并调度至最优新路径,且同步对新路径进行容量评估,避免产生新拥塞。三是持续可视监控,拥塞调度全程数据可视,包括采集指标、交换机内部转发时延、IFA链路转发时延、sFlow流量分析、运营视图等,训练任务结束后,控制器对完成的调度策略自动回收,避免旧调度干扰新任务。

展望

十年风华,微众银行作为中国首家数字银行,始终坚持通过自主可控的科技创新,稳步推动金融服务迈向新的高度。面对人工智能技术蓬勃发展的历史性机遇,微众银行在AI智算场景下走出了一条软硬件全栈自主可控的道路,不仅为金融业AI算力网络建设提供了可复制经验,也是推动信创技术生态发展的有力支持。

未来,微众银行将持续深耕AI智算场景,基于自主可控25.6T和51.2T交换芯片,持续迭代更高性能的交换机及网络操作系统,以应对更大规模、更高带宽的AI智算网络需求。同时,微众银行也将进一步总结提炼在智能网络管控方面的经验,计划未来形成标准化公共组件向全球开源共享,为金融领域网络智慧运营和高性能网络运营提供思路启发,协力探讨更数智化的未来。

(此文刊发于《金融电子化》2025年4月上半月刊)

猜你喜欢

pvdf增塑是什么

PVDF增塑是通过添加增塑剂改善其柔韧性、加工性能及低温性能的技术手段,在保持其核心优势的同时拓展应用场景。 - 降低玻璃化转变温度(Tg):纯PVDF的Tg约为-40℃,增塑后可进一步降低至-60℃以下,改…

pvdf增塑是什么

活成“济公”传奇,92岁游本昌讲“死过一次”,笑中带泪感动全场

原本父母期望着这孩子能够为家里带来些许的希望,然而他一出生便体弱多病,常常咳嗽、发烧、抽搐,几乎没有几天是安稳的。剧中没有一句台词,全凭肢体语言,却让观众明白了所有的情感和故事。 这就是游本昌,一生都在用自己…

活成“济公”传奇,92岁游本昌讲“死过一次”,笑中带泪感动全场

啥玩意儿?女子在车上发现“人脸蜘蛛”,“浓妆艳抹”眼影口红都有?专家解答→

此前华希昆虫博物馆馆长赵力在接受媒体采访时表示,我们常说的“人脸蜘蛛”是三突尹氏蛛,一般体长4-6毫米,体色多变,有绿、白、黄色。 赵力还科普了多种典型的人面蜘蛛,包括像张飞脸谱的库氏棘腹蛛、像叶猴的跳蛛、…

啥玩意儿?女子在车上发现“人脸蜘蛛”,“浓妆艳抹”眼影口红都有?专家解答→

百度:今日起正式开源文心大模型4.5系列

人民财讯6月30日电,6月30日,百度正式开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。…

百度:今日起正式开源文心大模型4.5系列

2025 年意大利国际制冷及冷冻技术展会

REFRIGERA 是专门针对欧洲工业、商业和物流等整个生产链的领先制冷展会。 REFRIGERA作为欧洲及全球最专业冷藏及冷冻技术展会,极具影响力的行业专注度及出色的展会效果,已吸引了全球众多制冷品牌企业…

2025 年意大利国际制冷及冷冻技术展会