今天分享的是:2025基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术研究报告
报告共计:29页
智能IP广域网技术突破:破解企业AI训推安全与成本难题
在人工智能加速融入千行百业的当下,企业对模型训练与推理(简称“训推”)的算力需求呈爆炸式增长。然而,企业在追求高效用算的过程中,始终面临着数据安全与成本控制的双重挑战。近日,中国信息通信研究院与华为技术有限公司联合发布的《基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025年)》,为解决这一行业痛点提供了创新性技术方案,有望推动企业AI应用进入“安全高效、成本可控”的新阶段。
当前,企业解决AI训推算力需求主要有三种方式:自建算力中心、租赁算力『服务器』到本地使用、通过网络租用第三方智算中心资源。但这三种方式均存在明显短板:自建算力中心需大量资本与人员投入,中小企难以承担;租赁设备到本地虽能保障数据安全,却无法降低长期运维成本;通过网络租用云端算力则面临数据跨域传输泄露风险,且现有网络技术易因丢包、负载不均导致算效大幅下降。数据安全方面,国家提出“原始数据不出域”的治理理念,企业训练样本、微调数据及推理结果的跨域流动,都可能遭遇网络攻击、恶意篡改等安全威胁;成本方面,无论是自建算力的高投入,还是租用云端算力的算效损耗,都让企业用算成本居高不下。
针对这些痛点,研究报告提出的基于智能IP广域网的存算分离与云边协同训推技术方案,通过“存算分离模型微调训练”与“云边协同推理”两大场景,结合三大核心技术,实现了安全与成本的平衡。
在存算分离模型微调训练场景中,方案构建了“存、网、算、控”四位一体架构。企业将敏感样本数据存储在本地,仅通过智能IP广域网租用远端智算中心的算力卡。网络层面采用RDMA协议与EVPN over SRv6隧道技术,搭配精准流控与自动流级调度,确保数据在企业私有存储与远端算力中心间高效无损传输;控制层面依托SDN控制器,实现业务快速部署、流量可视与故障秒级感知。这种模式让企业敏感数据在园区外“不落盘”,既避免了数据泄露风险,又大幅降低了本地算力部署成本。实验室测试显示,即便在100公里、400公里的拉远场景下,算效仍能保持在97%以上,完全满足企业远程训练需求。
云边协同推理场景则通过“算、网、端”三层协同,进一步强化数据安全与成本优化。方案采用模型拆分学习技术,将模型首尾层部署在企业侧,中间计算量较大的层级部署在云端。企业侧仅需少量算力支撑首尾层运算与数据处理,原始数据全程不出园区;云端则负责中间层的复杂计算,双方仅传输经过处理的高维向量——这类向量无法还原原始数据,从根源上杜绝了数据泄露可能。网络层面同样采用RDMA无损网络,保障训推参数传输的高性能;端侧实现训推算力与网络的一体化部署,运维流程极大简化。测试数据显示,Qwen 32B模型在200公里云边协同推理场景下,算效劣化不超过5%,企业侧算力投入却大幅降低,完美契合轻量化用算需求。
支撑这两大场景落地的三大核心技术,各自发挥着关键作用。模型拆分学习技术通过分层部署模型,让企业关键数据闭环在本地,模型首尾层与中间层物理隔离,既保障数据安全,又实现“近端少算力+远端大算力”的资源优化配置;精准流控技术结合SRv6切片功能,能精准识别不同租户的流量特征,避免单一租户拥塞扩散影响整体算效,确保多租户共享带宽时的无损传输;自动流级调度技术则通过实时收集整网拓扑与流量信息,精准识别AI训推产生的“大象流”,动态调整最优传输路径,解决传统静态调度的负载不均问题,提升整网带宽利用率,间接降低企业用算成本。
从行业应用来看,这项技术方案已展现出广泛适配性。在金融领域,可支撑智能投顾、信贷风控等场景的安全训推,保护用户财务数据;政府场景下,能保障公文写作、城市治理等业务的数据合规;医疗行业中,可实现病毒筛选、辅助诊断等数据的本地闭环,规避患者隐私泄露风险;制造、能源、交通等领域也能借助该方案,在降低算力成本的同时,保障生产数据安全。
目前,该技术方案已在实验室环境下完成多轮验证,后续将进一步扩大场景覆盖,在医疗、金融、政务等敏感行业开展试点落地,形成可复制的应用案例。同时,相关机构还将推进技术标准化工作,联合产业链各方制定统一规范,提升技术兼容性,构建健康的AI用算生态。随着智能IP广域网技术的不断成熟,企业在AI时代的安全用算需求将得到更好满足,为各行业智能化转型注入新动能。
以下为报告节选内容
报告共计: 29页
中小未来圈,你需要的资料,我这里都有!