AI产业的迅速发展催生了巨大的算力需求,但全球算力资源利用率低的问题日益突出。具体表现为小模型任务独占整张GPU或NPU导致资源闲置,大模型任务则因单机算力不足而难以运行,许多通用『服务器』由于缺乏GPU或NPU处于算力“休眠”状态,供需不匹配造成了资源浪费。
11月21日,在2025 AI容器应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周跃峰发布了AI容器技术Flex:ai。该技术通过算力切分,将单张GPU或NPU切分为多个虚拟算力单元,最小切分粒度可达10%。这使得单卡可以同时承载多个AI工作负载,提高了算力资源平均利用率约30%。
面对先进制程受限及单颗AI『芯片』性能与国外存在差距的情况,Flex:ai延续了华为“以软件补硬件”的策略。这项新技术还将对标『英伟达』于2024年底收购的以色列公司Run:ai。Run:ai基于Kubernetes构建的软件平台,通过动态调度、池化和分片等手段优化GPU资源使用。例如,自动驾驶公司Wayve利用Run:ai将其GPU集群效率从不到25%提升到80%以上。华为的Flex:ai同样致力于通过软件创新实现对包括『英伟达』、昇腾在内的第三方算力进行统一管理和调度,屏蔽底层硬件差异,为AI应用提供更高效稳定的资源支持。
与主要服务于『英伟达』GPU生态的Run:ai不同,Flex:ai没有生态限制,支持『英伟达』GPU和华为昇腾NPU等多种算力卡。Flex:ai的能力已在实际场景中得到验证。瑞金医院与华为合作开发的多模态病理大模型“RuiPath”,用于识别19种常见癌症的病理切片病灶区域。该模型基于103万张病理切片训练而成,仅用16张昇腾910B算力卡就完成了大规模训练。背后的技术支撑来自Flex:ai,它通过算力资源切分和智能任务调度等技术,将XPU资源可用度从40%提高到了70%,解决了有限算力下的大规模训练问题。
IT研究与咨询公司Gartner的分析师指出,目前大多数AI负载已采用容器化部署和运行。预计到2027年,超过75%的AI工作负载将使用容器技术进行部署和运行。华为表示,Flex:ai将在发布后同步开源在魔擎社区,并与华为此前开源的多款AI工具共同构成完整的ModelEngine开源生态系统。




