改写HBM依赖：华为“出牌”UCM #科技 #成本 #推理 #技术 #华为 #模型

全球AI算力竞争与供应链重构正值关键节点。

8月12日，华为在上海“2025金融AI推理应用落地与发展论坛”上，正式发布AI推理创新技术UCM（推理记忆数据管理器），直指目前中国AI产业长期面临的推理效率低下与HBM（高带宽内存）依赖两大“顽疾”。

论坛上，华为跟中国银联达成合作，在银联的“客户之声”“营销策划”“办公助手”三大核心业务场景加速试点验证。

不仅如此，华为还计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything（共享架构）存储厂商和生态伙伴。

以软代硬

进入AI时代，HBM逐渐成为各大模型厂商必需的基础设施。

IDC预测，2025年，中国智能算力规模将达到1037.3EFLOPS，同比增长43%。然而，传统“存储墙”问题——即存储系统性能限制导致计算机整体性能无法有效提升，已成为算力提升的重大瓶颈。

而高带宽内存芯片（HBM），作为专为应对数据密集型应用对内存带宽严苛需求而设计的新型存储芯片，属于DRAM（动态随机存取存储器）家族中的高端分支。与传统内存芯片相比，HBM芯片最大特点在于采用了先进的3D堆叠技术，通过硅通孔（TSV）将多个DRAM芯片垂直堆叠在一起，并与GPU或CPU等处理器封装在同一模块中，实现了大容量、高位宽的DDR组合阵列，能有效解决“存储墙”问题。

因此，当前AI算力生态高度依赖HBM硬件升级。

但全球90%以上的HBM产能集中于三星（SSNLF）、SK 海力士、美光（MU）三家企业，且受美国技术管制影响，国产AI芯片面临供应受限困境。美国自2025年1月起全面禁运HBM 2E及以上规格芯片，导致国内企业“巧妇难为无米之炊”。

而UCM，正是华为为摆脱严重依赖HBM而创新的技术。

“AI时代后，Token（词元）经济时代到来，目前推理过程仍存不少挑战，如何改进推理系统的体验和效率是一个重要的话题。与中国银联合作落地UCM，对于AI推理的效率来说是一个有效突破。”华为副总裁、数据存储总裁周跃峰表示。

所谓UCM，即推理记忆数据管理器，是一款以KV Cache（键值缓存）和记忆管理为核心的推理加速套件，包括对接不同引擎与算力的推理引擎插件（Connector）、支持多级KV Cache管理及加速算法的功能库（Accelerator）、高性能KV Cache存取适配器（Adapter）三大组件。

华为方面介绍称，依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。同时，UCM将超长序列Cache分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口10倍级扩展，满足长文本处理需求。

UCM具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD（固态硬盘）等存储介质中实现按需流动；同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本，为企业减负增效。

简而言之，UCM能通过软件及算法革新打破传统硬件依赖，为国产AI算力自主化另辟蹊径。以推理框架、算力和存储的协同，优化Token在各业务环节中的流转效率，最终实现AI推理的性价比体验。

例如，在中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题。

另据公开数据，2025年5月，字节跳动（以下简称“字节”）旗下的，同比增加137倍，服务器运营及电力消耗成本猛增。若UCM能成为国产大模型厂商的解决方案，能耗问题或亦能相应优化。

破局AI困境

“高延迟、高成本是当下AI推理领域发展的主要挑战。”华为数字金融军团CEO曹冲在会上表示。相比OpenAI等国际巨头，当前中国AI推理领域仍面临不小差距，普遍存在推理速度慢、长文本处理难、算力成本高等问题。

性能上，与国外先进模型存在代差。国外主流模型的单用户输出速度，已达200 Tokens/s区间，且时延仅5毫秒；国内普遍低于60 Tokens/s且时延高达50-100毫秒。

此外，国内大模型企业还面临成本持续高企和硬件封锁困境。

随着AI模型日益复杂，AI系统需要容量更大、延迟更低、带宽更高、能效更高的内存。不同类型的内存各有优缺点，HBM在容量和带宽之间的表现相较于其他内存更加均衡，从而让HBM占AI服务器成本比重持续攀升。

字节预计2025年资本开支达1600亿元，其中约900亿元用于AI算力采购；最近正在计划IPO（首次公开募股）的，2025年第一季度采购HBM的成本，已占其总采购额的50.21%。

即使近期中美双方就HBM出口管制放行正进行协商，国产替代仍刻不容缓。国内以长鑫存储为代表的HBM供应商，虽已经实现了从0到1的突破，但是要追上国际主流水平仍有很长的一段路要走。目前，长鑫存储预计年内量产的HBM2良率仍然有限。

华为此次发布的UCM，正是一条“存算协同”的道路。在先进制程受限的情况下，通过降低AI训练与推理对HBM的依赖，以系统级的创新绕开制程限制，将存储等芯片上劣势转化为架构上的优势。

UCM的智能分级缓存能力，可将AI推理所需数据从DRAM内存迁移至SSD闪存介质，以此优化计算效率。其核心价值在于降低对HBM和GPU的过度依赖，并实现“存算一体”系统创新。该技术的本质是存储层的扩展，而非替代DRAM。

而选择金融领域作为首发，也是华为的“算盘”之一。金融领域对AI推理的实时性、稳定性和安全性要求极高，对于高频操作和智能风控的要求远超其他行业。华为与中国银联的合作，证明其成果已通过金融级严苛场景验证，未来可向多个领域辐射，加速AI推理技术规模化落地。

“用AI处理更高级别的问题，信息量和数据输出会更大，UCM则能够大幅优化成本。今天发布的UCM，是华为第一次提供如此完整的全流程、全场景且可演进的系统性方案。从单点算力模组转向系统级优化，是一个大的变化和趋势。业界有很多开源方案有类似的方向，有的是做了其中某一层或某一些组件，但是并未看到可商用的端到端完整方案。”华为数据存储产品线AI存储首席架构师李国杰表示。

李国杰还透露称，“UCM大概从2024年6-7月份开始孵化，至今差不多一年，仅是算法方面就有百人级团队投入，未来会面向Agentic AI做更深演进，可能会继续增加投入。”