智东西
作者 王涵
编辑 漠影
智东西8月27日报道,今天下午,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。
借助xDeepServe架构创新,该服务单芯片最高可实现2400TPS的吞吐量与50ms的TPOT(Token处理时延)。
一、中国日均Token消耗量暴增超300倍,接入超节点突破性能瓶颈
数据显示,过去18个月中国AI算力需求呈指数级增长。2024年初中国日均Token消耗量为1000亿,截至2025年6月底,这一数据已突破30万亿,1年半内增长超300倍,这对算力基础设施提出了更高要求。
2025年3月,华为云在传统按卡时计费模式基础上,推出基于MaaS(模型即服务)的Tokens服务,提供在线版、进线版、离线版及尊享版等多种规格,适配不同应用场景的性能与时延需求。
此次接入CloudMatrix384超节点后,依托超节点原生的xDeepServe框架,Tokens服务吞吐量从2025年初的1920TPS提升至2400TPS。
华为云认为,大算力构建需全栈创新,涵盖硬件、软件、算子、存储、推理框架及超节点等环节。
其中,CloudMatrix384超节点通过计算架构创新突破性能瓶颈;CANN昇腾硬件优化算子与通信策略;EMS弹性内存存储打破AI内存限制;xDeepServe分布式推理框架则以架构提升算力效率。
二、xDeepServe架构拆解模型,优化算力调用
作为CloudMatrix384超节点的原生服务,xDeepServe采用Transformerless极致分离架构,将MoE大模型拆解为Attention、FFN、Expert三个可独立伸缩的微模块,分配至不同NPU同步处理,再通过微秒级XCCL通信库与FlowServe自研推理引擎整合,形成Tokens处理“流水线”。
经优化后,单卡吞吐从非超节点的600tokens/s提升至2400tokens/s。
CANN作为硬件加速计算中间层,包含算子库、XCCL高性能通信库等组件。其中XCCL专为超节点大语言模型服务设计,可发挥CloudMatrix384扩展后UB互联架构的潜力,为架构分离提供带宽与时延支持。
FlowServe分布式引擎将CloudMatrix384划分为自治的DP小组,每个小组配备Tokenizer、执行器、RTC缓存与网络栈,可实现千卡并发无拥堵。
华为云透露,xDeepServe已实现MA分离,下一步计划将Attention、MoE、Decode改造为数据流,并扩展至多台超节点,以线性提升推理吞吐。
三、支持主流大模型与Agent平台,已落地多行业场景
目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等主流Agent平台。
在模型性能优化方面,文生图大模型通过Int8量化、旋转位置编码融合算子等方式,在轻微损失画质下,出图速度达到业界主流平台的2倍,最大支持2K×2K尺寸。
文生视频大模型通过量化、通算并行等手段,降低延迟与显存占用,性能较友商提升3.5倍。
应用层面,华为云已与超100家伙伴合作,在调研分析、内容创作、智慧办公、智能运维等领域开发AI Agent。
例如,基于MaaS平台的今日人才数智员工解决方案,集成自然语言处理、机器学习等技术,可提升服务效率与客户满意度;北京方寸无忧科技开发的无忧智慧公文解决方案,能助力政企办公智能化转型。
结语:华为云超节点让算力更适配AI应用需求
当前,AI技术正从模型研发向产业渗透加速迈进,而算力作为核心基础设施,其性能、成本与适配能力将直接决定着产业智能化的推进速度。
随着后续更多超节点扩展计划的推进,以及更多行业场景的深度适配,这类AI基础设施的升级,或将进一步降低企业接入AI技术的门槛,让技术更加深度地融入生活。