破解300倍算力增长瓶颈，华为云Tokens服务全面接入384超节点(破解算力是什么意思) #科技 #架构 #华为 #算子 #模型 #节点

智东西

作者王涵

编辑漠影

智东西8月27日报道，今天下午，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点。

借助xDeepServe架构创新，该服务单『芯片』最高可实现2400TPS的吞吐量与50ms的TPOT（Token处理时延）。

一、中国日均Token消耗量暴增超300倍，接入超节点突破性能瓶颈

数据显示，过去18个月中国AI算力需求呈指数级增长。2024年初中国日均Token消耗量为1000亿，截至2025年6月底，这一数据已突破30万亿，1年半内增长超300倍，这对算力基础设施提出了更高要求。

2025年3月，华为云在传统按卡时计费模式基础上，推出基于MaaS（模型即服务）的Tokens服务，提供在线版、进线版、离线版及尊享版等多种规格，适配不同应用场景的性能与时延需求。

此次接入CloudMatrix384超节点后，依托超节点原生的xDeepServe框架，Tokens服务吞吐量从2025年初的1920TPS提升至2400TPS。

华为云认为，大算力构建需全栈创新，涵盖硬件、软件、算子、存储、推理框架及超节点等环节。

其中，CloudMatrix384超节点通过计算架构创新突破性能瓶颈；CANN昇腾硬件优化算子与通信策略；EMS弹性内存存储打破AI内存限制；xDeepServe分布式推理框架则以架构提升算力效率。

二、xDeepServe架构拆解模型，优化算力调用

作为CloudMatrix384超节点的原生服务，xDeepServe采用Transformerless极致分离架构，将MoE大模型拆解为Attention、FFN、Expert三个可独立伸缩的微模块，分配至不同NPU同步处理，再通过微秒级XCCL通信库与FlowServe自研推理引擎整合，形成Tokens处理“流水线”。

经优化后，单卡吞吐从非超节点的600tokens/s提升至2400tokens/s。

CANN作为硬件加速计算中间层，包含算子库、XCCL高性能通信库等组件。其中XCCL专为超节点『大语言模型』服务设计，可发挥CloudMatrix384扩展后UB互联架构的潜力，为架构分离提供带宽与时延支持。

FlowServe分布式引擎将CloudMatrix384划分为自治的DP小组，每个小组配备Tokenizer、执行器、RTC缓存与网络栈，可实现千卡并发无拥堵。

华为云透露，xDeepServe已实现MA分离，下一步计划将Attention、MoE、Decode改造为数据流，并扩展至多台超节点，以线性提升推理吞吐。

三、支持主流大模型与Agent平台，已落地多行业场景

目前，华为云MaaS服务已支持『DeepSeek』、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型，以及versatile、Dify、扣子等主流Agent平台。

在模型性能优化方面，文生图大模型通过Int8量化、旋转位置编码融合算子等方式，在轻微损失画质下，出图速度达到业界主流平台的2倍，最大支持2K×2K尺寸。

文生视频大模型通过量化、通算并行等手段，降低延迟与显存占用，性能较友商提升3.5倍。

应用层面，华为云已与超100家伙伴合作，在调研分析、内容创作、智慧办公、智能运维等领域开发AI Agent。

例如，基于MaaS平台的今日人才数智员工解决方案，集成自然语言处理、机器学习等技术，可提升服务效率与客户满意度；北京方寸无忧科技开发的无忧智慧公文解决方案，能助力政企办公智能化转型。

结语：华为云超节点让算力更适配AI应用需求

当前，AI技术正从模型研发向产业渗透加速迈进，而算力作为核心基础设施，其性能、成本与适配能力将直接决定着产业智能化的推进速度。

随着后续更多超节点扩展计划的推进，以及更多行业场景的深度适配，这类AI基础设施的升级，或将进一步降低企业接入AI技术的门槛，让技术更加深度地融入生活。

破解300倍算力增长瓶颈，华为云Tokens服务全面接入384超节点(破解算力是什么意思)

猜你喜欢

著名自费出版机构大盘点，宣传推广强的它们值得关注(自费出版需要多少钱)

婴幼儿缺铁性贫血是怎么引起的原因(婴幼儿缺铁性贫血是缺什么引起的)

沉香利气丸包括哪些有效成分产生哪些功效(沉香益气丸有什么功效)

她是《喜盈门》强英妈，3任丈夫都是『明星』️，女婿曾任上影剧团团长(小说喜盈门)

金柯桥医院以信赖为基细节打磨高品质医美服务(金柯桥医院正规吗?)