破解300倍算力增长瓶颈,华为云Tokens服务全面接入384超节点(破解算力是什么意思)

破解300倍算力增长瓶颈,华为云Tokens服务全面接入384超节点(破解算力是什么意思)

智东西

作者 王涵

编辑 漠影

智东西8月27日报道,今天下午,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。

借助xDeepServe架构创新,该服务单芯片最高可实现2400TPS的吞吐量与50ms的TPOT(Token处理时延)。

一、中国日均Token消耗量暴增超300倍,接入超节点突破性能瓶颈

数据显示,过去18个月中国AI算力需求呈指数级增长。2024年初中国日均Token消耗量为1000亿,截至2025年6月底,这一数据已突破30万亿,1年半内增长超300倍,这对算力基础设施提出了更高要求。

2025年3月,华为云在传统按卡时计费模式基础上,推出基于MaaS(模型即服务)的Tokens服务,提供在线版、进线版、离线版及尊享版等多种规格,适配不同应用场景的性能与时延需求。

此次接入CloudMatrix384超节点后,依托超节点原生的xDeepServe框架,Tokens服务吞吐量从2025年初的1920TPS提升至2400TPS。

华为云认为,大算力构建需全栈创新,涵盖硬件、软件、算子、存储、推理框架及超节点等环节。

其中,CloudMatrix384超节点通过计算架构创新突破性能瓶颈;CANN昇腾硬件优化算子与通信策略;EMS弹性内存存储打破AI内存限制;xDeepServe分布式推理框架则以架构提升算力效率。

二、xDeepServe架构拆解模型,优化算力调用

作为CloudMatrix384超节点的原生服务,xDeepServe采用Transformerless极致分离架构,将MoE大模型拆解为Attention、FFN、Expert三个可独立伸缩的微模块,分配至不同NPU同步处理,再通过微秒级XCCL通信库与FlowServe自研推理引擎整合,形成Tokens处理“流水线”。

经优化后,单卡吞吐从非超节点的600tokens/s提升至2400tokens/s。

CANN作为硬件加速计算中间层,包含算子库、XCCL高性能通信库等组件。其中XCCL专为超节点大语言模型服务设计,可发挥CloudMatrix384扩展后UB互联架构的潜力,为架构分离提供带宽与时延支持。

FlowServe分布式引擎将CloudMatrix384划分为自治的DP小组,每个小组配备Tokenizer、执行器、RTC缓存与网络栈,可实现千卡并发无拥堵。

华为云透露,xDeepServe已实现MA分离,下一步计划将Attention、MoE、Decode改造为数据流,并扩展至多台超节点,以线性提升推理吞吐。

三、支持主流大模型与Agent平台,已落地多行业场景

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等主流Agent平台。

在模型性能优化方面,文生图大模型通过Int8量化、旋转位置编码融合算子等方式,在轻微损失画质下,出图速度达到业界主流平台的2倍,最大支持2K×2K尺寸。

文生视频大模型通过量化、通算并行等手段,降低延迟与显存占用,性能较友商提升3.5倍。

应用层面,华为云已与超100家伙伴合作,在调研分析、内容创作、智慧办公、智能运维等领域开发AI Agent。

例如,基于MaaS平台的今日人才数智员工解决方案,集成自然语言处理、机器学习等技术,可提升服务效率与客户满意度;北京方寸无忧科技开发的无忧智慧公文解决方案,能助力政企办公智能化转型。

结语:华为云超节点让算力更适配AI应用需求

当前,AI技术正从模型研发向产业渗透加速迈进,而算力作为核心基础设施,其性能、成本与适配能力将直接决定着产业智能化的推进速度。

随着后续更多超节点扩展计划的推进,以及更多行业场景的深度适配,这类AI基础设施的升级,或将进一步降低企业接入AI技术的门槛,让技术更加深度地融入生活。

特别声明:[破解300倍算力增长瓶颈,华为云Tokens服务全面接入384超节点(破解算力是什么意思)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

北京暴雨黄色预警发布 强降水来袭请注意防范(北京暴雨黄色预警!提醒:降雨期间减少出行)

8月25日17时20分,北京市气象局发布暴雨黄色预警信号。预计从26日夜间到27日夜间,部分地区将出现6小时内降雨量超过70毫米或24小时内降雨量超过100毫米的强降水

北京暴雨黄色预警发布 强降水来袭请注意防范(北京暴雨黄色预警!提醒:降雨期间减少出行)

地萘德凝胶20g:皮肤科医生都在用的“屏障守护神”?真实测评+选购指南🔥(地奈德唑乳膏)

你是否正被湿疹、皮炎、造口周围皮肤刺激困扰?地萘德凝胶20g作为一款含中效皮质类固醇的外用制剂,常被皮肤科医生推荐用于缓解红肿、瘙痒和炎症。本文从成分原理到适用人群,全面解析它的“真面目”——到底是不是万能护盾?哪些情况适合用?又有哪些常见

地萘德凝胶20g:皮肤科医生都在用的“屏障守护神”?真实测评+选购指南🔥(地奈德唑乳膏)

熬夜垮脸救星!这瓶「胶原永动机」让25+的苹果肌重新“归位”

熬夜垮脸救星!这瓶「胶原永动机」让25+的苹果肌重新“归位”

9月1日起,使用AI的朋友注意了!(9月1日起实施)

AI合成的内容,也就是利用人工智能技术生成、合成的文本、图片、音频、视频、虚拟场景等信息。“电子水印”,即人工智能生成合成内容标识,包括显式标识和隐式标识。 显式标识是指在生成合成内容或者交互场景界面中添加…

9月1日起,使用AI的朋友注意了!(9月1日起实施)

可靠的钢格栅生产基地,讲讲兴淼金属丝网服务(钢格栅的用途)

兴淼金属丝网提供碳钢与不锈钢多种材质选择,可根据不同场景需求定制网格尺寸、板厚、承载等级产品。以华北某大型化工园区定制异形平台钢格栅为例,兴淼不仅满足其复杂异形与高承载、强防腐需求,价格也在客户预算范围内,体…

可靠的钢格栅生产基地,讲讲兴淼金属丝网服务(钢格栅的用途)