这几天的WAIC上,AI芯片军备竞赛悄然变阵。曾经比拼的峰值算力标签正逐渐褪色,取而代之的,是一场围绕算力利用率的深层较量。如何让每1TOPS的算力真正转化为可用的性能,成为所有厂商无法回避的核心命题。
从云端万卡集群到终端手机、汽车,无论场景如何,行业共识已经清晰。AI的未来,不在于有多少算力,而在于能用上多少。
云端集群算力再高,少一个因子全归零
在云端,竞争早已超越单颗芯片的参数比拼,转向集群整体效率的系统性博弈。
华为以超过800平米的黄金展位高调亮相,重点并非只是昇腾910C,而是其Matrix 384超节点架构。通过自研高速互联技术,实现384个NPU之间的低延迟、高带宽通信,直击大模型训练中算得快、传不动的通信瓶颈。这不仅是硬件升级,更是对集群算力利用率的系统性突破。
华为昇腾384超节点
摩尔线程则提出AI工厂理念,强调从芯片、服务器到智算集群的全栈协同。摩尔线程展出AI万卡集群液冷服务器MCCX D800 X2,将效率公式概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。其展出的MTT GPU、MCCX液冷服务器与KUAE集群,配合MUSA软件栈,形成完整闭环,只有全链路优化,才能避免算力跑丢。
除了AI训练和推理,摩尔线程还展示了自家GPU在不同场景下的应用,如数字服务、智能驾驶、智慧医疗、智能制造等。
其他厂商也各展所长。沐曦曦云C600国产化供应链,保障算力供给的稳定性。燧原科技则深耕推理场景,燧原S60以接近国际竞品的性能和更高性价比,在美图等实际业务中落地,体现用得值的务实逻辑。其庆阳智算中心万卡S60推理集群,已于2025年1月起对外提供推理算力服务。
功耗红线上的极限压榨,端侧无需装核反应堆?
如果说云端追求的是规模效率,端侧则是在功耗、成本、体积的极限约束下,实现算力的极致压榨。
后摩智能推出的漫界M50芯片,仅10W功耗即实现160 TOPS算力,可支持70B参数大模型本地运行,能效比达到新高。爱芯元智同样凭借高能效比打开市场,其AX170A芯片能效达13.4 TOPS/W,并在智能驾驶和手机影像领域实现规模化落地。
效率提升不止靠硬件。此芯科技通过集成CPU、GPU、NPU,实现片内资源高效调度。OPPO联合芯片方推出的端侧AI并行译码技术,性能提升超8倍,却未显著增加功耗。这正是软硬协同的典型范例,不堆硬件,也能榨出更多性能。
根上重构效率,用RISC-V和稀疏计算掀翻英伟达?
除了优化现有路线,一些企业正从底层架构寻求突破。
算能科技推出基于RISC-V的服务器处理器SG2044,搭配新一代TPU BM1690,构建全栈国产的异构计算平台。通过让不同任务各归其位,实现整体效率最大化,为AIGC等复杂负载提供新选择。基于SG2044的高性能服务器产品已完成量产,软硬件全栈国产化,可应用于通用计算、AIGC、智算中心、边缘计算等场景。
墨芯人工智能则聚焦稀疏计算,其Antoum芯片支持高达32倍稀疏率,能自动跳过AI模型中的无效计算,将算力精准投向关键运算。这种深度结合算法特性的芯片设计,是对传统蛮力计算的颠覆,也是提升实际利用率的创新方向。
WAIC 2025的芯片展区,已不再是参数的秀场,而是效率的试验场。无论是集群通信优化、全栈协同、能效突破,还是架构创新,所有努力都指向同一个目标:让算力真正可用、好用、用得起。
未来的赢家,未必是算力最高的,但一定是把算力用得最好的。谁能最懂应用、最擅系统优化,谁就能在AI的下半场,真正掌握话语权。