在AI加速渗透的进程中,算力基础设施演进与大模型发展形成相生相长的关系:从初期的囤积GPU追求“大力出奇迹”,到后来的系统级创新打破应用瓶颈,再到如今的智算集群跃迁驱动AI全面落地,螺旋式上升的曲线清晰可见。
由于外部环境存在诸多不确定性因素,国内智算集群的进化路径颇为引人注目。针对单卡性能尚存差距、算力成本较高、自主软硬件协同不太成熟等痛点,AI超节点、大集群等产品方案纷纷涌现,以网联算、以存提算、以电补算等创新方法不断升级。
与技术、产品、解决方案层面的突破相比,整个智算生态系统的构建更为重要。纵观历史上关键技术的普及轨迹,会发现主要有两个可选路径:一是依靠少数巨头打造的封闭式全栈垂直体系,二是基于开放架构、产业链各环节共同参与的协作生态。两者不是非此即彼的替代关系,但前者往往拥有强势地位,后者要赢得发展空间必须付出巨大的努力。
对国内智算产业而言,面前的挑战纷繁复杂,亟需将产业链上的大量企业组织起来,实现真正的跨层协作优化,进而打造开放式、标准化、高效率的集群算力,才更有机会在日趋白热化的竞争中取得主动权。不过,这条道路充满荆棘,横亘在前方的技术墙与生态墙极难跨越,市场呼唤开路先锋的引领与垂范。
在近日重庆举办的世界智能产业博览会上,中科曙光协同AI『芯片』、AI整机、大模型等20多家产业链上下游企业,共同发布国内首个AI计算开放架构,推出AI超集群系统,开放多项技术能力,并宣布依托国家先进计算产业创新中心启动 “AI计算开放架构联合实验室” 建设。这一系列举措标志着国内智算产业正在迈向全面开放与紧密协作的新时代,由技术创新到生态突围的范式变革渐入佳境,难而正确的道路有望成为新的共识。
开放架构是生态繁荣的核心基石无论是ToB还是ToC领域,开放架构都能在一定程度上促进产业生态繁荣。
在大型机和小型机当道的“上古”时期,横空出世的X86即是开放架构的代名词,由此吹响了PC和『服务器』普惠的号角;在苹果手机所向披靡的阶段,崇尚开放路线的『安卓』系统彻底改变一家独大的局面,开启了更多产业链环节共创共荣的『智能手机』新纪元。
中科曙光高级副总裁李斌
中科曙光高级副总裁李斌表示:过去,传统IT产业分工明确,技术架构进化速度较慢,跨界、跨层协同的需求并不迫切;而当下的智算产业链条更长且技术融合趋势明显,唯有践行『安卓』式的开放生态创新,才能有效应对快速变化的市场环境,达成“抱团发展”的目标。
从某种意义上讲,智算集群已成为AI时代算力基础设施的中流砥柱,肩负着探索开放架构、建立崭新生态的千钧重任。作为国内智算产业的翘楚,中科曙光将扮演破局者的角色。过去十年,中科曙光先后建设了20多个大规模算力集群,累计部署超过50万张异构加速卡,积累了丰富的实战经验;与此同时,其还是国家先进计算产业创新中心的牵头组建单位,有能力也有责任推动AI计算领域的开放协作与生态构建。
正是在这样的背景下,AI计算开放架构脱颖而出——面向大规模智能计算场景,创建以GPU为核心进行高效率紧耦合系统设计的协同创新体系,旨在联动『芯片』、整机、大模型、行业应用等产业链上下游企业,从“算、存、网、电、冷、管、软”单点突破走向集群创新。借助开放跨层协作优化,AI计算开放架构有望突破多重瓶颈,形成多元算力、高速互连、存算协同、绿色高效、稳定可靠、生态繁荣等核心优势,让AI算力普惠从梦想照进现实。
AI超集群系统将智算底座的选择权交给用户
知名研究机构Gartner近日首次发布《2025中国AI趋势》研究报告,指出“在受限条件下的技术突围与系统性重塑”是中国AI产业发展的必由之路。这也恰是国内智算领域谋求更大发展空间的不二之选,打造具有示范效应的行业标杆迫在眉睫。
中科曙光总裁助理、智能计算产品事业部总经理杜夏威
化解大模型训推与AI应用落地的主要障碍,是集群系统赢得用户认可的首要因素。据中科曙光总裁助理、智能计算产品事业部总经理杜夏威透露,曙光AI超集群系统拥有“超高性能、超高效率、超高可靠、全面开放”四大特征,可为万亿参数大模型训练推理、行业大模型微调、高通量推理、多模态大模型开发、AI4S等场景打造更强大、高效的算力底座。
伴随大模型应用不断向纵深挺进,对集群系统的综合能力提出了前所未有的要求。曙光AI超集群单机柜支持96加速卡、百P级AI算力,最大可实现百万卡超大规模集群扩展,并通过“超级隧道”AI存储优化、软硬协同设计、智能调度大模型等技术创新,实现系统效能大幅提升。相关实测显示,千卡集群大模型训推性能达到主流水平2.3倍,模型开发效率提升4倍,GPU算效增加55%,平均无故障时间提高2.1倍,平均故障修复时间降低47%,多项指标位居领先地位。
尤值一提的是,与专有封闭系统相比,曙光AI超集群可适配多品牌GPU加速卡,且兼容CUDA等主流软件生态,为用户提供开放性的多元选择,显著降低硬件投入和软件开发适配成本。这是开放生态送给用户的最好礼物🎁,富有活力的智算土壤终将迎来百花齐放。
多管齐下共绘智算新生态的未来图景根据IDC咨询最新发布的报告,中国的智能算力规模将从2025年的75 EFLOPS增长到2028年的2781.9 EFLOPS,增幅超过37倍,这为智算新生态的持续发展提供了充足的成长空间。
令人欣喜的是,以技术开放赋能产业创新,以跨层优化破解生态壁垒,已逐步成为业界共识。中科曙光联合『芯片』、整机等多家知名企业,宣布开放一批关键技术能力,覆盖部件级、系统层、基础设施层、软件层和数据集等多个维度,通过减少重复造轮子,降低中小企业的研发门槛,带动整个智算产业链迈向更高境界。
当然,开放生态涉及的厂商多、产品杂、链条长,与垂直封闭生态相比面临更复杂的挑战。针对跨厂商技术对齐难、产业协作难等痼疾,中科曙光携手20多家智算上下游企业,依托国家先进计算产业中心共同建设“AI计算开放架构联合实验室”。联合实验室将致力于推进产业链开放与协作,打破“硬件墙”、“软件墙”、“生态墙”的阻隔。
站在更长远的视角,智算产业的自主创新还有很长的路要走,此刻下结论哪条路能走通或走不通为时尚早。但有一点可以确定,通往成功的征途上不会缺少开放、包容、普惠的种子,难而正确的道路、更多人受益的生态最有可能行稳致远。