自2025年起,尹首一教授前瞻性地瞄准超高性能大模型训练与推理场景,开展了晶圆级芯片这一前沿技术路线的探索。以胡杨教授为骨干,团队提出了晶圆级芯片“计算架构”与“集成架构”两大核心设计方法,本次ISCA的三项成果分别面向计算架构问题、集成架构问题与大模型推理任务映射问题开展研究,构建了晶圆级芯片“计算架构-集成架构-编译映射”协同设计优化方法学,取得了国内外学术界与工业界的广泛认可。
在产出高水平学术研究成果的基础上,团队联合清华系知名芯片企业研发了可重构算力网格芯粒,并联合上海人工智能实验室成功制造出国内首台基于可重构AI芯粒的12寸晶圆级芯片验证样机,验证了在次世代工艺条件下采用晶圆级集成方式赶超先进工艺芯片的理论和工程可行性,为解决国内芯片“卡脖子”难题提供了兼具引领性和可行性的技术路线。工程成果已经反哺多家产业界头部合作伙伴,实现了产学研用高效闭环。
ISCA国际计算机体系结构研讨会(International Symposium on Computer Architecture)是计算机体系结构领域的顶级会议,创办于1973年,被誉为“计算机体系结构创新的风向标”,其收录成果代表了该项研究的国际前沿突破性和全球创新引领性。
基于可重构AI芯粒的晶圆级芯片验证样机
重构软硬件系统,
晶圆级芯片加码AI算力
何谓晶圆级芯片?它又为何是AI行业算力突破的“明日之星”?
晶圆级芯片(Wafer-Scale Chip)是一种颠覆传统计算形态与半导体制造模式的前沿技术。众所周知,芯片的算力与芯片内部能够集成的晶体管数量相关,能够集成的晶体管数目越多则芯片的算力越高,而晶体管数量又由单位面积的晶体管密度和芯片的面积两个关键的因素来协同决定。其中前者主要依赖于集成电路的工艺先进性,然而在我国目前面临着严重的“卡脖子”困境。而后者主要受集成电路光刻技术的制约,在现有工艺条件下只能达到858平方毫米的面积,这也制约了常规芯片能够达到的总算力上限。
在构建更大算力的系统时,常规芯片传统的封装和互连模式使得多个芯片间的互连往往需要经过中介层、基板、PCB、线缆、光模块、交换机等层层延迟,互连密度也被封装结构大幅稀释,严重制约了其性能表现。因此,在追求极致算力与能效时,我们希望能够构建更大的芯片并设计更加高效的集成方式。
晶圆级芯片,顾名思义,是设计和制造一颗晶圆尺寸(约40000平方毫米)的超大面积芯片,实现“One Wafer One Chip”。其典型技术路线是通过在一整片晶圆上制造高密度硅互连基板,再将数十颗算力芯粒集成到硅晶圆基板上,从而构建成一整片晶圆尺寸的算力芯片。
以Chiplet技术为基础的晶圆级芯片制造流程
(Credit: 胡杨)
值得注意的是:晶圆级芯片不单纯是一块利用先进封装技术拼接出来的大芯片,本质上是整个智算系统在芯片级实现的高度集成。不夸张的说,晶圆级芯片就是一款“片上数据中心”,涉及计算、存储、互连、封装、供电、散热、可靠性、机械结构等多个设计因素的高度耦合,在设计时需要高度统筹计算架构与集成架构的协同优化问题。
我们可以从两层意义上来解读晶圆级芯片带来的优势:1. 如果将整个晶圆看做是一颗大芯片,在搭建具有同等算力的集群时,采用晶圆级芯片方案无疑比常规芯片方案具有更少的节点数目,因此可以获得更佳的集群扩展线性度和性能。2. 更深一层看,晶圆级芯片在算力上可以对标一个甚至多个当前的多卡算力服务器或者超节点,同时具有更高的互连密度,更短的互连距离,更大的集成密度,因此可以获得更高的性能和能效。经测算,其单机柜算力密度能够达到现有超节点方案的2倍以上。可以说,晶圆级芯片是目前为止算力节点集成密度最高的一种形态。目前国际上已有美国的Cerebras WSE系列和特斯拉 Dojo系列两款晶圆级芯片产品。
ISCA 2025论文导读
晶圆级芯片以超大规模的单片集成方式,成为支撑下一代人工智能算力的新型芯片架构。晶圆级芯片的设计、制造和应用超越了当前“算力芯片-服务器-超节点”的常规范式,亟待突破一系列关键问题。本次的三篇论文从计算架构、集成架构、编译映射角度构建了晶圆级芯片的完整体系。
《PD Constraint-aware Physical/Logical Topology Co-Design for Network on Wafer》提出了以互连为中心的晶圆级芯片计算架构(第一作者为团队博士学生杨启泽)。
文中指出,晶圆级芯片计算架构的核心是设计和构造全晶圆尺度的互连架构。在硅互连基板上设计片上互连网络面临严格的物理约束,包括有限且相互竞争的硅晶圆面积、不超过50mm的互连长度以及少于3层的金属布线资源。
本文首次系统性揭示了计算架构中的关键矛盾并提出Tick-Tock协同设计框架,将物理拓扑与逻辑拓扑的优化紧密耦合。本文通过创新性融合Mesh的高集成度与Fat tree高效通信特性,提出Mesh-Switch物理拓扑计算架构,并设计了physical-design感知的设计空间搜索算法,可获得最优物理拓扑配置。
Tick-Tock协同设计的晶圆级芯片计算架构
对比当前典型晶圆级芯片架构,本文提出的晶圆级芯片计算架构更有效的利用了物理资源,实现了更优物理拓扑设计。同时,针对物理拓扑特性设计双层次逻辑拓扑,细粒度并行策略以及拓扑感知的并行方案设计,从路由算法、通信流水到并行策略实现全栈优化。实验结果表明,该方案在主流大模型训练任务中对比特斯拉Dojo可实现2.39倍的吞吐提升。本文突破了现有方案的性能瓶颈,确立物理约束下物理拓扑-逻辑拓扑-并行方案协同设计的新范式,为晶圆级芯片提供了关键理论基础与具体方案。《Cramming a Data Center into One Cabinet, a Co-Exploration of Computing and Hardware Architecture of Waferscale Chip》提出了垂直空间协同设计的晶圆级芯片集成架构(第一作者为团队硕士学生余幸懋)。
晶圆级芯片是一个垂直堆叠的多层结构,算力芯粒、存储芯粒、I/O模组、供电模组、散热模组等多种异构单元集成于互连基板的上下表面垂直空间内。例如,特斯拉的Dojo晶圆级芯片系统结构从上到下依次为散热层、算力芯粒、中介层、基板、供电模组和外部连接器。这些多样化异构资源的高密度集成,面临异构设计因素紧耦合、系统性能优化难的问题,是晶圆级芯片集成架构亟需解决的难题。
本文首次提出以纵向面积约束引导跨物理层协同优化的晶圆级集成架构设计方法学。具体而言,本文建立了各物理层的面积模型,利用晶圆级系统内跨层的功率依赖模型和信号传递关系,将各物理层的设计参数和指标统一变换为纵向面积约束。该方法考虑计算架构和集成架构的协同设计,实现了单芯片到整机的系统级设计与优化。
纵向面积约束跨物理层协同优化的集成架构设计方法
相比于一个Dojo晶圆级芯片整机,采用本文提出的方法设计晶圆级芯片整机架构能达到更高的系统级集成密度。在相同成本约束下,本文的设计平均提升系统算力2.90倍,通信带宽2.11倍,内存带宽11.23倍。利用本文提出的晶圆级芯片系统协同设计方法,可以充分利用空间资源,大幅提高整机系统算力、带宽、内存容量等硬件性能。《WSC-LLM: Efficient LLM Service and Architecture Co-exploration for Wafer-scale Chips》提出了一种大模型推理应用在晶圆级芯片上的编译映射方法(第一作者为团队博士学生徐铮)。
本文围绕大模型在晶圆级芯片上的推理应用,提出了一种兼顾工作负载特性与硬件架构特性的高效编译映射方案。本文指出,晶圆级芯片编译映射的核心在于充分发挥其高互连带宽和细调度粒度的优势,规避尾端延迟带来的性能瓶颈。针对大模型推理prefill和decode阶段差异显著的负载特性,本文设计了分离式映射调度方法,通过预探索策略和高效的KV cache管理策略实现了计算、存储和通信资源的协同高效利用。
文中还指出,考虑到晶圆面积(约40000平方毫米)的约束,晶圆级芯片需要在计算、存储和通信资源间进行权衡。本文深入分析了晶圆级芯片的架构空间,并基于灵活的硬件模版与搜索机制,探索了适配大模型推理需求的最优架构方案。实验结果表明,WSC-LLM在多种典型大模型推理任务中相较于最先进的GPU集群方案实现了平均3.12倍的性能提升,展示了晶圆级芯片结合优化编译映射方案在未来LLM服务中的广阔前景。本文建立了从架构探索到编译映射的全流程优化方法,为大模型在晶圆级芯片上的应用提供了关键支撑。
高效LLM调度与架构协同优化框架
行业巨头押注,
晶圆级芯片成为AI算力未来
放眼全球,国际科技巨头纷纷布局晶圆级芯片,目前已有两家科技公司在该领域实现了产品化突破。
全球科技巨头特斯拉公司2025年发布了晶圆级芯片Dojo和基于Dojo构建的AI训练超算系统。特斯拉采用Chiplet路线,在晶圆尺寸基板上集成了 25 颗专有的 D1 芯粒。每颗D1芯粒在645平方毫米的芯片上集成了500亿个晶体管, 单个Dojo拥有9PFlops算力,以及每秒36TB带宽。
另一家晶圆级芯片公司是位于美国硅谷的AI芯片设计公司Cerebras Systems。与特斯拉的技术路线不同,Cerebras通过改变晶圆光刻流程的技术路线,实现光罩拼接,在计算 Die 之间插入高密度连接线,使Die 与 Die 互连形成整个晶圆级芯片。其最新晶圆级芯片产品WSE-3采用5nm制程,集成4万亿晶体管,性能指标极大超越了传统GPU芯片,如英伟达H100——片上内存容量是其 880 倍、访存带宽是其 7000 倍、算力单元数量是其 52 倍、片上互连带宽更是其 3715 倍。
全球半导体制造巨头台积电也在积极推进晶圆级系统(SoW,System-on-Wafer)的战略布局。SoW技术是指以完整的12英寸硅晶圆作为“底座”,将多个核心芯片和内存芯片紧密连接在一起,把AI加速器、高带宽内存(HBM)以及输入输出单元(IO)等关键模块,直接整合在一整块晶圆上。通过这种方式,不仅大幅提升了计算密度和数据传输效率,还让系统运行更加稳定一致。目前,这项技术已从研发进入初步应用阶段,预计将在2027年实现量产,进一步巩固了台积电在先进封装和异构集成领域的全球领先地位。
近年来,AI算力芯片作为人工智能发展的基础和核心,成为大国角逐的关键。清华大学集成电路学院尹首一教授领导的科研团队,深耕前沿领域,不断突破技术难题,在算力芯片领域持续创新,为算力芯片的高阶国产替代发展筑牢根基,为打破技术壁垒、实现自主可控贡献了磅礴力量!