内存计算驱动推理加速:d-Matrix Corsair 的设计| HotChips2025(内存计算驱动推荐哪个)

芝能智芯出品

随着人工智能模型的规模不断扩展,推理环节的算力与能效需求正在成为制约其落地的重要瓶颈。

d-Matrix 在 Hot Chips 2025 上展示的 Corsair 内存计算加速器,为这一问题提供了新的思路,通过 Chiplet 架构、内存计算单元与低延迟互连的结合,在推理任务中实现高能效和低延迟表现,尤其适用于实时语音和大模型的应用场景。

Part 1

从内存受限到内存计算:

Corsair 的设计逻辑

在大型语言模型和人工智能代理的推理过程中,延迟和内存访问往往比算力本身更具挑战性。

以 LLM 的 token 生成为例,每一步都需要从存储中读取巨量权重,而批量推理虽能分摊读取开销,但会带来延迟的增加。

对于实时语音和交互式 AI 来说,这种延迟是无法接受的。因此,如何在保持延迟低的同时高效处理权重数据,成为硬件设计的核心问题。

d-Matrix 的思路是“重新思考”推理方式,提出内存计算(DIMC,Digital In-Memory Computing)的架构。

与传统将算力单元和内存分离的模式不同,Corsair 在『芯片』内部配置了大容量 SRAM 与 LPDDR5X,并让矩阵运算尽可能靠近存储发生,从而降低数据搬运的能耗与延迟。

每张卡上包含两颗『芯片』,每颗『芯片』由 4 个 Chiplet 组成,每个 Chiplet 又配备了 2GB SRAM 以及 LPDDR5X 通道,使整卡达到 256GB L5X 的存储能力。这种设计不仅缩短了数据通路,也让推理任务中的权重访问更加高效。

在互连方面,Corsair 强调低延迟和全对全通信。两张卡可以通过被动桥接互联,组成 16 个 Chiplet 的分层全对全网络。

更进一步,Corsair 的 D2D(Die-to-Die)互连延迟仅为 115ns,即便经过 PCIe 交换机,延迟仍能维持在 650ns 以内。

这一性能为分布式推理奠定了硬件基础,也为未来更大规模的 AI 集群提供了扩展可能。

Corsair 通过将计算嵌入内存、降低互连延迟,解决了传统推理加速器在大模型场景下的瓶颈问题,其设计逻辑正是面向内存受限和延迟敏感应用的优化。

Part 2

架构实现与能效表现:

从硬件到软件的协同

Corsair 的硬件设计采用了高度模块化的 Chiplet 架构。

每个 Chiplet 内部划分为四个四元组,并内置 RISC-V 调度引擎以管理任务调度和数据流。

其 D2D 带宽达到 1TB/s,使 Chiplet 之间的通信成为可能。矩阵运算单元支持 INT8 和 INT4 精度,分别对应 64×64 和 64×128 的矩阵乘法,能够兼顾推理精度与能效需求。

此外,Corsair 还支持权重量化和结构化稀疏性压缩,在某些情况下可实现高达 5 倍的权重压缩率,这对于存储受限的大模型尤为关键。

在能效层面,Corsair 以每瓦 38 TOPS 的表现位居业界前列。

在 800MHz 主频下,其整卡功耗约为 275W,而在 1.2GHz 下则为 550W。虽然高主频带来效率下降,但整体影响有限。考虑到推理应用普遍更看重延迟和吞吐量,这种功耗-性能的平衡具备现实意义。

在系统扩展上,Corsair 支持机架级别的横向扩展。

通过 NIC 提供的透明以太网互联,延迟控制在 2μs 左右,允许多个节点和机架的堆叠。标准『服务器』中最多可安装 8 张 Corsair 卡,再结合 NIC,可搭建大规模推理平台。

d-Matrix 甚至在物理层面尝试了 3D DRAM 堆叠方案,将 DRAM 直接堆叠在逻辑『芯片』之下,通过控制热密度在 0.3W/mm² 以下,确保了高带宽与热管理的平衡。这种架构探索为未来高密度存算一体化奠定了方向。

软件层面的支持同样不可或缺。Corsair 搭配了 Aviator 软件栈,该平台专为大模型推理优化,能够调度硬件资源、处理量化与稀疏性,并提升 LLM 的推理吞吐量。

以 Llama3-70B 为例,Corsair 在每个输出 token 上仅需约 2ms,显示出在实际大模型场景中的低延迟优势。硬件与软件的紧密结合,使 Corsair 不仅停留在『芯片』性能的堆叠上,而是真正形成了一个完整的推理解决方案。

Corsair 的实现特点在于模块化硬件设计、先进的内存堆叠技术以及针对推理优化的软件栈,这些要素共同支撑了其在延迟、能效和扩展性上的优势。

小结

d-Matrix Corsair 的出现并非单纯追求算力的提升,解决 AI 推理中最核心的矛盾——内存访问与延迟的限制。

在大型模型和实时交互式应用日益普及的背景下,传统依赖算力扩张的方式已难以满足需求。Corsair 通过内存计算架构、Chiplet 互连以及 3D DRAM 堆叠等技术,提供了一条兼顾能效和可扩展性的道路。

特别声明:[内存计算驱动推理加速:d-Matrix Corsair 的设计| HotChips2025(内存计算驱动推荐哪个)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『张雨绮』黑裙配一字带凉鞋,性感白皙美腿玉足杀疯了!(『张雨绮』 裙子👗)

最绝的是那双一字带凉鞋——细带子勒住脚踝,脚背绷成漂亮弧线,直接把腿长拉到胸以下。有人截了动图慢放:当她脚尖轻点地面,凉鞋细带在脚背上压出的浅痕,竟比钻石还晃眼。开衩高度精确到走路带风不露底裤,深V领口卡在锁…

『张雨绮』黑裙配一字带凉鞋,性感白皙美腿玉足杀疯了!(『张雨绮』 裙子👗)

这一次,被央视点名的『杨紫』,让宋丹丹对她的评价成为无稽之谈

近期,『杨紫』的最新作品《生命树》已经定档,且将于央视播出,这无疑是她演艺生涯中的又一高光时刻。『杨紫』也曾遭遇过一些不公平的待遇——比如,明明剧组已经确定了她的角色,却在拍摄前几天才得知自己被换掉。这句话,既…

这一次,被央视点名的『杨紫』,让宋丹丹对她的评价成为无稽之谈

加快培育服务消费新增长点!国办印发工作方案(发改委印发《加快培育新型消费实施方案》)

国务院办公厅日前印发的《加快培育服务消费新增长点工作方案》1月29日发布,提出3方面支持政策。聚焦交通服务、家政服务、网络视听服务、旅居服务、汽车后市场服务、入境消费等重点领域,从优化服务供给、推进先行先试、创新消费场景、加强人才培养等方面

加快培育服务消费新增长点!国办印发工作方案(发改委印发《<strong>加快培育新型消费实施方案</strong>》)

太平年》宣布复更!此前该剧突然停更的消息登上热搜第一(太平年月)

1月31日,央视历史剧《太平年》因周末节目编排调整暂停更新,引发剧迷广泛讨论,该剧以罕见的五代十国为背景,聚焦吴越国“纳土归宋”事件,讲述吴越王钱弘俶与宋太祖赵匡胤,携手实现山河统一的历史故事。 据媒体此前…

《<strong>太平年</strong>》宣布复更!此前该剧突然停更的消息登上热搜第一(太平年月)

诬陷猥亵?帮第三者?不完美受害人!辛芷蕾《女神蒙上眼》强推!(诬陷算犯法吗)

首个案件是一起强制猥亵案,案件中的伴郎在婚宴上猥亵了伴娘。案件的转折令人心碎,但也让人不禁思考,人们在外表的单一判断下,是否忽视了更复杂的情感动机?这一案件不仅揭示了渣男的恶行,也让人对第三者心生同情,…

诬陷猥亵?帮第三者?不完美受害人!辛芷蕾《<strong>女神蒙上眼</strong>》强推!(诬陷算犯法吗)