GPU的替代者,LPU是什么?(gpu代替cpu运算)

Moonshot 的 Kimi K2 最近在GroqCloud上发布了预览版,开发人员不断问我们:Groq 如何如此快速地运行 1 万亿参数模型?

传统硬件迫使人们做出选择:要么更快的推理速度,但质量会下降;要么更精确的推理速度,但延迟令人无法接受。这种权衡之所以存在,是因为 GPU 架构会针对训练工作负载进行优化。而 LPU——专为推理而设计的硬件——在保持质量的同时,消除了造成延迟的架构瓶颈。

无需权衡的准确性:TruePoint Numerics

传统加速器通过激进的量化来实现速度,迫使模型进入 INT8 或更低精度的数值,这会在整个计算管道中引入累积误差并导致质量损失。

我们使用 TruePoint 数值技术,改变了这一现状。TruePoint 是一种仅在不降低准确度的区域降低精度的方法。结合我们的 LPU 架构,这种方法能够在保持高精度数值的同时保持质量。TruePoint 格式存储 100 位中间累积——足够的范围和精度,无论输入位宽如何,都能保证无损累积。这意味着我们可以以较低的精度存储权重和激活函数,同时以全精度执行所有矩阵运算,然后根据下游误差敏感度选择性地量化输出。

我们的编译器策略性地应用精度:

FP32 用于 1 位错误传播的注意逻辑

混合专家 (MoE) 权重的块浮点,其中稳健性研究表明没有可测量的退化

容错层中激活的 FP8 存储

这种控制水平使速度比 BF16 提升了 2-4 倍,并且在 MMLU 和 Humaneval 等基准测试中准确率没有明显损失。随着 AI 推理和硬件需求的指数级增长,业界正在效仿 MXfp4 等格式,以减少模型占用空间。我们并非为了速度而牺牲质量,而是消除了导致这种权衡的架构限制。

内存架构:SRAM 作为主存储器

传统加速器沿用了专为训练设计的内存层级结构:DRAM 和 HBM 作为主存储,并配备复杂的缓存系统。DRAM 和 HBM 都会在每次权重提取时引入显著的延迟——每次访问数百纳秒。这适用于时间局部性可预测且运算强度较高的高批量训练,但推理需要按顺序执行层,运算强度要低得多,这暴露了 DRAM 和 HBM 带来的延迟损失。

LPU 集成了数百兆片上 SRAM 作为主权重存储器(而非缓存),从而显著降低了访问延迟。这种设计允许计算单元全速加载权重,通过将单层拆分到多个『芯片』上来实现张量并行。这对于快速、可扩展的推理而言,具有实际优势。

执行模型:静态调度

GPU 架构依赖于动态调度——硬件队列、运行时仲裁以及引入非确定性延迟的软件内核。在集体运算过程中,数百个核心必须同步激活张量,任何延迟都会影响整个系统。

我们的编译器预先计算整个执行图,包括『芯片』间通信模式,直至单个时钟周期。这种静态调度可以消除:

缓存一致性协议

重新排序缓冲区

推测执行开销

运行时协调延迟

确定性执行可以实现动态调度系统上无法实现的两项关键优化:

无尾延迟的张量并行:每一层分布在多个『芯片』上,保证同步,消除困扰 GPU 集体操作的延迟。

张量并行之上的流水线并行:第 N+1 层开始处理输入,而第 N 层继续计算,这是 GPU 难以实现的,因为存在动态调度和无法有效平衡流水线阶段的问题。

并行策略:延迟优化分布

数据并行通过运行多个模型实例来扩展吞吐量。GPU 可以通过数据并行实现良好的扩展性——在不同的输入上运行同一模型的多个副本。这可以提高吞吐量,但如果您正在等待单个响应,则无济于事。

张量并行通过将单个操作分布在多个处理器上来降低延迟。对于实时应用来说,张量并行是关键的优化。我们的 LPU 架构专为张量并行而构建。我们将每一层划分到多个 LPU 上,这样单次前向传递就能更快完成,而无需并行处理更多请求。正是这种架构选择,让 Moonshot AI 的 Kimi K2 尽管拥有数万亿的参数,却依然能够实时生成令牌。

推测解码:在张量并行硬件上执行

推测解码是一种使用较小、较快的“草稿”模型来预测未来令牌序列的技术,然后在较大的目标模型的单次批量前向传递中验证这些令牌。虽然这种方法可以提高速度,但在 GPU 等传统硬件上,验证步骤通常会受到内存带宽的限制,从而限制性能提升。

我们的 LPU 采用独特的架构设计,能够通过流水线并行更高效地处理推测性 token 批次的验证,从而加快这些验证步骤的处理速度,并支持每个流水线阶段接受多个 token(通常为 2-4 个)。结合利用张量并行的快速草稿模型,这为推理带来了复合性能提升。

软件调度网络:RealScale『芯片』到『芯片』互连

Groq 使用准同步『芯片』间协议来消除自然时钟漂移,并将数百个逻辑处理器 (LPU) 对齐,使其充当单个核心。这样,软件编译器就可以准确预测数据到达时间,以便开发人员进行时序推理。周期性软件同步可以调整基于晶体的漂移,不仅支持计算调度,还支持网络调度。这使得 Groq 能够像单核超级集群一样运行,从编译器开始,从而避免了传统架构中存在的复杂协调问题。

基准测试:Groq 的表现如何

我们非常重视模型质量。昨天,我们发布了 OpenBench——一个与提供商无关的、面向 LLM 的开放评估框架。我们在 Groq 和基于 GPU 的 API 提供商上,在 Kimi-K2-Instruct 上运行了 OpenBench 0.1.1 的 MMLU 实现,您可以看到准确率得分很高——这充分展现了 Groq 堆栈的强大功能。了解更多关于 OpenBench 的信息,并亲自复现这些基准测试。

底线

Groq 绝不敷衍了事。我们从零开始构建推理,力求速度、规模、可靠性和成本效益。正因如此,我们才能在短短 72 小时内让 Kimi K2 的性能提升 40 倍。我们于 2019 年推出的第一代 LPU,采用 14nm 制程工艺,实现了如此优异的运行效果。我们高度重视开发者的反馈和实际性能,并结合行业领先的设计和严格的技术基准,致力于提供极致的 AI 推理体验。我们将继续加速硬件和软件的开发,使开发者能够专注于他们最擅长的事情:快速构建。

特别声明:[GPU的替代者,LPU是什么?(gpu代替cpu运算)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『孙俪』妈妈太时尚前卫了!65岁的她状态像朵花,『邓超』估计都有压力吧(我想看『孙俪』妈妈)

如今,『孙俪』妈妈竟以出人意料的姿态走进了公众视野:她的状态好得让人惊叹,瞬间成为关注焦点!时光荏苒,『孙俪』已步入43岁,而她的妈妈邓丽芳也迎来了65岁的人生篇章。 若将『邓超』与其65岁的岳母同框比较,岳母的容颜与…

『孙俪』妈妈太时尚前卫了!65岁的她状态像朵花,『邓超』估计都有压力吧(我想看『孙俪』妈妈)

尚水智能:部分技术布局或晚于同行 高毛利大客户背后关系网现疑云(尚水『智能设备』有限公司怎么样)

据2025年12月7日招股书,2022年9月22日,吴娟将其持有的深圳市尚水『智能设备』有限公司(尚水智能前身,以下统称“尚水智能”)股权分别转让给比亚迪、广州正轩、王海全等。 另外,此次申报期间,比亚迪为尚水…

尚水智能:部分技术布局或晚于同行 高毛利大客户背后关系网现疑云(尚水『智能设备』有限公司怎么样)

魏建军不用一体压铸,雷军大压铸干两套,究竟谁才是对的?(魏建民魏建军)

魏建军拒绝一体压铸的理由直指技术痛点在欧拉新车上市发布会上,他直言三大弊端:其一,国内技术尚未成熟,设备与配套的高要求导致制造成本居高不下,并未达到预期降本效果;其二,生产缺乏灵活性,难以适配长城多品牌、多…

魏建军不用一体压铸,雷军大压铸干两套,究竟谁才是对的?(魏建民魏建军)

白肺病💊可以治好吗?为什么不能治好

白肺病能否治愈取决于病因和病情严重程度。部分病例可以治愈,但也存在无法完全治愈的情况,这主要与肺部组织损伤的不可逆性、慢性病程以及原发疾病难以根治有关。 白肺病并非单一疾病,而是多种原因导致的肺部影像学表现

白肺病💊可以治好吗?为什么不能治好

名校同款羽绒服或构成侵权 非官方渠道销售引发争议(有羽绒服校服的大学)

近日,多家高校定制羽绒服在网上热销,尤其是人大超绒羽绒服所有款式已售罄。在『社交平台』上出现多家服装定制公司,声称可售卖中戏、清华、人大等高校同款羽绒服。记者以消费者身份联系上某家服装公司,商家表示各大高校羽绒服均可购买,且均为正版商品

名校同款羽绒服或构成侵权 非官方渠道销售引发争议(有羽绒服校服的大学)