万字长文带你读懂强化学习，去中心化强化学习又能否实现？ #科技 #推理 #数据 #时间 #Law #训练方法

选自 Symbolic Capital

作者：Sam Lehman

机器之心编译

强化学习（RL）是当今 AI 领域最热门的词汇之一。近日，一篇长文梳理了新时代的强化学习范式对于模型提升的作用，同时还探索了强化学习对去中心化的意义。

今日霍州(www.jrhz.info)©️

原文地址：https://www.symbolic.capital/writing/the-worlds-rl-gym

「有时候几十年什么也不会发生；有时候几周时间仿佛过了几十年。」这句话形容当今的现代 AI 领域最为贴切。似乎每天都有新的突破性模型、训练方法或公司涌现，迫使我们重新思考 AI 世界的可能性。今年早些时候是『DeepSeek』，接下来是星际之门项目，现在还有 Qwen、Manus、MCP 等。谁知道接下来会发生什么？

目前，在打造更好的模型方面，通过预训练以及最近的测试时间计算进行 scaling 是引领性方法。但最近，随着『DeepSeek』-R1 和 R1-Zero 的发布，人们开始更加亲睐一种不同的模型 scaling 方法 —— 强化学习（RL）。本文的目标是探索基于 RL 的模型改进的含义，并会特别关注 RL 过程是否适合去中心化。

本文希望给读者带去三点收获：

了解 AI 模型改进技术的大致时间表以及不同方法如何随着时间的推移而发展。
通过强调用于后训练『DeepSeek』-R1 和 R1-Zero 的技术，理解势头正盛的「RL 复兴」浪潮。
为什么强化学习后训练中的一些（但可能不是全部）组件可以受益于去中心化。

在深入探讨『DeepSeek』如何利用强化学习训练 R1 的细节之前，我们将先浏览一个（非常精简的）事件时间线，以了解我们如何走到了今天。

AI / 机器学习 scaling 简史

（极简版）

2020 年 - 2023 年初：预训练 Scaling Law，理解数据在训练中的重要性

2020 年，OpenAI 的研究者发表了《Scaling Laws for Neural Language Models》。这篇论文意义重大，因为它明确阐述了在 scaling LLM 时模型大小、数据和计算的权衡。后来到 2022 年时，DeepMind 的研究者通过《Training Compute-Optimal Large Language Models》对 Scaling Law 进行了扩展。

这篇论文明确了现在所称的「Chinchilla Scaling Law」，该定律表明：当时许多模型相对于其参数数量而言训练不足。也就是说，相对于用于训练模型的数据量，它们的参数太多。这项工作帮助研究者了解了数据与参数的最佳比率（每个参数大约 20 个 token）。之后，人们开始使用远远更多数据来训练模型。

今日霍州(www.jrhz.info)©️

最初的 Scaling Law 论文

随着 2022-23 年左右预训练 Scaling Law 的明确，「更多数据 + 更多计算 = 更好的模型」时代到来了。

只要我们能将足够的数据和计算投入到模型的预训练中，我们最终就会得到性能更高的模型。

OpenAI、Meta 和 Anthropics 等各路 AI 逐鹿者都高度关注如何确保大量数据和计算，以满足训练越来越大的前沿模型的需求。这样一来，他们就能不断发布越来越好的突破性模型。但随后，在 2024 年末，OpenAI 的推理模型引入了一种 scaling 模型性能的新方法。

2024 年：推理模型和测试时间计算 scaling

2024 年 9 月初，OpenAI 发布了 o1 模型。当时，它们是第一批向公众展示系统性思维链推理的模型之一。这些模型能使用刻意的逐步推理方法，在得出最终答案之前评估多种潜在解决方案。推理模型在抽象推理任务上的能力大幅提升 —— 在 ARC-AGI 推理任务得分的惊人提升就是明证：

今日霍州(www.jrhz.info)©️

Riley Goodside 制作的这张图展示了 OpenAI 推理模型发布后 ARC-AGI 得分的突破。

此外，随着这一模型的发布，人们认识到，通过增加测试时间计算（TTC，模型解决问题时使用的计算量），可以在模型训练后使模型表现更好。

具体来说，谷歌 DeepMind 的研究者在论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》中表明，如果在推理时获得足够的计算，较小的模型可以可靠地胜过在预训练时获得更多计算的较大模型。想要一个模型给你一个更好的答案？给它更多的时间去思考问题就行，它就能推理出最好的解答。这标志着开发 scaling 测试时间计算的方法成为了新的重点。

2024 年末 - 2025 年初：预训练装甲的裂缝

通过 TTC scaling，我们现在有两个杠杆可以改善我们的模型。一个是在最初训练模型时，另一个是在模型训练之后。第二种方法来得正是时候 —— 随着 TTC Scaling Law 的形成，人们越来越担心我们即将耗尽继续推动预训练所需的数据……

2024 年 12 月，Ilya Sutskever 在 NeurIPS 2024 发表了一个主题演讲。他的 20 分钟演讲概述了过去十年的 AI 研究，并分享了他对该领域未来发展的看法。然而，他也给出了一个震惊 AI 行业的断言。在演讲开始后不久，Ilya 宣称：「我们所知的预训练无疑会终结。」

今日霍州(www.jrhz.info)©️

Ilya 认为，我们很快就耗尽了我们一直用作预训练「燃料」的『互联网』数据。「我们只有一个『互联网』，」他说。需要大量数据的模型已经消耗了所有可用的 token。

2025 年：对强化学习的全新认识和『DeepSeek』时刻

除非你过去几个月一直与世隔绝，否则你很可能在新闻中听说过一家名为『DeepSeek』的中国 AI 公司。随着他们发布 R1 模型，『DeepSeek』证明了一种训练更好模型的新方法的可行性，并激发了人们通过强化学习探索模型改进的极大热情。

今日霍州(www.jrhz.info)©️

『DeepSeek』-R1 论文，其中一大贡献是带来了对基于强化学习改进 LLM 的全新认识。

我们大多数人可能都听说过 AlphaGo 使用的强化学习 —— 该 AI 模型掌握了复杂的围棋，并最终击败了世界顶级人类玩家。

AlphaGo 最初在一个包含 3000 万个人类棋盘下法的游戏数据库上进行训练，然后通过使用自我对弈强化学习，使性能更加出色。它被允许模拟成千上万场游戏，当它的落子可以导致胜利时，就能获得奖励。这个过程就被称为「强化」，可以让模型实现自我提升。

现在，LLM 使用强化学习已不鲜见。基于人类反馈的强化学习（RLHF）早已被 Anthropic 和 OpenAI 等领先公司广泛使用。『DeepSeek』的新颖之处在于：他们的 R1-Zero 模型表明，可以在极其有限的人为干预下使用强化学习，并最终得到一个高性能的推理模型。

随着『DeepSeek』的出现，我们现在可能有三种可重叠使用的方式来改进模型：scaling 预训练、scaling TTC、在微调中 scaling RL。这些方法能让我们的模型变得更好。然而，第三种方法，即基于 RL 的微调，可能不仅仅是另一个旋钮，因为它可以解锁强大的自我改进反馈循环。

『DeepSeek』的创新之处在于它能够使用模型生成自己的推理轨迹，使用轻量级 RL 对其进行改进，然后将这些改进的输出放回训练中。升级后的模型会生成更好的轨迹，并进一步完善，依此类推。循环的每一次转变都会增强模型在各个领域的推理能力。这种递归改进过程（合成数据不断改进生成它的模型）打破了对新的人类数据的传统依赖，推动了模型性能提升。

今日霍州(www.jrhz.info)©️

一份突出 LLM scaling 新方法诞生的关键时刻的粗略时间表

『DeepSeek』系列模型

『DeepSeek』发布的一系列模型推动了 LLM 世界的发展进步，而其中最激动人心的莫过于他们使用强化学习创造了『DeepSeek』-R1-Zero。

下面将基于『DeepSeek』 R1 论文来深挖可以如何使用 RL 来训练模型，但在此之前，先要区分与本节内容相关的三个不同的『DeepSeek』模型：

『DeepSeek』-V3：V3 是一个 671B 参数的稀疏混合专家（MoE）模型，于 2024 年 12 月发布。与密集模型不同，MoE 模型的一部分参数（专家）会在处理不同类型的输入时激活。凭借低廉的训练成本，这个模型震惊了 AI 行业。
『DeepSeek』-R1-Zero：R1-Zero 是『DeepSeek』使用 V3 作为基础模型训练的推理模型。重要的是，他们使用了 RL 对其进行微调，没有 SFT 或任何人类数据（这一概念后面将详细介绍）。它性能出色，但不适合日常使用，因为它在生成人类可读的输出方面存在问题，并且经常在输出中混用多种语言。尽管如此，它还是很有价值，展示了可以如何通过使用硬编码验证器的 RL 生成性能卓越的推理模型。
『DeepSeek』-R1：R1 是 R1-Zero 的「清洁版」。它采用了与 R1-Zero 类似的训练过程，但还使用了有限的 SFT 来完善其输出并使其更适合日常使用。

今日霍州(www.jrhz.info)©️

V3、R1 和 R1-Zero 之间的关系图示

下面我们再来看看『DeepSeek』团队是如何使用 RL 创建 R1-Zero 的，然后再了解它可以如何转化为去中心化设置。

R1-Zero 是如何炼成的？

常见的 RL 后训练设置如下：

监督微调（SFT）——SFT 是在精心整编的高质量输入输出对数据集上训练模型，其中输出展示所需的行为，例如逐步推理或遵循特定指令。包括问题的稳健答案、指令集或要遵守的规则，和 / 或提示词和思维链示例。使用 SFT 的理念是：通过向模型提供一组极高质量的数据，它可以学习模仿这种类型的行为。
基于人类反馈的强化学习（RLHF）——RLHF 通常是在少量 SFT 之后。由于 SFT 需要高质量的人类数据，RLHF 能补充这个过程，方法是使用人类偏好来训练奖励模型，这反过来又能为模型创建一个框架，使其能够根据自己的响应进行自我训练。

但『DeepSeek』-R1-Zero 在几个关键方面偏离了这个过程。

丢弃 SFT

『DeepSeek』的研究团队没有采用先 SFT 然后 RL 的两步流程，而是完全放弃了 SFT 流程。本质上，『DeepSeek』采用了 V3，并在有限的护栏设置下，为其尽可能地提供了足够的时间和计算能力，助其学习如何推理。

移除 SFT 步骤有几个有趣的好处，但也有一些缺点。

优点

通过移除一整个训练过程，减少了训练的计算需求。
由于模型之前没有受到基于人类的微调数据的影响，因此让模型在 RL 期间有更广泛的探索窗口。

缺点

R1-Zero 的可读性较差，并且经常在答案中混合多种语言。它具有很强的推理能力，但本质上不适合与人类交互。也因此，『DeepSeek』在训练 R1 时重新引入以人为中心的数据。

用 GRPO 代替 PPO

『DeepSeek』训练方法的另一个主要区别是使用组相对策略优化（GRPO）作为其 RL 框架，而不是更常见的近端策略优化（PPO）。同样，这让 RL 更简单且计算密集度更低了。下面简单介绍一下 GRPO 和 PPO 之间的区别：

近端策略优化（PPO）

使用 PPO 的 RL 有三个组件：

策略模型 - 「策略模型」是核心模型，是最终想要训练的模型。
奖励模型 - 奖励模型是根据人类偏好进行训练的模型，用于评估策略模型的输出。在实践中，人类会对 LLM 输出的一小部分进行评分，然后这些评分会被用于训练奖励模型以反映人类的偏好。奖励模型的作用是评估策略模型，以便策略模型可以学习优化以获得更好的响应。
价值模型 - 价值模型（或 critic）是一个神经网络，它的作用是估计给定状态下未来奖励的预期总和，通过提供部分完成的价值估计来帮助引导策略模型。

下面用一个比喻来说明这些组件协同工作的方式。想象一下你正在写一篇文章。价值模型就像有一个导师在监督你，他可以根据你到目前为止写的内容预测你的最终成绩。这很有用，因为你不想等到整篇文章完成后才知道你是否走在正确的轨道上。可以类比成这样的过程：

今日霍州(www.jrhz.info)©️

此示例说明了策略、价值和奖励模型协同工作的方式以分析和改进 LLM 的行为。

下面给出该过程的更清晰说明：

策略模型收到提示词后开始推理答案。
价值模型评估每一步的当前状态并预测预期的未来奖励，帮助指导策略在生成响应时的决策。
奖励模型评估完整响应，为最终结果分配分数，以便策略可以学习给出更好的输出。
对于给定的响应，将对价值模型的预测分数和奖励模型的实际分数进行比较。然后使用此信息来改进策略模型。

今日霍州(www.jrhz.info)©️

解释 PPO 过程的简版流程图

这里有个值得记住的要点。在 PPO 中，在奖励模型之外还使用价值模型曾被认为是很关键的，因为研究者认为需要能够评估中间模型推理才能训练最佳模型。由于 LLM 的核心能力是按顺序选择最佳的下一个 token（单词），因此如果能够理解响应的每个部分对最终结果的影响，就会很有意义。例如，句子「the cat ran」涉及三个决策（the、cat 和 ran）。如果奖励模型要给这个句子打高分，价值模型将使我们能够了解哪些特定单词是最优的，以及三个单词中是否有次优的。也许「the」和「cat」很棒，但选择「sat」会让整个响应获得更高的分数。它允许训练期间的反馈更加细粒度。这似乎合乎逻辑，对吧？确实如此，但『DeepSeek』对 GRPO 的表明情况可能并非如此。

GRPO

GRPO（Group Relative Policy Optimization）是一种与 PPO（Proximal Policy Optimization）不同的强化学习后训练方法。GRPO 的核心区别在于完全摒弃了价值模型。它主要包含两个组成部分：1）策略模型；2）奖励模型。

为了进一步简化强化学习过程，『DeepSeek』的奖励模型并不是基于人类偏好的神经网络。相反，它采用了一个非常简单的奖励框架，专注于可验证的奖励（即某件事是对还是错，用 1 或 0 表示）。

GRPO 流程大致如下：

对于给定的单个提示，策略模型生成多个输出；
奖励模型对所有的响应进行打分；
GRPO 会计算输出组的归一化平均分数，并根据每个单独响应的分数与平均值的比较来评估每个响应；
该模型使用得分最高的完整输出来了解哪种总体响应模式效果更好。

下图对比了 PPO 和 GRPO 方法：

今日霍州(www.jrhz.info)©️

GRPO 通过大幅简化奖励过程并完全去除评判模型（critic model），大幅减少了内存和计算开销。评判模型通常与策略模型大小相当，并且需要在整个强化学习（RL）过程中不断更新。『DeepSeek』估计，仅此一项改进就使开销减少了大约 50%。

现在，我们已经了解了监督微调（SFT）以及 PPO 和 GRPO 之间的区别，可以更清晰地看到『DeepSeek』的 R1-Zero 训练过程实际上是多么简单。他们从一个性能良好的混合专家（MoE）基础模型（『DeepSeek』-V3）开始，实现了一个轻量级、硬编码的 GRPO 框架，然后基本上让模型通过试错来学习。

下图表明，随着时间的推移，R1-Zero 学会了思考更长时间，并得出更准确的答案。这一进步并非源自人工标注数据或精选数据集，而是通过一个闭环学习过程实现的：生成推理路径→评估效果→强化最优路径→循环迭代。这种自我反馈机制推动模型持续进化，无需依赖外部新增数据，恰好规避了 Ilya 所指出的预训练数据收集难题。

今日霍州(www.jrhz.info)©️

『DeepSeek』-R1 论文图表显示：随着训练推进，模型学会了进行更长时间的思考（左图），同时回答准确率也不断提升（右图）。

尽管这一方法看似简化，却最终造就了一个强大的推理模型。更重要的是，它指明了一条全新的能力扩展路径：模型可以通过自我输出的学习、自主生成合成数据来实现自我提升。这才是最关键的突破 —— 它正在开启模型进化的全新范式。

今日霍州(www.jrhz.info)©️

一张极其简明的示意图，展示了 GRPO 式强化学习开启的模型自我提升良性循环。

尽管这一成果意义重大，但必须指出：R1-Zero 并非适合日常使用的成熟模型 —— 其输出常混杂多种语言，导致人类难以阅读。为解决这些问题，『DeepSeek』团队通过更精细的调优流程，最终开发出实用性更强的推理模型 R1。

对于 R1，『DeepSeek』没有在 V3 上直接进行 GRPO RL，而是将微调分为四个阶段：

阶段 1：冷启动 SFT

为确保最终获得人类可读的模型，『DeepSeek』团队采用了冷启动监督微调（SFT）方案。其核心是为模型提供定向数据集，以引导其形成预期的推理模式。虽然该数据的完整细节尚未公开，但研究人员透露：他们收集了数千条冷启动数据，形式包括：附带长思维链（CoT）的小样本提示、经过『DeepSeek』-R1-Zero 的可读输出。同时团队还引入了人工标注员进行后期处理。

这一过程至少明确揭示：人类干预在关键阶段仍不可或缺。

阶段 2：使用 GRPO

这与训练 R1-Zero 的 GRPO RL 步骤相同。

阶段 3：拒绝采样 SFT

在此场景下，拒绝采样是指通过奖励模型的筛选机制对模型输出进行评分排序，仅选取最高分的样本用于后续微调。『DeepSeek』团队采用两轮筛选机制处理了 80 万条数据样本，其构成包含：60 万条推理相关样本（涵盖数学、逻辑等任务），20 万条非推理样本（如文本创作、自我认知等）。

阶段 4：RL

在这轮强化学习中，重点在于提示和学习，以使模型更具人类一致性。具体来说，『DeepSeek』的目标是增加模型的有用性和无害性。『DeepSeek』报告称，他们使用了多个奖励模型来鼓励他们所期望的全面的人类一致性行为。

R1-Zero 与 R1

如果你把所有这些放在一起，并将其与 R1-Zero 方法进行对比，你会得到一个看起来像这样的过程：

今日霍州(www.jrhz.info)©️

这张图对比了『DeepSeek』如何使用 V3 作为他们的初始模型，然后使用不同的微调方法来到达 R1- zero（左）和 R1（右）。

『DeepSeek』的几个关键要点：

极其简单的强化学习可以激发标准 LLM 中的复杂且高效的推理行为；
这种强化学习过程在很大程度上依赖于推理时间计算来生成推理痕迹；
该强化学习过程得益于为给定提示并行生成许多推理跟踪；
这种强化学习风格严重依赖于可靠且稳健地验证输出以塑造模型的行为。

构建去中心化强化学习网络

『DeepSeek』不仅通过 GRPO 验证了纯强化学习的价值，更揭示了两个关键需求：海量推理数据，以及生成这些数据所需的训练环境。这一观点随后得到两位 AI 大佬的证明 —— 就在 R1 发布后不久，Andrej Karpathy 在推文中直言：

今日霍州(www.jrhz.info)©️

其次，Yann LeCun 进一步强调了 Andrej Karpathy 的观点：

今日霍州(www.jrhz.info)©️

去中心化 RL 组成部分

这里提供了三个主要组件，并把各干组件用俏皮的名字命名。

A) 基础 — 基础模型 + 用于训练它们的去中心化网络；

B) 训练场 — 用于生成多样化、高质量推理数据的环境 + 协调贡献的去中心化网络；

C) 优化器 — 执行微调的去中心化网络。

基本组件如下所示：

今日霍州(www.jrhz.info)©️

A) 基础：预训练基础模型

关于『DeepSeek』生成 R1 模型的过程，关键点在于他们需要从一个高性能基础模型（V3）起步，才能使其精妙的强化学习流程发挥作用。正是基于这个拥有 6730 亿参数的 MoE 模型，他们才能充分受益于 GRPO 的简洁性。如果从 V3 的蒸馏版本或更差的模型开始，将无法获得同等效果。因此，尽管『DeepSeek』让更多人关注到通过精简强化学习实现扩展的可行性，但这不应掩盖一个关键事实：预训练出越来越好的模型仍然至关重要。正如 Anthropic 团队讨论中 Dario 所言，他们必须将模型扩展到足够规模，因为早期较小的模型还不够智能，无法在其基础上进行 RLHF。

需要强调的是，以去中心化方式预训练顶尖基础模型，无疑是整个体系中最困难的环节。预训练过程中巨大的通信开销，以及应对计算力或内存受限节点的技术方案，都极为稀缺。

最简易的实现路径，是采用中心化训练的基础模型（如『DeepSeek』-V3、最新 LLaMa 或 Qwen 模型等），仅在微调阶段引入去中心化。这虽能大幅降低难度，却违背了构建端到端去信任化流程以产出前沿模型的初衷。

这看似哲学层面的讨论，但若仍依赖中心化机构提供基础模型，去中心化强化学习的意义将大打折扣。因此，我们必须建立去中心化的预训练网络。

B) 训练场：生成推理数据

微调 R1 需要海量数据 —— 既需要冷启动数据开启微调流程，又需要超过 80 万条中间阶段数据点来提升模型泛化能力。现在的问题是：我们能否去中心化地生成这些数据？答案是肯定的。事实上，分布式环境非常适合这类任务。

环境与轨迹

回顾 Karpathy 的推文，开放分布式是实现海量数据目标的理想方式。为此我们需要构建一个框架，允许任何人为多样化任务贡献推理样本（称为轨迹）。贡献者不仅能够提交轨迹，还能创建标准化环境来生成不同类型的数据。也就是说，我们需要标准化的环境来生成数学推理、物理、医学、工程、写作等各领域的轨迹。构建这样一个能生成和收集轨迹的多样化环境体系，将形成庞大的数据库供所有人用于模型微调。

这种方法本身并不一定新颖，但随着『DeepSeek』展示了其方法的有效性，它现在获得了新的重要性。早在 OpenAI 的早期，该公司发布了一个名为 OpenAI Gym 的平台，为开发者提供了一个环境，用于测试不同的强化学习算法以完成基本任务。类似地，SWE-Gym 是测试智能体软件工程能力的流行环境，CARLA 用于自动驾驶车辆，Pybullet 用于物理仿真。

当然，还需要有可靠的方法来评估这种推理数据的正确性。在『DeepSeek』中，当无法通过程序化方式验证输出（例如数学问题）时，他们采用了基于 LLM（『大语言模型』）的评估方法，即将样本输入『DeepSeek』-V3，让其进行评判（例如评估写作样本的质量）。对于我们的训练场，不仅要有环境，还需要为许多不同类型的数据配备验证器 —— 如果不能可靠且一致地验证正确答案，推理数据又有什么用呢？强化学习扩展所需的稳健验证如此重要，以至于 AI/ML 领域的先驱、《苦涩的教训》的作者 Rich Sutton 早在 2001 年就写过这一概念。

今日霍州(www.jrhz.info)©️

推理数据示例：

今日霍州(www.jrhz.info)©️

来自开源项目 General Reasoning 的完整推理数据示例。

为了进一步探讨开发稳健验证器的需求，我们需要在『DeepSeek』 R1 和 R1-Zero 所实现的基础上进行创新。他们的 GRPO（Group Relative Policy Optimization）设置之所以效果显著，是因为许多问题都有简单的二元验证（例如，数学问题的正确答案为 1 或 0）。但如何处理更复杂、更微妙的场景呢？如何处理跨领域的请求奖励？在编码任务中，我们如何为不完美的输出分配分数，例如奖励正确的语法？如果领域本身含糊不清，我们没有一个适合它的奖励策略，该怎么办？模型在数学和编码等更客观领域的熟练程度，能否推广到写作和语言等主观领域？

展望未来，随着对设计最佳推理环境的进一步探索，一定会有很多创新。去中心化网络所固有的协作和开放实验精神将是推动这一领域进步的关键。

总结

如果你以怀疑的眼光来看待去中心化 AI，也没有关系 —— 这个领域正需要更多质疑的声音。

但即便你持怀疑态度，也请特别关注训练场模块 —— 在整个强化学习体系中，这是最明确、最直接受益于去中心化的环节。与预训练或微调过程不同，去中心化在此不会引发相同的性能挑战。

不过，正如 Karpathy 所说，创建多种经过验证的环境以生成强化学习策略的任务是高度可并行化的。

从高层次来看，基于 GRPO 的去中心化强化学习应该比去中心化预训练更容易实现。

最后，去中心化 RL 的一些注意事项包括：

通信量：在预训练场景中，整个训练过程中需要计算和通信的信息量远远高于微调阶段。对于预训练，基于每个 token，你需要为每一个可能的下一个 token 计算分数，并计算梯度。而在强化学习（RL）中，你只需要更简单地为一组完整的字符串响应计算优势分数 —— 不需要在每个 token 步骤上都进行评分。这使得整个过程对内存的需求大大减少。

GRPO 的效率：随着『DeepSeek』展示了 GRPO 的可行性，我们拥有一种比 PPO（Proximal Policy Optimization，近端策略优化）更适合去中心化的强化学习方法。我们不仅看到 GRPO 大幅减少了强化学习中所需的计算能力，还应记住『DeepSeek』也摒弃了评判模型（critic model），转而使用一个非常轻量级的奖励系统。这使得强化学习过程在去中心化过程中需要的协调工作大大减少。没有评判模型意味着我们不需要一个去中心化网络在运行过程中同时更新策略和评判模型。而轻量级的奖励模型也意味着我们在训练该模型时需要投入的计算资源更少。

量化：量化是一种用于减小模型大小以便于部署的过程。鉴于这一部分比前面的内容稍显技术性和复杂，本文把它分成三个小节来帮助解释。

概述：量化通过使用较低精度的数据类型（如 8 位整数或 16 位浮点数）来表示模型的权重和激活值，而不是使用 32 位浮点数。

为了借助一个比喻来解释量化，如果你把模型想象成画作，那么全精度模型就像是用艺术家完整的颜料系列（每一种色调和色相）创作的画作。而量化模型就像是试图用更受限的颜色集合来创作同一幅画，比如说，仅用黑白两色。你仍然可以得到一幅能够清晰代表原作的作品，但最终结果的保真度较低，且丢失了一些细节。

一张简单的图像展示了量化的效果

这个比喻指出了量化中存在的一种权衡。虽然量化可以使模型变得更轻量级，但你最终得到的模型可能会不够准确。如果模型的每个参数包含的信息较少，那么它执行的数学计算自然会不够精确。

当前创新现状：量化在推理中被广泛使用，通常被认为不适合预训练场景，并且在强化学习（RL）中的应用还相对较少。然而，哈佛大学和谷歌 DeepMind 的研究人员进行的一项合作研究表明，在基于 PPO（近端策略优化）的强化学习中，使用 8 位量化能够显著加快训练时间。他们的基本设置是让量化的 actor 模型生成输出，而全精度的 learner 模型负责更新。通过这种设置，他们报告的训练速度比全精度训练快 1.5 到 2.5 倍。

QuaRL 中的学习器、量化器、参与者的设置。

除此之外，『DeepSeek』实际上在 FP8 精度上训练了 V3 的大部分内容，表明并非所有预训练操作都需要完全精度。要讨论他们如何做到这一点可以写成一大篇文章，但本质上，『DeepSeek』隔离了预训练的组件，其中 FP32 或 BF16 至关重要，而 FP8 的准确度下降则没问题。

虽然有一些令人兴奋的研究正在更好地将量化纳入完整的 AI/ML 堆栈，但当前的硬件限制仍然是进步的障碍。目前，只有 4000 系列和更新的『英伟达』 AI 卡原生支持 FP8 量化。这意味着只有更高端的消费卡才能利用量化。不过，随着时间的推移和消费卡中量化支持的普及，我们可以预期量化将得到更常规的利用。

要点：虽然需要在该领域进行更多研究，但早期的进展迹象预示着去中心化将取得良好进展。为什么？将计算分散到多样化、异构的计算网络中通常意味着并非计算网络中的每个参与者都会拥有多个 GPU 集群，也不必是最先进的单个 GPU。在这里，内存限制会发挥作用，那些硬件有限的人可能会被排除在网络参与之外。然而，有了量化的能力，我们可以实现更快的性能，同时还可以将模型缩小到更小的尺寸，更好地促进内存受限硬件的个体参与研究。

分布式通信技术

与预训练相比，RL 具有更轻量的特性，因此分散微调过程应该是完全有可能的。

在非常高的层次上，在分散的 RL 训练网络中，你可以拥有非常轻量级的「推理节点」，然后与更强大的「工作节点」进行协作。如果实施模型并行方法，推理节点可以是在本地下载小型量化模型的单个参与者，甚至可以下载模型的片段。这些节点可以运行推理并计算奖励，然后以不频繁的间隔将结果发送回训练模型，然后训练模型将进行更多计算密集型梯度更新。在处理跨庞大的并行工作器网络的部署时，大部分工作将集中在隔离如何以及何时协调策略更新。

为了实现这一点，一个有效的路由方案对于将请求路由到全球各地的推理节点至关重要。一种现有的方法是 Ryabinin 等人提出的 SWARM 并行框架，在预训练环境中，该框架能够在为地理分散的 GPU 提供训练工作时考虑地理距离和特定节点的计算效率。

同样，关键是设计一种极其高效的路由算法，该算法可以确保不会使特定工作者超载，调整以平衡工作者完成时间，处理容错，当然还有一种同步算法，可以大大减少优势和梯度同步的频率。这绝不是一个简单的挑战，但它比预训练更容易解决。

以下是针对微调设置量身定制的三种方法：

PETALS

PETALS 提出了一种有趣的方法，通过协作推理和微调使大型语言模型的访问变得平民化。该系统的开发是为了解决 LLM 领域的一个关键挑战：虽然已有高性能的开源模型可供下载，但通常推理内存（以及用于微调的内存）使大多数研究人员和从业者望而却步。

PETALS 通过将计算分布在多个参与者之间来实现大型模型的协作使用。在这个系统中，有两个主要参与者：『服务器』和客户端。每个『服务器』存储模型层的子集（通常是连续的转换器块）并处理来自客户端的请求。

PETALS 中的图表显示了模型在各个『服务器』上的拆分情况。

客户端可以调用管道并行『服务器』链来对整个模型进行推理，每个『服务器』仅保存其可用 GPU 内存允许的块数。

来自客户端的请求通过一系列『服务器』进行路由。

该系统的架构在处理推理和训练方面特别巧妙。在推理过程中，客户端仅在本地存储模型的标记嵌入（占总参数的一小部分），并依靠『服务器』来处理转换器块。当客户端启动推理会话时，它首先建立一个『服务器』链，这些『服务器』共同保存所有模型层。然后，客户端使用其本地嵌入层来处理输入标记，通过『服务器』链发送结果向量，并接收最终输出表示以计算下一个标记概率。

PETALS 的一项关键创新是其微调方法。PETALS 不需要完整的模型实现，而是支持分布式参数高效训练，其中客户端「拥有」其训练过的参数，而『服务器』托管原始的预训练层。『服务器』可以通过其层执行反向传播并返回与激活相关的梯度，但它们不会更新『服务器』端参数。这样，多个客户端就可以在同一组『服务器』上同时运行不同的训练任务，而不会相互干扰。

为了提高效率，PETALS 采用了多项优化措施。它使用动态分块量化将管道阶段之间的通信缓冲区压缩为 8 位，从而降低带宽要求，而不会明显影响生成质量。该系统还采用了复杂的路由算法，帮助客户端找到最佳『服务器』链，同时考虑了网络延迟和『服务器』负载等因素。

在实践中，PETALS 在交互式使用方面取得了令人印象深刻的性能 - 在消费者 GPU 上以每秒约 1 步（前向传递）的速度运行 176B 模型的推理。这使得它适用于许多交互式应用程序，同时保持了研究人员访问模型内部和试验微调方法所需的灵活性。

DiPaCo

另一种与 MoE 模型特别相关的有前途的方法是 Google DeepMind 研究人员提出的分布式路径组合 DiPaCo。它引入了一种分发和微调 MoE 模型的新方法，这对去中心化网络尤其有价值。传统的 MoE 训练要求每个节点将整个模型存储在内存中 - 对于参与者资源有限的去中心化网络来说，这是一个重大障碍。DiPaCo 采取了不同的方法，将模型分解为 “路径”。每条路径代表一条精心构建的网络路线，其中包括来自每个 MoE 层的专家模块子集，以及相应的路由组件和必要的层规范化组件。

DiPaCo 的关键创新在于它如何处理训练和推理。在训练期间，数据会按路径预先分片和分发，这意味着每个工作者只需要通过其特定的路径配置处理数据。这是通过在文档级别而不是每个标记上做出路由决策来实现的，允许对序列的所有标记进行批处理计算，而无需交换模块。每条路径都设计得足够小（大约 150M 个参数），以适应中等规模的 GPU 硬件，从而可以更广泛地参与去中心化网络。

DiPaCo 的图表显示了数据分片通过地理上分散的 GPU 上托管的相关路径进行路由。

在 DeepMind 的实验中，DiPaCo 表现出了卓越的效率 - 一个由 256 条路径和 1.5 亿参数组成的网络能够匹配密集的 13 亿参数模型的性能，同时所需的训练时间减少了 45%。然而，另一方面，这种方法被证明是极其低效的 FLOP；DiPaCo 需要更多的计算才能实现与相同密集模型相似的困惑度分数。

不过，DiPaCo 对分散实施有着有趣的影响。在 DiPaCo 中，无论是在训练期间还是在评估时，整个网络都不需要在一个地方实现。完整模型仅作为分散硬件上路径的虚拟组合而存在，每条路径都可以独立提供服务。此外，DiPaCo 的架构自然支持异构硬件（实验中使用了美国、日本和英国的 A100 和 TPU 的混合体），允许弹性资源利用，并通过路径冗余提供内置容错能力。按路径分配计算的基本原理对于分散式网络可能很有价值，因为在分散式网络中，以有限的硬件资源和最小的通信开销参与的能力至关重要。

Gensyn AI 团队开发的 RL Swarm

RL Swarm 由领先的去中心化 AI 公司 Gensyn 的研究人员开发，是一种分布式强化学习的协作方法，直接建立在『DeepSeek』的 R1 GRPO 流程之上，目前已在 Gensyn 的测试网上上线。我们已经强调『DeepSeek』展示了模型可以在没有 SFT 或批评模型的情况下通过强化学习进行自我改进，但 RL Swarm 通过使多个策略模型能够在分布式环境中协作学习，进一步推进了这一概念。

RL Swarm 的关键创新在于其点对点学习结构，其中模型不仅可以自我评估，还可以评估和学习彼此的推理过程。这使 RL 动态从一项单独的努力转变为一项协作努力，其中模型受益于同行的探索和见解。

Gensyn 为 RL Swarm 设置的实验利用了较小的 Qwen-2.5b-1.5B 模型，并在数学推理数据集 (GMS8K) 上进行了训练。其遵循一个三步流程，正如 Gensyn 团队所强调的那样，该流程反映了一个协作研究小组：

回答阶段：将多个策略模型加载到单独的硬件中，然后这些模型独立生成对给定提示的多个响应（通常每个问题有八个答案），计算奖励，确定优势，计算损失，并按照 GRPO 方法执行梯度更新。完成这些单独的工作后，每个模型都会与群中的其他模型分享其最佳答案。
批评阶段：模型检查同行提供的答案并提供结构化反馈。这创造了一种动态，激励模型既能提供高质量的答案，又能培养评估他人回答的技能。
解决阶段：每个模型都会投票选出最佳答案。然后基于这种集体评估，模型会针对原始提示生成最终的修订答案。

RL Swarm 的三步流程。

与单独训练的模型相比，RL Swarm 方法展示了几项改进。首先，实验表明，在 RL Swarm 中训练的模型通常比单独训练的模型获得更高的奖励（例如，它们始终产生更优的输出）。其次，同行评审过程始终产生更多人性化的输出，正如 swarm 训练的模型所证明的那样，它们产生的响应更具人性化，推理更深入。具体而言，Swarm 模型产生了更长、更结构化的响应，格式更好，包括正确使用项目符号、间距和 LaTeX 进行数学符号表示。这表明协作评审过程创造了一种新行为，其中模型不仅针对正确性进行优化，还针对清晰度和可理解性进行优化。

RL Swarm 论文中的一张图表显示了 RL Swarm 训练模型和单独训练模型之间的响应长度差距。

鉴于模型之间所需的通信轻量级特性以及消除复杂的批评网络，RL Swarm 代表了一种有前途的方法，可以在保持训练效率的同时扩展分布式强化学习。同伴学习框架是开源的并且已经上线，利用 Ryabinin 等人的 Hivemind 库来处理跨节点通信。虽然 RL Swarm 还处于发展初期，但它对于领域内来说已相当令人兴奋 —— 它是我们今天拥有的最具体的分布式 RL 框架。

未来的探索领域

在最近一次 Dwarkesh Patel 播客中，谷歌传奇程序员 Jeff Dean 和 Noam Shazeer 推测了未来构建高度模块化模型的方法。他们的一些想法对于分散训练和微调的应用非常有吸引力。而且由于分散训练领域还很年轻，我想将其中一些推测纳入本报告，它或许可以作为我们想构建哪种类型的网络的有用指南。

在谈话的最后，Dean 和 Shazeer 讨论了 AI/ML 发展的未来状态。似乎受到他们在 Pathways 上工作的影响，他们想象了一个世界，其中稀疏的 MoE LLM 可以分成专家的模块化细分，每个部分都可以单独进行训练和改进。然后可以将这些部分交换到更大的模型中以扩展其功能。

虽然这在今天绝对不可能实现，但它描绘了一个令人兴奋的未来，你可以将一个模型拆分成更小的专家部分，使用强化学习使这些专家块更好地完成一项任务，然后将它们重新组合成一个更大的模型。这个过程将是高度可并行的，因为世界各地的人们可以同时致力于改进和更新模块。这显然可以很好地转化为大规模的分散强化学习。

Gensyn 朝着实现这一未来迈出了一步。在他们最近的论文《HDEE: Heterogeneous Domain Expert Ensemble》中，他们展示了你可以并行训练小型、异构和模块化专家模型，然后通过一种名为 ELMForest 的技术将它们连接到一个集成中。研究人员表明，这些集成虽然推理效率较低，但优于用较少异构性训练的模型。

这并不是 Dean 和 Shazeer 梦想的实现 —— 最终的集成不是一个单一的模型，而是产生独立输出的独立网络，这些输出在推理后组合成统一的答案。虽然全面深入探讨差异和未来方向超出了本文的范围，但这是一个相当令人兴奋的发展，并且引出了一个问题，即它是否可以与 RL Swarm 合并以创建更高效的领域专家。我非常期待想看到这项研究随着时间的推移将如何发展。

展望未来

虽然围绕去中心化强化学习的某些工作似乎有些牵强，但令人兴奋的探索已经开始。Hugging Face 正在开发 Open R1，这是一个旨在构建完全开源版本 R1、数据集、训练程序等的项目。Prime Intellect 已经在努力通过他们的 SYNTHETIC-1 运行以半分布式方式复制『DeepSeek』-R1 的训练。他们已经完成了分布式数据收集并正在进入训练阶段。

本文的开头讨论了『DeepSeek』如何引起人们对基于 GRPO 的强化学习中一种新的扩展方法的关注。虽然有一些开创性的论文为训练和 TTC 的特定、普遍认可的扩展原则奠定了基础，但我们仍不知道扩展强化学习的局限性。需要多少数据和什么类型的数据才能获得最有效的 SFT？可以将基于 GRPO 的强化学习扩展到多大规模以将模型性能推向极限？基础模型的性能必须有多好才能获得强化学习的好处？我们尚不确定这些问题的答案，但我们已在进入人工智能创新的新阶段，这将在 LLM 扩展中对 RL 进行测试。

而去中心化、众包激励的网络将在其中发挥作用。