【未来虫教育】究竟需要多少 RL 资源？

当前的 RL 数据集相对较小。例如，DeepSeek-R1 在大约 60 万个数学问题上进行了训练，这相当于人类连续努力六年的工作量（假设每个任务耗时五分钟完成）。相比之下，重建 GPT-3 那包含 3000 亿 token 的训练语料库，若按人类平均书写速度计算，需要大约数万年的写作时间。

需要说明的是，要达到与当前前沿模型预训练预算相当的 RL 计算支出，按人类完成相同任务所需时长来衡量，可能需要大约上万年。 DeepSeek-R1 在 RL 阶段使用了约 6e23 FLOP 的计算量 [1]，按人类效率折算，对应约 6 年的时长。假设未来的训练任务使用与 DeepSeek-R1 相似的训练轮次（epochs）和组大小（group sizes），将此扩展至约 6e26 FLOP 意味着需要人类约 6000 年的工作时长。

尚不确定未来的强化学习训练会需要更大的还是更小的组规模（group sizes）、抑或是更多的训练轮次（epochs），尤其是随着任务分布多样性的增加。我们在这方面缺乏足够的数据，因此精确估算等效的人类工作时间仍很困难，尽管 1 万年左右似乎是一个较为合理的数量级。

这一过程要求模型完成的工作量，其规模可与 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型项目相当 ------ 每个项目估计都需要约 1 万年的累计人类工作量。

展开剩余32%

将强化学习（RL）扩展到这一规模在经济上是高效的。由于算力成本在总训练成本中占据主导地位，将强化学习的规模提升到与预训练预算相当的水平，能在不明显增加总成本的情况下带来大幅的性能提升。然而，要实现这一目标，就必须大规模扩展强化学习环境（RL environments）的体量，同时确保任务能够实现自动化评估。这很可能需要开发新的构建强化学习环境的方法。

发布于：湖南省

上一篇：天蝎座爱到深处才会显露的三个致命弱点

下一篇：对越反击战：为何1个月速胜后，中国还要打10年拉锯战？