【未来虫教育】究竟需要多少 RL 资源?

发布日期:2025-09-13 13:10    点击次数:59

当前的 RL 数据集相对较小。例如,DeepSeek-R1 在大约 60 万个数学问题上进行了训练,这相当于人类连续努力六年的工作量(假设每个任务耗时五分钟完成)。相比之下,重建 GPT-3 那包含 3000 亿 token 的训练语料库,若按人类平均书写速度计算,需要大约数万年的写作时间。

需要说明的是,要达到与当前前沿模型预训练预算相当的 RL 计算支出,按人类完成相同任务所需时长来衡量,可能需要大约上万年。 DeepSeek-R1 在 RL 阶段使用了约 6e23 FLOP 的计算量 [1],按人类效率折算,对应约 6 年的时长。假设未来的训练任务使用与 DeepSeek-R1 相似的训练轮次(epochs)和组大小(group sizes),将此扩展至约 6e26 FLOP 意味着需要人类约 6000 年的工作时长。

尚不确定未来的强化学习训练会需要更大的还是更小的组规模(group sizes)、抑或是更多的训练轮次(epochs),尤其是随着任务分布多样性的增加。我们在这方面缺乏足够的数据,因此精确估算等效的人类工作时间仍很困难,尽管 1 万年左右似乎是一个较为合理的数量级。

这一过程要求模型完成的工作量,其规模可与 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型项目相当 ------ 每个项目估计都需要约 1 万年的累计人类工作量。

展开剩余32%

将强化学习(RL)扩展到这一规模在经济上是高效的。由于算力成本在总训练成本中占据主导地位,将强化学习的规模提升到与预训练预算相当的水平,能在不明显增加总成本的情况下带来大幅的性能提升。 然而,要实现这一目标,就必须大规模扩展强化学习环境(RL environments)的体量,同时确保任务能够实现自动化评估。这很可能需要开发新的构建强化学习环境的方法。

发布于:湖南省

上一篇:天蝎座爱到深处才会显露的三个致命弱点
下一篇:对越反击战:为何1个月速胜后,中国还要打10年拉锯战?

Powered by 重庆时时彩开奖记录表 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024