为什么强化学习在 AI 的“下半场”中占据中心舞台

作者: Boxu Li

从预训练到 AI 的“下半场”

在被大规模预训练主导的十年之后,AI 社区正在进入被一些人称为 AI 开发“下半场”的阶段[1][2]。在上半场,进展是由新的模型架构和训练方法推动的,这些方法不懈地攀登基准[3],从卷积网络和 LSTMs 到 Transformers,所有这些都是通过对静态数据集的监督或自监督学习进行优化的。但如今,像 GPT-4 这样的前沿模型已基本饱和许多基准,仅仅扩大数据和参数的规模带来了回报递减[2]。这一转变引发了对如何从 AI 中获得更多智能和实用性的重新审视。

一个新兴的共识是,强化学习(RL)将在下一个阶段扮演重要角色。RL一直被认为是AI的“终局”——一个足够强大的框架,可以通过优化长期奖励来最终在任意任务中“获胜”[4]。确实,很难想象没有RL作为核心的超人系统,如AlphaGoAlphaStar[4]。现在,以大型预训练模型为基础,许多研究人员认为“预训练已结束”——未来的突破将来自于通过RL在交互环境中后训练这些模型。正如一篇最近的文章所说,一旦我们有了大量的预训练模型(“先验”)和合适的环境,“RL算法可能是构建高级代理的最简单部分”[5]。换句话说,我们已经用预训练“烤好了蛋糕”;强化学习是用推理和代理能力“为其加上糖霜”的关键。

姚舜育在《下半场》中阐述了这种理念。他指出,现代 AI 已经提供了一个「工作配方」——大型语言模型的预训练 + 扩展 + 推理——可以在无需新算法的情况下解决许多任务。因此,游戏规则已经改变:仅仅发明另一种架构不再能带来曾经的飞跃。相反,我们必须专注于评估和环境——本质上是那些迫使 AI 真正思考和行动的任务,而不仅仅是预测下一个标记。这不可避免地意味着使用强化学习。姚称强化学习为“AI 的终局”,并认为现在我们有了正确的成分(来自预训练的强大先验,加上包含语言和工具的丰富环境),「这个配方在下半场完全改变了游戏」。我们应该期待从静态基准转向交互式任务,以及从一次性评估转向在真实环境中的持续学习。简而言之,强化学习正成为我们推进 AI 的核心方式。

强化学习:解锁高级能力的关键

为什么重新聚焦于强化学习?简单来说,强化学习使得仅靠监督学习难以实现的能力成为可能。大型语言模型(LLMs)就是一个例子。像GPT-4这样的transformer,在互联网上的文本进行预训练,学习了大量的知识和语言模式识别能力——但它本身仍然缺乏真正的自主性。预训练教会了“如何交谈”,但不一定教会在互动环境中做出什么决策。相比之下,强化学习可以教会AI追求何种目标以及采取何种行动来实现这些目标,通过最大化反映这些目标的奖励。从被动预测转向主动试验和接受反馈,对于推理、规划和一致性至关重要。

最近关于基于LLM的代理的工作展示了强化学习如何解锁新的性能水平。例如,开源的Kimi K2模型通过端到端的强化学习进行了微调,这**「教会模型通过长推理链进行计划、反应和自我校正,而不仅仅依赖于监督后的训练」**[9]。通过强化学习,K2获得了自主推理模式——它学会了交叉检查事实,对假设进行迭代,甚至在问题看似简单时仍保持谨慎[10]。结果是一个不仅仅复述训练数据的模型,而是积极地找出如何解决新的问题。同样,K2项目强调可靠性:代理倾向于在确认答案之前进行验证,这反映了经过强化学习训练的倾向,即优先考虑正确性而非速度[11]。本质上,强化学习赋予模型内部的「代理性」循环,实现计划和反思,使其超越下一个标记预测的局限。

我们在其他高级系统中也看到了这种模式。ChatGPT自身的改进从 GPT-3 开始,主要是通过来自人类反馈的强化学习(RLHF)。在对模型进行文本预训练后,OpenAI 使用人类反馈和奖励模型对其进行了微调,显著提高了其帮助性和对指令的遵循。John Schulman——ChatGPT 的一位首席研究员——描述了这个过程:人类测试者提供了奖励信号,使模型在保持连贯对话、保持主题和避免不良输出方面表现得更好[12]。换句话说,RLHF 使模型与人类偏好和对话规范对齐。这种技术已成为将原始 LLM 转变为有用助手的事实标准。正如 WIRED 的一篇文章所述,通过提供基于反馈的奖励来优化模型,强化学习现在是一种“越来越流行”的微调方法[13]。无论是让聊天机器人遵循指令,还是赋予大型模型解决问题的能力,RL 都是在预训练完成其所有任务后首选的工具。

RL 的意义不仅仅是为了礼貌性地微调;它是关于教会模型做出决策。来自 Macaron AI’s Mind Labs 的一篇技术博客对此进行了总结:“随着大型语言模型从预训练发展到体验式学习,强化学习已成为解锁高级推理能力的关键。”[14] 前沿项目不再将 RL 视为事后补救,而是视为**“代理行为设计的第一原则,而不仅仅是最后的润色步骤”**[15]。实际上,这意味着通过将 AI 系统置于模拟或真实环境中进行训练,以便它们能够行动、获得反馈并改进——无论是浏览工具的 LLM 代理还是学习导航的机器人。通过 RL 的体验式学习 是 AI 获取无法通过静态数据集捕捉的技能的方式。

值得注意的是,新的 AI 实验室正在围绕这一理念形成。由前 OpenAI 领导者创立的初创公司「Thinking Machines Lab」刚刚以 20 亿美元的巨额种子估值启动,旨在通过强化学习和其他技术微调前沿模型。他们的旗舰产品「Tinker」旨在自动化大型模型的强化学习微调,押注于通过利用强化学习「从大模型中引导出新能力」将成为 AI 的下一个大趋势[16][17]。同样,Macaron AI(一个新的研究项目)正在设计定制的强化学习优化器和基础设施,以将强化学习扩展到万亿参数模型[18][19]。这些努力强调了一个更广泛的趋势:AI 社区在强化学习中看到推动模型达到新前沿的巨大机遇——无论是让它们更具工具使用和推理能力(如 Kimi K2 和 Macaron 的代理)还是更具对齐和定制化(如 ChatGPT 和 Tinker)。总之,强化学习现在被视为实现过去十年构建的基础模型全部潜力的关键技术。

现实世界的影响:从模拟到卫星

或许 RL 日益受到关注的最引人注目的原因是它在解决超越静态数据集沙盒的问题上取得了成功,常常实现了曾经遥不可及的壮举。游戏里程碑是第一个戏剧性的证明:DeepMind 的 AlphaGo、AlphaZero 和 OpenAI 的 Five 通过深度强化学习征服了围棋、国际象棋,甚至复杂的视频游戏。这些系统证明了,只要有明确的奖励(如赢得比赛),RL 代理可以通过纯粹的练习和优化超越人类冠军[4]。值得注意的是,OpenAI Five 在 2019 年通过纯粹的自我对抗 RL 训练击败了世界冠军 Dota-2 团队,这展示了当提供足够的经验时,现代 RL 算法的“惊人力量”[20]。该项目不仅展示了 RL 的潜力,也揭示了其挑战:它需要大规模模拟(相当于数百年的游戏时间)和巧妙的工程设计来运行,但它确实成功了,产生了超越任何基于规则的 AI 的团队合作和策略。

ADCS 盒(姿态确定与控制系统)正在安装在 InnoCube 卫星的鉴定模型中。

关键是,RL 不再局限于游戏。2022 年的一个里程碑成就是 DeepMind 使用深度 RL 实现了对核聚变等离子体的实时控制,这是以前手动控制器无法做到的。他们通过在模拟器中训练,然后部署到托卡马克反应堆,代理成功自主学会稳定聚变反应,通过操控磁线圈来约束等离子体[21]。这展示了 RL 如何处理物理学中高维度、动态控制问题,为依赖精确顺序决策的科学研究打开了新的大门[21]

多智能体互动和博弈论领域,强化学习正在展示其实际价值。一个引人注目的例子是Meta 的 CICERO,这是第一个在游戏 外交 中达到人类水平表现的人工智能,该游戏需要在多个玩家之间进行谈判和结盟。CICERO 结合了用于语言的 LLM 和经过强化学习训练的规划模块;它必须制定策略、模拟其他玩家的意图,并进行有说服力的对话。结果是一次突破——CICERO 成功地在充满谎言和虚张声势的环境中有效地与人类合作和竞争。正如观察者所指出的,这是**“第一个在需要信任、谈判和与多个玩家合作的策略游戏外交中达到人类水平表现的人工智能。”[22] 这不仅仅是棋盘游戏策略;它暗示了强化学习代理可以处理社会策略和动态的博弈论环境**。这些能力对于将来可能需要在经济、谈判或复杂组织决策中导航的人工智能至关重要。

最后,也是最引人注目的,RL完全脱离地球。在过去的一年里,研究人员实现了只能被形容为科幻变为现实的成就:轨道上的自主卫星和机器人由强化学习控制。在国际空间站上的一项美国海军研究实验室的实验中,一个RL算法(在模拟中训练)接管了一台Astrobee自由飞行机器人,并在微重力环境中成功执行了自主机动[23][24]。NRL的团队指出,这是“首次在太空中使用强化学习算法进行自主机器人控制”,这增强了人们对RL能在太空操作的严酷环境中发挥作用的信心[23]。更近的一个例子是,2025年10月30日,维尔茨堡大学的团队实现了全球首个在轨演示**:他们的小型InnoCube卫星在机载RL代理的控制下完全执行了一个姿态对齐机动[25][26]。正如首席研究员所说,“我们首次实用地证明了由深度强化学习训练的卫星姿态控制器可以在轨道上成功运行。”[26]这是一个分水岭时刻——RL已经从模拟和实验室毕业,开始在太空中控制物理系统。AI控制器在高保真模拟器中学习,然后上传到卫星上,在没有人工干预的情况下执行精确的定向任务[27][28]。以往需要数月手动调整卫星控制算法的过程被一个可以即时适应的RL代理所取代[29]。这些在太空机器人领域的成功突显了RL在真实世界的不确定性下生成能够适应和泛化的策略的能力——这是向更加自主的车辆、无人机和地球上的机器人迈出的关键一步。

启示与未来方向

所有这些例子都强调了一个关键点:强化学习正值发展成熟之际,这正是我们最需要它的时候。 随着AI进入“下半场”,挑战不再仅仅是预测,而是执行,RL为实验、适应和长期优化提供了框架。与依赖于过去数据的监督学习不同,RL使系统能够从自身经验中学习,并通过试错不断改进。这对于任何需要在非结构化、新颖环境中运作的AI至关重要——无论是处理新用户查询的助手,还是应对意外障碍的机器人。

关于我们如何衡量AI进步,还有更深层次的意义。我们不能再仅仅依赖静态基准来衡量模型的智能。相反,研究人员正在提出新的评估设置以反映现实世界:连续任务、人类参与的交互以及非独立同分布场景[8][30]。通过将此类丰富环境与RL训练结合,我们迫使模型发展出更稳健、可推广的行为。用姚的话来说,下半场将是创造能够突破基准循环并真正提供现实世界效用的代理[31][32]。对以RL为中心的实验室投资激增以及RLHF在行业中的快速采用反映出人们意识到现在是迈出这一步的时候了。

尽管如此,接受强化学习(RL)也并非没有挑战。RL 训练可能不稳定且资源密集(OpenAI Five 的高昂训练成本就是一个典型例子[20])。它通常需要快速的模拟或错误成本低的环境——在高风险领域中并不总是可用。然而,在这些方面也正在取得进展。新的算法和框架(如 Macaron 的 All-Sync RL with DAPO 优化)正在大大提高大规模 RL 训练的效率[19][33]。像 sim2real 转移、奖励建模和更安全的探索策略等技术正在帮助 RL 系统在不出现灾难性失败的情况下实现真正的部署[34][35]。重要的是,社区正在学习如何将 RL 与其他范式融合——例如,使用语言模型作为评判者或规划者,利用人类演示指导 RL(一种混合模仿学习)等。这些混合方法通常能获得两者的最佳优势:预训练的知识和强化学习的决策能力。

总而言之,现在专注于强化学习并不是为了炒作,而是认识到需求和机遇所在。我们正处在一个交汇点,我们的AI系统具有巨大的潜在能力(多亏了预训练),而激活这些能力的方式是通过目标导向的学习。无论是使AI行为与人类价值观保持一致,赋予机器人真正的自主性,还是推动AI解决新的科学和工程问题,强化学习提供了通过反馈反复改进AI的工具。我们正在见证从被动学习到主动学习和实践的转变。正如俗话所说,“带我们到这里的东西不会带我们到那里。” 表征学习的重任可能主要由大型模型完成,但将这些模型转变为有用、适应性强且值得信赖的代理,这就是强化学习的工作。通过现在投资于强化学习研究和应用,我们实际上是在迎难而上:打造能够分步骤思考、探索替代方案、从错误中恢复并最终掌握开放式任务的AI。在AI的发展轨迹中,这一转变的重要性不亚于2010年代的深度学习革命。下半场才刚刚开始,而强化学习将成为其推动力。

参考文献:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]


[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] The Second Half – Shunyu Yao – 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] 介绍 Kimi K2 思维 | 博客

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] 独家: Mira Murati 的隐形 AI 实验室推出首款产品 | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] [33] MIND LABS | 使用 DAPO 和 LoRA 扩展 All-Sync RL

https://mindlabs.macaron.im/

[18] Macaron 分析:Kimi K2「思考」模型:推进开放代理 AI - Macaron

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five 击败 Dota 2 世界冠军 | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] 通过学习等离子体控制加速聚变科学 - Google DeepMind

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO:AI在外交和关系中的应用 | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] 增强学习正在太空中引起轰动 > 美国海军研究实验室 > NRL 新闻

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] 太空中的全球首映:维尔茨堡AI控制卫星 -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友