
作者: Boxu Li
經歷了以大規模預訓練為主導的十年後,AI 社群正進入被一些人稱為 AI 發展「下半場」的新階段[1][2]。在上半場,進展主要依賴於新的模型架構和訓練方法,這些方法不斷攀升基準[3]——從卷積網路和 LSTMs 到 Transformers——所有這些都通過監督或自我監督學習在靜態數據集上進行優化。但如今,像 GPT-4 這樣的前沿模型基本上已經飽和了許多基準,簡單地擴展數據和參數已經產生遞減的回報[2]。這一轉變引發了對如何從 AI 獲得進一步智能和效用的重新思考。
一個新興的共識是,強化學習 (RL) 將在下一階段中扮演重要角色。RL 長期以來被視為 AI 的「終極目標」——一個足夠強大的框架,最終可以通過優化長期獎勵來贏得任意任務[4]。的確,很難想像沒有 RL 作為核心的超人系統,如 AlphaGo 或 AlphaStar[4]。現在,隨著大型預訓練模型作為基礎,許多研究人員認為「預訓練已經結束」——未來的突破將來自於在互動環境中通過 RL 後訓練這些模型。正如最近一篇文章所言,一旦我們擁有了巨大的預訓練模型(「先驗」)和合適的環境,「RL 演算法可能是建立高級代理人中最不重要的部分」[5]。換句話說,我們已經用預訓練烤好了蛋糕;強化學習是用推理和代理能力來裝飾它的關鍵。
在《The Second Half》中,姚舜禹闡述了這種理念。他指出,現代AI已經提供了一個「工作配方」——大語言模型的預訓練+擴展+推理——能夠解決許多任務,而無需新的演算法[2][6]。因此,遊戲規則已改變:僅僅發明另一種架構不會再產生以前的飛躍。我們必須專注於評估和環境——本質上是在那些迫使AI真正「思考和行動」、而非僅僅預測下一個詞元的任務[7][8]。而這不可避免地意味著使用強化學習。姚稱強化學習為「AI的終局」,並認為現在我們擁有了正確的成分(來自預訓練的強大先驗知識,加上更豐富的語言和工具環境),「這個配方正在徹底改變這個下半場的遊戲」[1]。我們應該預期從靜態基準轉向互動任務,從一次性評估轉向在真實環境中的持續學習。簡而言之,強化學習正逐漸成為我們推進AI的核心手段。
為什麼再次關注 RL?簡單來說,強化學習能夠實現僅靠監督學習難以達成的能力。大型語言模型(LLMs)就是一個例證。像 GPT-4 這樣的轉換器,經過網路文本的預訓練,學習了大量的知識和語言模式識別——但它本身仍然缺乏真正的自主性。預訓練教會了“如何交談”,但不一定教會在互動環境中做出什麼決策。相比之下,RL 可以教會 AI 追求什麼目標以及如何採取行動來實現這些目標,通過最大化反映這些目標的獎勵。從被動預測轉向主動試驗和接收回饋,對於推理、規劃和對齊至關重要。
最近有關基於 LLM 的代理的研究顯示,強化學習(RL)如何解鎖新的性能水準。例如,開源的 Kimi K2 模型經過端到端的強化學習微調,這**「教會模型透過長推理鏈進行計劃、反應和自我修正,而不僅僅依賴於監督後訓練」**[9]。透過強化學習,K2 獲得了自主推理的模式——它學會交叉核對事實、反覆假設,並在問題看似簡單時保持謹慎[10]。結果是,這個模型不僅僅是重複訓練數據,而是積極地找出解決新問題的方法。同樣,K2 項目強調可靠性:該代理傾向於在確認答案之前先驗證,反映了經過強化學習訓練的傾向,即優先正確性而非速度[11]。本質上,強化學習賦予模型一個內在的「代理」循環,進行計劃和反思,超越了僅僅預測下一個詞的限制。
我們也在其他先進系統中看到了這種模式。ChatGPT 自身的改進從 GPT-3 大部分來自人類反饋的強化學習(RLHF)。在對模型進行文本預訓練後,OpenAI 使用人類反饋和獎勵模型對其進行微調,這大大提高了模型的有用性和對指令的遵循。ChatGPT 的首席研究員約翰·舒爾曼描述了這一過程:人類測試者提供了一個獎勵信號,使模型在保持連貫對話、保持正軌以及避免不期望的輸出方面變得更好[12]。換句話說,RLHF 使模型與人類偏好和對話規範對齊。這項技術已成為將原始 LLM 轉變為有用助手的事實標準。正如 WIRED 的一篇文章指出,強化學習現在是通過提供基於反饋的獎勵來優化模型的“越來越受歡迎”的方法[13]。無論是讓聊天機器人遵循指令,還是賦予大型模型解決問題的能力,RL 是在預訓練完成所有工作後的首選工具。
強化學習的意義不僅限於微調得更有禮貌;而是教導模型做出決策。Macaron AI 的 Mind Labs 最近的一篇技術博客概述了這一點:「隨著大型語言模型從預訓練演變為體驗式學習,強化學習已成為解鎖高級推理能力的關鍵。」[14] 最前沿的項目將強化學習視為**「代理行為的第一級設計支柱,而不僅僅是最後的潤色步驟」[15]。實際上,這意味著通過將 AI 系統置於模擬或真實環境中進行訓練,使其必須行動、獲得反饋並改進——無論是 LLM 代理瀏覽工具還是機器人學習導航。透過強化學習的體驗式學習**是 AI 獲得無法在靜態數據集中捕捉技能的方法。
值得注意的是,新的 AI 實驗室正圍繞這一理念形成。由前 OpenAI 領導人創辦的初創公司 Thinking Machines Lab 剛剛以 20 億美元的種子估值啟動,旨在構建工具,以通過強化學習(RL)和其他技術來微調前沿模型。他們的旗艦產品「Tinker」旨在自動化大型模型的 RL 微調,押注於讓更多人能夠透過強化學習「從大型模型中誘導出新能力」將成為 AI 的下一個大趨勢[16][17]。同樣的,Macaron AI(一個新的研究計畫)正在設計定制的 RL 優化器和基礎設施,以將 RL 擴展到數兆參數模型[18][19]。這些努力凸顯了一個更廣泛的趨勢:AI 社群認為 RL 在推動模型達到新前沿方面有著巨大的潛力——無論是讓它們更具工具使用和推理能力(如 Kimi K2 和 Macaron 的代理),還是更具一致性和定制化(如 ChatGPT 和 Tinker)。總之,RL 現在被視為實現過去十年建立的基礎模型全部潛力的關鍵技術。

或許強化學習(RL)日益受到矚目的最引人注目的原因是它成功解決了超越靜態數據集沙盒的問題,經常達到長期無法企及的壯舉。遊戲里程碑是第一個戲劇性的證明:DeepMind的AlphaGo、AlphaZero和OpenAI的Five通過深度強化學習征服了圍棋、國際象棋,甚至是複雜的電子遊戲。這些系統表明,給予一個明確的獎勵(如贏得比賽),RL代理可以通過純粹的練習和優化超越人類冠軍[4]。值得注意的是,OpenAI Five在2019年戰勝世界冠軍Dota-2團隊的勝利是通過純粹的自我對抗RL訓練在前所未有的規模上實現的——這展示了當提供足夠的經驗時,當今RL算法的「驚人力量」[20]。該項目突顯了RL的潛力及其挑戰:它需要大規模模擬(相當於數百年的遊戲時間)和巧妙的工程技術才能奏效,但它確實奏效了,產生了超越任何基於規則的AI所能做到的團隊合作和策略。
ADCS box(姿態決定與控制系統)正在安裝到InnoCube衛星的驗證模型中。
關鍵在於,強化學習(RL)不再侷限於遊戲。2022 年的一項里程碑成就顯示,DeepMind 使用深度強化學習來實時控制核聚變等離子體,這是以前用手動控制器無法實現的。通過在模擬器中訓練然後部署到托卡馬克反應堆,他們的代理學會了操作磁線圈來控制等離子體,成功地學會自主穩定聚變反應[21]。這展示了強化學習如何處理物理學中的高維動態控制問題——為依賴精確連續決策的科學研究開辟了新途徑[21]。
另一個強化學習展現其現實世界實力的領域是多代理互動和博弈論。一個引人注目的例子是Meta的CICERO,這是第一個在遊戲Diplomacy中達到人類水準表現的AI,該遊戲需要在多個玩家之間進行談判和結盟。CICERO結合了一個用於語言的LLM和一個經RL訓練的規劃模組;它必須制定策略,模擬其他玩家的意圖,並進行有說服力的對話。結果是一次突破——CICERO成功地在存在謊言和欺騙的情況下,有效地與人類合作和競爭。正如觀察者所指出的,這是**「第一個在Diplomacy中達到人類水準表現的AI,這是一款需要信任、談判和多玩家合作的策略遊戲。」[22] 這超越了棋盤遊戲的戰術,暗示強化學習代理可以處理社會策略和動態的博弈論環境**。這些能力對於未來可能需要應對經濟、談判或複雜組織決策的AI至關重要。
最後,也許是最戲劇性的,強化學習正完全脫離地球。在過去的一年裡,研究人員實現了只能被描述為科幻成真的壯舉:由強化學習控制的自主衛星和軌道中的機器人。 在美國海軍研究實驗室於國際空間站進行的一項實驗中,一個在模擬中訓練的強化學習算法接管了一台自由飛行的Astrobee機器人,並成功地在微重力環境下執行自主機動操作[23][24]。NRL的團隊指出,這是*“首次在太空中使用強化學習算法進行自主機器人控制”,這增強了人們對強化學習能夠應對太空操作嚴苛條件的信心[23]。更近期的,2025年10月30日,維爾茨堡大學的團隊實現了一項全球首例的在軌演示:他們的小型InnoCube衛星在完全由機載強化學習代理控制下執行了一項姿態調整機動[25][26]。正如首席研究員所說,“我們已經實現了世界上首個實際證明,使用深度強化學習訓練的衛星姿態控制器能夠成功地在軌運行。”*[26]。這是一個分水嶺時刻——強化學習已經從模擬和實驗室畢業到控制太空中的物理系統。AI控制器在高保真模擬器中學習,然後被上傳到衛星,在無人干預的情況下執行精確的定向任務[27][28]。通常需要數月時間手動調整衛星控制算法的過程被一個能夠即時適應的強化學習代理取代[29]。這些在空間機器人領域的成功突顯了強化學習在現實世界不確定性下生產適應和泛化策略的能力,這是邁向更自主的地球上的車輛、無人機和機器人的關鍵一步。
所有這些例子都強調了一個關鍵點:強化學習正值我們最需要的時候步入成熟。 當人工智慧進入「下半場」,挑戰不再只是預測,而是執行,強化學習提供了實驗、適應和長期優化的框架。與依賴過去數據的監督學習不同,強化學習使系統能夠從自身經驗中學習,並通過試錯不斷改進。這對於任何需要在非結構化、新穎情境中運作的人工智慧至關重要——無論是解決新用戶問題的助理,還是應對意外障礙的機器人。
在衡量 AI 進步的方式上,也有更深層的影響。我們不能再僅依賴靜態基準來評估模型的智慧。相反,研究人員提出了新的評估設置,以反映現實世界:連續任務、人機互動以及非獨立同分布的情境[8][30]。透過將這樣的豐富環境與 RL 訓練結合,我們迫使模型發展出更強健、可廣泛應用的行為。正如 Yao 所說,下半場將關於創造出能突破基準循環並真正提供現實世界效用的代理人[31][32]。對以 RL 為中心的實驗室投資的激增以及業界迅速採用 RLHF 反映了現在正是實現這一飛躍的時機。
儘管如此,擁抱強化學習(RL)並非沒有挑戰。RL 訓練可能不穩定且資源密集(OpenAI Five 的昂貴訓練便是一個例子)。它通常需要快速的模擬或錯誤代價低的環境——這在高風險領域並不總是可行。然而,在這些方面也正在取得進展。新的演算法和框架(如 Macaron 的 All-Sync RL 與 DAPO 優化)正在顯著提高大規模 RL 訓練的效率。像 sim2real 轉移、獎勵建模和更安全的探索策略等技術正在幫助 RL 系統順利過渡到實際部署,避免災難性失敗。重要的是,社群正在學習如何 將 RL 與其他範式融合——例如,使用語言模型作為批評者或規劃者,利用人類示範來引導 RL(一種混合模仿學習),等等。這些混合方法通常能兩全其美:結合預訓練的知識和強化學習的決策能力。
總之,現在專注於強化學習不僅僅是為了追趕潮流,而是對需求和機會所在的認識。我們正處於一個關鍵時刻,我們的 AI 系統具有巨大的潛在能力(多虧了預訓練),而激活這些能力的方式就是目標導向的學習。無論是將 AI 行為與人類價值觀對齊,賦予機器人真正的自主性,還是推動 AI 解決新的科學和工程問題,強化學習都提供了通過反饋來反覆改進和提升 AI 的工具。我們正在見證從被動學習時代到主動學習和實踐時代的轉變。俗話說,「讓我們走到這裡的,不會讓我們走到那裡。」表示學習表徵的繁重工作可能主要由大型模型完成,但將這些模型轉變為有用、適應性強且值得信賴的代理人,這就是強化學習的工作。通過現在投資於強化學習的研究和應用,我們實際上是在正面迎接難題:打造能夠「分步思考、探索替代方案、從錯誤中恢復,最終掌握開放式任務」的 AI。在 AI 的宏大發展軌跡中,這一轉變與 2010 年代的深度學習革命一樣重要。後半場才剛剛開始,而強化學習正準備成為其推動力。
參考資料:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] 下半場 – 姚順雨 – Shunyu Yao
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] 推出 Kimi K2 思考 | 部落格
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] 獨家:Mira Murati 的隱形 AI 實驗室推出其首款產品 | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] [33] MIND LABS | 利用 DAPO 和 LoRA 擴展 All-Sync RL
[18] Macaron 分析:Kimi K2「思考」模型:推進開放代理 AI - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five 擊敗 Dota 2 世界冠軍 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] 透過學習等離子體控制加速融合科學 - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: AI 在外交和關係中的應用 | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] 增強學習在太空中掀起熱潮 > 美國海軍研究實驗室 > NRL新聞
[25] [26] [27] [28] [29] 世界首次太空首演:符茲堡 AI 控制衛星 -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/