從擴展到體驗智能:Ilya Sutskever 的願景與 Macaron 的方法

作者:Boxu Li

“擴展”時代的結束與研究的回歸

在最近與 Dwarkesh Patel 的對話中,Ilya Sutskever——OpenAI 的共同創辦人,現為初創公司 Safe Superintelligence (SSI) 的負責人——反思了 AI 的現狀及其發展方向。Sutskever 認為 AI 行業正從「只要做得更大」的擴展時代轉向「基礎研究」的時代[1]。大約在 2012 至 2020 年間,深度學習的進展是由新想法推動的(「研究時代」),隨後在 2020 至 2025 年間專注於擴展數據和參數(「擴展時代」)[1]。但現在,單純增加模型或數據集的規模所帶來的回報逐漸遞減。正如 Sutskever 直言不諱地說,「如果你只是將規模擴大 100 倍,[不] 會改變一切……又回到了研究時代,只是有更大的計算機。」[2][3] 換句話說,未來的突破將不再來自於大規模的強力推進,而是來自新的訓練配方和更智能的算法。

推動這一轉變的核心問題是 Sutskever 所稱的「泛化差距」。當今的大型模型可以在基準測試中取得高分,但在實際任務中卻仍會出錯——這一矛盾變得越來越明顯。Sutskever 指出:「這些模型總是比人類的泛化能力差得多。這是顯而易見的,這似乎是一個非常根本的問題。」在編程比賽或語言考試中獲得高分的模型仍可能犯下奇怪的錯誤——反覆修正同一個錯誤,或在簡單的常識決策上失誤——這是任何一位合格的人類都不會犯的錯。這突顯了模型的脆弱性:儘管神經網絡在某些狹窄技能上表現驚人,但它們並未真正理解或像人類那樣穩健地適應。正如 Sutskever 演講的一個總結所指出的,即便我們已經建構出在評估中表現良好的模型,然而它們在現實世界中的可靠性仍然「是一種脆弱性,表現為在評估中表現出色與現實世界錯誤形成對比。」

為什麼當前的模型在泛化方面不夠理想?Sutskever 認為這部分是我們訓練範式的產物。在大規模預訓練的時代,我們只是將一切(互聯網規模的文本)餵給模型,並希望數據的廣度能帶來廣泛的能力。的確,它做到了一定程度。但在預訓練之後,公司會使用強化學習 (RL) 在特定基準或用戶指令上微調模型。Sutskever 懷疑這個 RL 階段經常使模型過度專業化,以便在測試中表現良好,而不是實際提高它們的理解力[7]。在他的對話中,他給出了一個生動的比喻:一個“學生”(類比於 AI 模型)花費 10,000 小時練習競賽編程問題,成為編碼比賽的天才,而另一個學生則以更謙遜的方式練習,專注於廣泛的計算機科學直覺[8][9]。第一個可能贏得比賽,但第二個在現實世界中成為更具適應性的工程師。今天的模型就像過度準備的專家——在其調整的狹窄條件下表現出色,但缺乏人類在面對新挑戰時的**“那種特質”**[10][11]。簡而言之,我們的人工智慧尚未達到人類通過一生經驗獲得的那種穩健、流暢的泛化能力。

人類學習更佳的原因:樣本效率與持續學習

Sutskever 討論中的一個主要主題是人類學習的樣本效率。人類需要極少的數據就能學習複雜的任務。例如,Yann LeCun 指出,一個青少年可能只需要10小時的練習就能學會開車——這在 AI 標準下是一個極小的數據集[12]。小孩子僅通過日常生活的接觸就能學會辨認汽車(以及成千上萬的其他概念)[12]。相比之下,當前的 AI 模型往往需要龐大的訓練集,但仍無法匹敵人類的靈活性。Sutskever 指出,進化給我們提供了一些有用的歸納偏見,例如數百萬年的視覺和運動能力塑造了我們的大腦,但這並不是全部[13][12]。即使在進化未經磨練的領域(如閱讀、數學或編程),人類也能迅速超越當今的算法[14][15]。這表明*「無論是什麼讓人類善於學習的東西」*不僅僅是內建的知識——我們擁有一種基本上更有效的學習算法[14][15]

那可能會是什麼算法呢?Sutskever 提出的一個線索是,人類是持續且互動地學習,而不是一次性大量學習。我們不會像攝入數太字節的文字後就停止學習,而是從不斷的經驗中學習,不斷更新我們的知識。他指出,一個 15 歲的人所接受的總數據量遠少於大型語言模型的語料庫,但到了 15 歲,我們已經達到更深的理解,犯的明顯錯誤也要少得多[16][17]。不同之處在於,人類在整個生命過程中不斷學習——我們不會在青春期就認為“訓練階段”結束了。“人類不是通用人工智慧……相反,我們依賴於 持續學習,” Sutskever 說道,強調即使是超級智能 AI 也可能需要像15 歲的天才一樣被運用,而非全知的神諭[18][19]。這樣的 AI 會有堅實的基礎,但*“起初缺乏大量知識”——然後在各種角色中在工作中學習,就像聰明的年輕人走向世界,接受醫生或工程師的訓練一樣[19][20]。事實上,Sutskever 對安全超級智能的構想明確地不是一個“知道如何做每份工作”的靜態模型,而是一個**“能學會做每一份工作”**並不斷進步的系統[20][21]。換句話說,真正的 AI 成功可能意味著創造學習大師*,而不僅僅是任何固定任務的大師。

人類學習的另一個方面是我們內建的反饋機制。人類擁有情感和直覺,這些就像內部的獎勵信號,引導我們學習新技能。Sutskever 提到一個引人注目的案例:一名男子因腦部受損而失去情感能力,結果在決策上變得非常糟糕,甚至難以選擇穿哪雙襪子[22][23]。沒有情感提示,他無法感知什麼是重要的。這表明我們的大腦運用了某種價值函數——一種對事情進展如何的動態評估——來高效學習並做出決策[24][25]。在強化學習的術語中,我們不會等到經驗結束才獲得獎勵;我們在中間階段生成內在獎勵(快樂、挫折、好奇心等),這大大加快了學習。Sutskever 認為現今的 RL 算法缺乏這種豐富性——它們常常等待最終分數,因此在長期任務上極其低效[26][27]。*“如果你在做一件持續很長時間的事情……它在結束之前根本不會學習任何東西,”*他在談到簡單 RL 時解釋道[28]。解決方法是給 AI 代理一個更好的進度感——一個價值函數來縮短長時間的反饋延遲[29][30]。整合這種內部反饋可以大大提升訓練效率。Sutskever 甚至將其比作情感對人類的功能[31],稱這是一個有前景的方向,可以比盲目的試錯更“有效地使用計算資源”[30]。總之,持續學習和更豐富的自我監督(價值信號)的結合可能是縮小泛化差距的關鍵。

關鍵見解: 當前的 AI 模型需要比人類更多的數據,但適應性仍不如人類。人類通過不斷積累經驗,並利用內部反饋(我們的「情感」價值函數)來指導學習,從而高效地學習。構建以類似的互動增量方式學習的 AI,並能夠評估自身進展,可能會顯著提高泛化能力[32][4]

超越預訓練:邁向體驗智慧

這些見解深深地與我們在 Macaron AI 的理念相吻合。我們常常將其濃縮為一句話:真正的智慧來自真實的經驗學習。 與其單單依賴更大的模型或更龐大的離線數據集,Macaron 的研究專注於經驗學習——通過主動互動、反饋和長期記憶來訓練AI,就像人類隨著時間的推移獲得技能一樣。我們稱之為 經驗智慧,這種方法著重於從學習到的經驗的質量和多樣性中提升模型的能力,而不僅僅是數據量的增加。這是有意識地脫離盲目擴展的時代。正如 Sutskever 自己所強調的,單純堆積更多的數據或參數會產生遞減的回報[2];未來的飛躍將來自於那些能夠通過適當的經驗以少學多的算法。

具體來說,Macaron 的 Mind Lab 研究部門一直在開創技術,以實現大型模型的 持續、反饋驅動的學習。我們並不會拋棄基礎模型,從頭開始預訓練每次升級的新模型。相反,我們透過迭代的後訓練來擴展強大的基礎模型:在真實任務上進行強化學習、人機互動反饋以及長期記憶整合。例如,我們團隊最近成為全球首個在 1 兆參數的開源模型上運行高性能 RL 微調的團隊——使用參數高效的 LoRA 適配器——同時只消耗約 10% 的常規 GPU 預算。這在使大規模後訓練成為可行的方面是一個突破。總之,我們證明給一個龐大模型新經驗(並從中學習)可以比原始方法高效數個數量級。結果呢?我們不僅僅是在靜態數據上稍微降低困惑度,而是通過交互教會模型新技能——而且是以一種可行且具成本效益的方式進行。(值得注意的是,我們已經將這些技術開源,並將它們貢獻給如 NVIDIA 的 Megatron 和 ByteDance 的 VEGA 等流行的訓練框架,以便更廣泛的社群可以在此基礎上構建。)

記憶:智慧地學習忘記

Macaron 方法的另一個支柱是「記憶」——這不是指一般的聊天記錄,而是模型中一個隨時間積累和整理知識的學習組件。人類不會對每個輸入都一視同仁;我們「記住重要事件」,而容易忘記其他的。這種「明智地忘記」的能力對於處理長期依賴關係而不過載至關重要。受此啟發,我們的研究人員開發了一種名為「記憶擴散」的新記憶系統。不同於強行緩存或檢索,記憶擴散教會模型在長時間對話或使用歷史中,「如何」演變信息。隨著上下文的增長,模型學會「擴散」掉不相關的細節,並強化重要的事實。實證結果顯示,這種方法在保持長期一致性方面,超越了傳統的記憶基準(如固定長度的上下文或啟發式檢索)。更直觀地,它給模型一種工作記憶,能「優先考慮重要的事情」——就像你的大腦快速忘記通勤時看到的廣告牌,但記住你要去哪裡和為什麼。通過讓模型「學會哪些信號要保留」和「哪些要放手」,我們得到了一個能從一個任務到下一個任務中帶走重要學習成果的系統,實現了更「持續的學習」。這種記憶機制已經成為 Macaron 智能代理架構中的關鍵部分,與我們在推理和工具使用上的進步並駕齊驅。這是我們如何偏好「架構智慧而非原始規模」的另一個例子:與其僅僅將上下文窗口擴展到100萬個標記(這效率不高),我們為模型提供了一種智能壓縮和從自身經驗中回憶知識的方法。

真實世界的反饋循環

最重要的是,Macaron 的研究並不與我們的產品隔絕。我們相信緊密的 研究↔產品循環:實驗室中的改進直接通過用戶體驗得到驗證,而產品中的見解則為新的研究提供靈感。例如,Macaron 的個人 AI 應用會主動記錄匿名反饋,指出 AI 回應不佳的地方或用戶似乎不滿意的情況。這些信號作為額外的獎勵信號進入我們的強化學習訓練。我們發現,基於真實用戶反饋進行訓練往往比僅僅增加網路文本的預訓練獲得更大的能力提升。這與 Sutskever 的觀察一致,即訓練的內容可能比訓練的量更重要——少量的針對性經驗可以教會模型一些數十億靜態詞元無法做到的事情[7]。通過在部署和研究之間形成閉環,我們確保 AI 在人們關心的任務上實際得到改進。用 Sutskever 的話來說,我們給予模型的“它因素”來自於世界的體驗,而不僅僅是記憶。

融合:AI 的新範式

令人鼓舞的是,越來越多的 AI 領導者一致認為持續的、體驗式學習是未來的方向。Sutskever 所構想的超級智能如同人類般學習——不斷且自適應地學習——正是 Macaron 一直在追求的路徑。在這一轉變中,我們並不孤單。例如,Google 最近的 Pathways 策略也提倡在多種任務和模式上訓練一個模型,使其能夠隨時間學習新技能,超越單一用途的模型。而像 Jason WeiJeff Dean 這樣的研究人員則討論了需要能夠漸進且有效累積知識的架構,而不是僅依賴龐大的單次訓練。這代表了整個行業向所謂的**「學習為中心的 AI」**(相對於今天的模型為中心的 AI)的更廣泛推進。在這個新範式中,問題變成:AI 能多快地獲得新能力或適應新情況? 而不是 它有多少參數或用多少數據進行了預訓練。以這個標準來看,人類仍然保持著優勢。但這個差距正在縮小。

在 Macaron AI,我們的賭注是體驗智能——從實際經驗中學習的 AI——將會釋放出下一波的性能和可靠性。我們已經看到了一些證據:我們的模型經過強化學習和人類反饋訓練後,不僅在基準測試中表現更好,更重要的是,它們在實際中感覺更符合用戶需求。它們犯錯的次數更少,並且在出錯後能更優雅地恢復,因為它們的訓練教會了它們如何注意和修正錯誤(就像人類一樣)。我們的記憶機制同樣給予它們純粹轉換器所缺乏的連續性,讓對話或任務能夠在幾個月內持續而不重新開始。所有這些優勢都來自於將智能視為一個過程,而非靜態的產物。正如 Sutskever 所說,部署的 AI 可能會經歷*「學習試誤期」*在部署期間[19][21]——這是一個特性,而不是一個錯誤,只要它是受控且對齊的。

當我們談到 AI 自主學習時,當然一致性是最重要的。有趣的是,Sutskever 提出了一個觀點:也許讓一個真正學習並隨時間理解的 AI 對齊——可能是那種重視有感知生命並能同理建模世界和他人的 AI——比對齊一個在封閉環境中訓練的靜態超級天才還要容易。如果 AI 在與人類互動中成長,就有機會在其發展過程中灌輸人類價值觀(並觀察和糾正錯誤)。這與我們的觀點相呼應,即透明度和逐步部署是安全 AI 的關鍵。Macaron 的平台通過直接與用戶互動並從中學習,為這種漸進式方法提供了一個自然的沙盒。我們有意將新的學習能力分階段推出,監控行為並收集反饋,而不是釋放一個在真空中訓練的黑箱模型。簡而言之,經驗學習不僅使 AI 更加聰明——它還能使 AI 更加安全和符合人類價值觀。

結論:擁抱經驗智能

無論是Ilya Sutskever的前瞻性視角,還是Macaron的發展歷程,都指向同一個結論:下一個突破性的AI將是一個精通學習的高手,而不僅僅是更大的記憶器。一個能夠從經驗中學習,內化反饋,長期記憶和適應的AI——基本上是一個能夠成長的AI——才能夠適應現實世界的混亂。這代表了與早期思維模式的深刻轉變:重點不在於模型一開始擁有多少知識,而在於它能夠獲得新知識的效率。Sutskever所想像的“超智能15歲少年”體現了這一理念[18][19]。在Macaron,我們正在與用戶社群一起努力打造這種持續學習的AI。

體驗型、持續學習 AI 的影響是深遠的。在技術上,這意味著更高的樣本效率——用更少的資源做更多的事情——以及能夠快速適應任何領域或分佈的模型。在經濟上,它承諾可以即時重新訓練的 AI 工作者,大大加速創新和生產力(Sutskever 預測一旦這種 AI 普及,可能會快速增長[34][35])。對於社會而言,這意味著 AI 系統更加可理解,因為我們將看到它們學習並能夠塑造它們的發展,而不是被動地接受一個完全成型的謎團。

實現這一目標並不容易。它需要在算法、系統和我們對學習的理論理解方面取得進展。然而,隨著價值函數、高級強化學習、終身記憶架構和人機協作訓練等方面的進步,這些元素正在逐漸融合。隨著我們整合這些元素,我們正朝著真正能夠自我思考和學習的 AI 邁進。這是驅動 Macaron 研究的理念,並與像 Sutskever 這樣的領導者所闡述的願景緊密對接。擴展的時代教會了我們很多,但體驗智能的時代正在來臨。在這個新時代,前沿不僅是更大的模型,而是更智能、更具適應性、更 人性化 的學習者。這正是我們努力建設的目標。

來源:

· Ilya Sutskever 與 Dwarkesh Patel 的訪談 (2025 年 11 月) – Dwarkesh Podcast「從擴展時代轉向研究時代。」 亮點可在 Dwarkesh 的博客上查看[1][4][18][19]

· Best of AI 摘要中的 Sutskever 重點總結[36]

· LeCun 關於人類駕駛效率的觀察(由 Sutskever 引用)[12]

· Macaron AI Mind Lab – 體驗智能與記憶的內部研究簡報 (2025)。

· Macaron AI 在大規模 RL 訓練方面的開源貢獻 (Megatron-Bridge 和 VEGA 集成, 2025)。


[1] [2] [3] [4] [5] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [32] [34] [35] Ilya Sutskever – 我們正從擴展的時代走向研究的時代

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] AI 的推動力:擴展至 2025 年及以後 (Jason Wei, OpenAI) by Best AI papers explained

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友