
作者: Boxu Li
在最近与Dwarkesh Patel的对话中,Ilya Sutskever——OpenAI的联合创始人,现在是初创公司Safe Superintelligence (SSI)的负责人——反思了人工智能的现状及其发展方向。Sutskever认为,人工智能行业正在超越“只要做大就好”的扩展时代,回到基础研究的时代[1]。大约在2012-2020年,深度学习的进步是由新想法推动的(“研究时代”),随后是2020-2025年对数据和参数扩展的关注(“扩展时代”)[1]。但现在,简单地增加模型规模或数据集规模所带来的回报正在减少。正如Sutskever直言不讳地指出的那样,“如果你只是将规模扩大100倍,[不会]一切都会被改变……又回到了研究时代,只不过有了大计算机。”[2][3] 换句话说,未来的突破将不再来自于蛮力的规模,而是来自于新的训练方法和更智能的算法。
推动这一转变的核心问题是 Sutskever 所称的泛化差距。如今的大模型可以在基准测试中表现出色,却在实际任务中跌跌撞撞——这一悖论变得越来越明显。“这些模型在某种程度上就是 比人类泛化得差得多。这是显而易见的。这似乎是一个非常根本的问题,” Sutskever 指出[4]。在编程比赛或语言考试中得分最高的模型仍然会犯一些离奇的错误——来回重复同一个错误修复,或者在简单的常识决策中失败——这是任何有能力的人都不会做的事情[4][5]。这突显了一种脆弱性:尽管神经网络在某些狭窄技能上表现出色,但它们并不像人类那样真正理解或适应。正如对 Sutskever 演讲总结所说,尽管我们构建了在评估中表现良好的模型,但它们的现实世界可靠性仍然是*“一种脆弱性,这种脆弱性体现在评估中的高性能与现实世界的错误对比。”*[6]
为什么当前的模型在泛化上表现不佳?Sutskever 认为这部分是由于我们的训练范式造成的。在大规模预训练时代,我们简单地将所有内容(互联网规模的文本)喂给模型,希望数据的广度能够带来广泛的能力。这确实有效——到了一定程度。但是,在预训练之后,公司通过在特定基准测试或用户指令上进行强化学习(RL)微调模型。Sutskever 怀疑这个 RL 阶段常常使模型过于专注于测试成绩,而不是实质性地提高它们的理解能力[7]。在他的对话中,他给出了一个生动的比喻:一个“学生”(类似于 AI 模型)花费 10,000 小时练习竞技编程问题,成为编程竞赛的天才,而另一个学生则更为适度地练习,专注于广泛的计算机科学直觉[8][9]。第一个可能会赢得比赛,但第二个最终在现实世界中成为更有适应能力的工程师。今天的模型就像是过度准备的专家——它们在特定条件下表现出色,但缺乏人类在应对新的、复杂问题时所具备的**“它的因素”**[10][11]。简而言之,我们的人工智能还没有实现我们人类通过一生经验获得的那种强大、流畅的泛化能力。
Sutskever 讨论中的一个主要主题是人类学习的样本效率。人类只需极少的数据就能学习复杂任务。例如,Yann LeCun指出,一个青少年可能只需10小时的练习就能学会驾驶——这在AI标准中是一个极小的数据集[12]。年幼的孩子通过日常生活的接触就能识别汽车(以及成千上万的其他概念)[12]。相比之下,当前的AI模型通常需要大量的训练集,但仍无法达到人类的灵活性。Sutskever 指出,进化赋予我们一些有用的归纳偏见——例如,数百万年的视觉和运动能力塑造了我们的思维——但这并不是全部[13][12]。即使在进化未磨练的领域(如阅读、数学或编程),人类也能迅速超过当今的算法[14][15]。这表明*“使人类擅长学习的东西”*不仅仅是内置知识——我们拥有一种根本上更有效的学习算法[14][15]。
那可能是什么算法呢?Sutskever 提出一个线索:人类是持续且互动地学习,而不是一次性地批量学习。我们并不是摄入大量文本后就停止大脑活动;相反,我们从持续的经验中学习,不断更新我们的知识。他指出,一个 15 岁的人摄入的数据总量远比大型语言模型的语料库少得多,但到 15 岁时,我们已经获得了更深的理解,并且犯的明显错误更少[16][17]。区别在于人类在整个生命中持续学习——我们并不认为自己的“训练阶段”在青春期结束。“人类并不是通用人工智能……我们依靠 持续学习,” Sutskever 说,并指出即使是超级智能 AI 也可能需要像15 岁的神童一样部署,而不是全知的神谕[18][19]。这样的 AI 将有坚实的基础,但*“最初缺乏大量知识”——它将像聪明的年轻人走向世界成为医生或工程师一样,在各种角色中在职学习[19][20]。事实上,Sutskever 对安全超级智能的愿景明确地不是一个“知道如何完成每一项工作”的静态模型,而是一个**“可以学习完成每一项工作”**并不断改进的系统[20][21]。换句话说,真正的 AI 成功可能意味着创造学习大师*,而不仅仅是某个固定任务的大师。
人类学习的另一个方面是我们内在的反馈机制。人类有情感和直觉,这些就像内部的奖励信号,在我们学习新技能时引导着我们。Sutskever 描述了一个引人注目的案例:一个因脑损伤而失去情感能力的人在决策时变得极其糟糕,甚至难以选择穿哪双袜子[22][23]。没有情感提示,他对什么重要没有内部感知。这表明我们的脑子利用了一种价值函数——对事情进展情况的动态估计——来高效学习并做出决策[24][25]。在强化学习术语中,我们不会等到经历的最后才获得奖励;我们在中间步骤产生内在奖励(愉悦、挫折、好奇等),这极大加速了学习。Sutskever 认为当今的强化学习算法缺乏这种丰富性——它们常常等待最终评分,因此在长时间任务上极其低效[26][27]。*“如果你在做一件长时间的事情……它在结束之前不会有任何学习,”*他解释道关于天真的强化学习[28]。解决办法是给 AI 代理更好的进度感——一个价值函数来缩短长反馈延迟[29][30]。结合这种内部反馈可能使训练效率大幅提升。Sutskever 甚至将其比作人类的情感功能,称之为“比蛮力试错更有效地使用计算能力”的有前景方向[31]。总之,结合持续学习和更丰富的自我监督(价值信号)可能是缩小泛化差距的关键。
关键洞察: 当前的 AI 模型需要远比人类多得多的数据,却仍然不够灵活。人类通过不断积累经验并利用内部反馈(我们的「情感」价值函数)来高效学习。构建能够以类似的互动、渐进方式学习,并能自我评估进展的 AI,可能会显著改善泛化能力[32][4]。
这些见解深深地与我们在 Macaron AI 的理念相呼应。我们常用一句话来概括:真正的智能来自真实的经验。 与其仅仅依赖更大的模型或更大的离线数据集,Macaron 的研究更注重于经验学习 —— 通过积极的互动、反馈和长时间记忆来训练AI,就像人类随着时间的推移积累技能一样。我们称这种方法为 经验智能,它是关于模型能力的增长来自于它们学习的经验质量和多样性,而不仅仅是数据量的增加。这是一种有意识的偏离盲目扩展的时代。正如 Sutskever 自己强调的那样,简单地堆积更多的数据或参数只会带来收益递减[2];下一个飞跃将来自于能够通过恰当的经验以少学多的算法。
具体来说,Macaron 的 Mind Lab 研究部门一直在开创技术,以实现大型模型的持续、反馈驱动学习。我们不会在每次升级时丢弃基础模型并从头开始预训练新模型,而是通过迭代后训练来扩展强大的基础模型:在真实任务上进行强化学习、人类反馈循环以及长期记忆整合。例如,我们的团队最近成为全球首个在 1 万亿参数开源模型上运行高性能 RL 微调的团队——使用参数高效的 LoRA 适配器——同时仅消耗约 10% 的常规 GPU 预算。这是在使大规模后训练可行方面的一项突破。从本质上讲,我们展示了为庞大的模型提供新体验(并从中学习)可以比简单方法高效多个数量级。结果?我们没有仅仅在静态数据上挤出略低的困惑度,而是通过互动教会模型新技能——并以一种可控且经济有效的方式实现这一点。(值得注意的是,我们已经开源了这背后的技术,并将其贡献给像 NVIDIA 的 Megatron 和字节跳动的 VEGA 这样的流行训练框架,以便更广泛的社区可以在其基础上构建。)
Macaron 方法的另一个支柱是记忆——这不是简单的聊天记录窗口,而是模型的一个学习组件,能够随着时间的推移积累和整理知识。人类不会对每条输入一视同仁;我们会记住重要事件,迅速忘记其他。这种明智地遗忘的能力对于在不超负荷的情况下处理长期依赖至关重要。受此启发,我们的研究人员开发了一种新颖的记忆系统,称为「记忆扩散」。与蛮力缓存或检索不同,记忆扩散教会模型如何在长时间对话或使用历史中演变信息。随着上下文的增长,模型学习“扩散”掉不相关的细节,并强化重要事实。实验证明,这种方法在保持长时间一致性方面优于经典的记忆基线(如固定长度上下文或启发式检索)。更直观地说,它赋予模型一种类似于工作记忆的能力,优先考虑重要的事情——就像你的大脑迅速忘记了通勤途中经过的广告牌,但记住了你要去的地方和原因。通过让模型学习哪些信号需要保留,哪些需要放弃,我们得到了一个可以将重要学习从一个任务传递到下一个任务的系统,从而实现更持续的学习。这种记忆机制已成为 Macaron 代理架构的关键部分,辅以我们在推理和工具使用方面的进步。这是我们如何更倾向于架构的智慧而非原始规模的另一个例子:与其简单地将上下文窗口扩展到 100 万个标记(这效率不高),不如赋予模型一种从自身经验中智能压缩和回忆知识的方法。
关键是,Macaron 的研究并不是与我们的产品相隔绝的。我们相信在研究↔产品循环中:实验室的改进直接通过用户体验得到验证,而产品的见解促成新的研究。例如,Macaron 的个人 AI 应用积极记录匿名反馈,标记 AI 回应不足之处或用户似乎不满意的地方。这些信号作为额外的奖励信号进入我们的强化学习训练。我们发现,基于真实用户反馈的训练常常比仅仅增加互联网文本到预训练中带来更大的能力提升。这与 Sutskever 的观察相符:训练的内容比训练量更重要——少量有针对性的经验可以教会模型一些数十亿静态标记无法传授的东西。通过在部署和研究之间闭合循环,我们确保了我们的 AI 真正改善了人们关心的任务。用 Sutskever 的话说,我们正在赋予我们的模型来自体验世界的“它因素”,而不仅仅是记忆世界。
令人鼓舞的是,越来越多的 AI 领导者达成共识,持续的、体验式学习是未来的发展方向。Sutskever 设想的超级智能就像人类一样学习——不断且灵活地适应——这正是 Macaron 一直在追求的道路。在这一转变中,我们并不孤单。例如,谷歌最近的 Pathways 战略也主张在一个模型上进行多任务和多模态训练,使其能够随着时间的推移学习新技能,超越单一用途模型。像 Jason Wei 和 Jeff Dean 这样的研究人员也讨论了需要构建能够渐进且高效积累知识的架构,而不是仅仅依赖庞大的单次训练。这代表了一个更广泛的行业趋势,可能称之为 “学习中心的 AI”(与今天的模型中心 AI 相对)。在这个新范式中,问题变成:AI 能多快获得新能力或适应新情况?——而不是它有多少参数或用多少数据进行预训练。按这个标准衡量,人类仍然保持领先地位。但这一差距正在缩小。
在 Macaron AI,我们的赌注是体验智能——从真实经验中学习的 AI——将释放下一波的性能和可靠性提升。我们已经看到了证明:通过强化学习和人类反馈训练的模型不仅在基准测试中表现更好,更重要的是,它们在实际应用中更符合用户需求。它们犯下的离谱错误更少,且能更优雅地从错误中恢复,因为它们的训练教会了它们注意并纠正错误(很像人类会做的那样)。我们的记忆机制同样赋予了它们纯粹变压器所缺乏的连续性,使对话或任务可以在几个月内持续进行而无需重置。所有这些优势都源于将智能视为一个过程,而不是静态的产物。正如 Sutskever 所说,部署的 AI 可能会在部署期间经历一个*“学习试错期”*——只要它是受控和对齐的,这就是一个特性,而不是缺陷。
当然,当我们谈论 AI 自主学习时,对齐是最重要的。有趣的是,Sutskever 建议,随着时间的推移,让真正学习并「理解」的 AI 对齐——可能是一个重视有感知生命并能以同理心建模世界和他人的 AI——甚至可能比对齐一个在封闭环境中训练的静态超级天才更容易。如果一个 AI 在与人类互动中成长,就有机会在其发展过程中灌输人类的价值观(并观察和纠正错误)。这与我们的观点相呼应,即「透明和逐步部署」是确保 AI 安全的关键。Macaron 的平台通过直接与用户互动并从中学习,为这种渐进的方法提供了一个自然的沙箱。我们有意分阶段推出新的学习能力,监控行为并收集反馈,而不是释放在真空中训练的黑箱模型。简而言之,体验式学习不仅能让 AI 更加智能——它还能让 AI 更安全、更贴近人类价值观。
Ilya Sutskever 的前瞻性观点和 Macaron 的发展历程都指向同一个结论:下一个突破性的 AI 将是一个学习大师,而不仅仅是一个更大的记忆者。一个能够从经验中学习、内化反馈、长期记忆和适应的 AI —— 本质上,一个能够成长的 AI —— 是能够适应现实世界复杂性的 AI。这标志着与早年不同的思维转变:这不仅仅关乎模型起始时拥有多少知识,而是它能够多有效地获取新知识。Sutskever 想象中的“超级智能 15 岁少年”概念正是体现了这一点[18][19]。在 Macaron,我们正在与用户社区携手打造这种能够持续学习的 AI。
体验式、持续学习AI的影响是深远的。从技术上讲,这意味着更高的样本效率——用更少的资源做更多的事情——以及能够快速适应任何领域或分布的模型。从经济上看,它承诺AI工作者可以实时再培训,大大加速创新和生产力(Sutskever预测,一旦这样的AI普及,可能会出现快速增长[34][35])。对社会而言,这意味着AI系统更易于理解,因为我们将看到它们的学习过程,并能塑造其发展,而不是被交付一个完全形成的谜团。
实现这一目标并不容易。这需要在算法、系统和我们对学习的理论理解上取得进展。然而,组成部分正在逐渐成型:从价值函数和先进的强化学习到终身记忆架构和人机协同训练。当我们整合这些部分时,我们离真正能灵活思考和学习的AI又近了一步。这正是推动Macaron研究的理念,并且与Sutskever等领导者阐述的愿景紧密契合。扩展时代教会了我们许多,但体验智能的时代正在到来。在这个新时代,前沿不再只是更大的模型,而是更聪明、更具适应性、更 像人类的 学习者。这正是我们努力构建的目标。
来源:
· Ilya Sutskever 的采访与 Dwarkesh Patel(2025 年 11 月)——Dwarkesh 播客:*“从扩展时代转向研究时代。”*亮点可在 Dwarkesh 的博客中查看[1][4][18][19].
· Best of AI 文摘对 Sutskever 关键观点的总结[36].
· LeCun 对人类驾驶效率的观察(由 Sutskever 提及的)[12].
· Macaron AI Mind Lab – 关于体验智能和记忆的内部研究简报(2025 年)。
· Macaron AI 在大规模强化学习训练中的开源贡献(Megatron-Bridge 和 VEGA 集成,2025 年)。
伊利亚·苏茨克弗 – 我们正在从扩展时代转向研究时代
https://www.dwarkesh.com/p/ilya-sutskever-2
[6] [31] [33] [36] AI 的驱动力量:扩展至 2025 年及以后(Jason Wei,OpenAI),由 Best AI papers explained