
作者: Boxu LI
在人工智能不断发展的领域中,极限规模的预训练已带来了强大的静态能力,前沿现在从构建越来越大的静态模型转向创建代理系统 —— 能够深入推理、使用工具、观察和记忆,并能够从经验中持续学习的 AI 代理[1]。
Thinking Machines Lab 的 Tinker 平台在 2025 年 12 月 12 日宣布全面可用,这标志着基础设施的关键飞跃,使得对万亿参数模型的微调和多模态扩展的访问更加民主化。同时,Macaron AI 的研究部门 Mind Lab 阐述了一个关于 "体验智能" 的哲学和技术框架,其中模型从冻结的知识库转变为通过现实世界反馈自我优化的动态过程。这种融合为优化研究和产品的共同设计提供了深远的机会,缩短了算法创新与实地适应之间的循环。
Tinker 更新中的关键创新
在本文中,我们将深入探讨 Tinker 的新 Kimi K2 推理模型、兼容 OpenAI 的接口和 Qwen3-VL 视觉模型,然后探索 Mind Lab 的经验智能理念,他们在兆亿参数强化学习(RL)方面的突破,记忆扩散方法,以及构建下一代 AI 系统的战略意义。
Tinker 是一个 AI 训练平台,旨在让研究人员能够微调和部署尖端模型,而无需担心基础设施[2][3]。在 2025 年 12 月,Tinker 宣布了几项重大更新,增强了 AI 模型的推理能力、工具使用和视觉理解[4]:
[15] Qwen3-VL-235B(视觉语言模型)与DINOv2(仅视觉基线)在有限标记示例的图像分类任务中的比较。得益于其语言信息的视觉理解,Qwen3-VL在低数据情况下(最左侧)取得了更高的准确性。
即使每个类别只有一个示例,235B Qwen3-VL 模型在这种极低数据情况下仍取得了合理的准确性,显著优于 DINOv2[15]。随着示例数量的增加,两个模型都有所提高,但 Qwen3-VL 仍保持优势,展示了更强的少样本泛化能力[16]。这种优势来自于模型的内置语言和世界知识——例如,通过其多模态预训练,Qwen3-VL 已经具备了对“向日葵”或“金毛猎犬”长什么样或如何描述的概念[16]。这意味着它可以通过极少的新示例来识别或分类新颖的图像。在实际应用中,Tinker 的用户可以通过利用这些大型视觉语言模型,在非常小的数据集上实现高准确度的视觉任务。这种数据高效视觉能力对于标注数据稀缺的现实场景至关重要。它也暗示了工具增强推理的力量:一个“看见”的模型可以利用视觉线索和语言上下文,使其成为更通用的代理(例如,阅读图表并进行解释,或将图像用作推理链的一部分)。总体而言,Qwen3-VL 的加入将 Tinker 平台的范围从纯文本扩展到视觉领域,使得在同一统一训练 API 下实现多模态推理工作流程成为可能。
在研究前沿,Mind Lab——一个隶属于 Macaron AI 的新前沿研究实验室,正在应对使 AI 代理真正具备适应性和体验性的挑战。Mind Lab 的理念是 “真正的智能来自真实体验,而不仅仅是更大的预训练”[17]。换句话说,仅仅在静态数据集上扩展模型是不够的;AI 的下一次飞跃将来自于从互动中持续学习的系统,就像人类积累经验一样。Mind Lab 将这一愿景定义为体验智能——从静态“头脑”转变为能够形成内部世界模型、通过反馈更新知识、拥有明确目标或价值观,甚至能够反思自身行为的适应性“心智”[18]。这是对当前 LLMs 局限性的直接回应,这些系统在预训练后通常强大但冻结[18]。通过引入真正适应的机制——如持续强化学习和动态记忆——Mind Lab 旨在创造能够随使用而进化的代理。
Mind Lab 工作的两个核心支柱是:(1) 高效强化学习微调大规模模型,以注入新行为,以及 (2) 先进的记忆系统,让代理能够保留和利用长期知识。两者都旨在使 AI 更具 自主性(自主决策和改进),并紧密结合研究进展与产品部署。
Mind Lab 的一项重大成就是展示了万亿参数规模的强化学习,并以实用且成本效益高的方式实现。在 2025 年 12 月,他们宣布在 1.04 万亿参数的 Kimi K2 推理模型上实现了第一个端到端的RL流程,只用了通常训练所需GPU资源的约10%[19]。这如何实现?团队构建了一个专门的训练引擎,将参数高效微调 (LoRA) 与模型的专家混合结构中的混合并行相结合[20][21]。
Mind Lab的方法不是调整所有万亿个权重,而是在Kimi K2的选定层(包括密集主干和专家层)中注入低秩适应矩阵,并仅在RL期间更新这些矩阵[22]。这大大减少了可训练参数的数量(例如,每层的LoRA秩为几十或几百,而不是完整矩阵),因此将内存和计算使用量减少了一个数量级。同时,训练如此规模的模型需要有效地将工作负载分布在多个GPU上。团队采用了混合并行策略:协调使用张量并行、流水线并行、专家并行(用于MoE专家)和序列并行(用于长序列训练),并使其与分片的LoRA更新兼容[23]。实际上,这意味着利用现有的大模型训练框架(NVIDIA的Megatron和字节跳动的VolcEngine RL),增强它们以处理MoE上的LoRA,并在集群中的64个GPU之间谨慎平衡计算[24]。结果是在完整的Kimi K2模型上实现了稳定的策略内RL训练(类似于PPO风格的算法),并通过奖励模型提供推理质量的反馈[22]——由于成本原因,以前大多数团队认为这是不可行的。
同样重要的是,它奏效了:LoRA 微调的 Kimi K2 在长远推理任务上取得了显著进展,学习曲线平滑且没有发散[25]。关键在于,适应后的模型保留了基础模型的通用技能(得益于仅有的最小、集中的权重变化),同时获得了新的特定任务行为[26]。这意味着基础模型的大量先验知识没有被覆盖,只是得到了增强——这是 LoRA 微调的一个关键优势。事实上,Mind Lab 的实验证实了较大的模型为 RL 提供了更强的基础。在固定的训练预算下,大模型加上小的 LoRA 适配器在域内任务和转移到新任务上都优于完全调优的小模型[27]。正如团队所言,RL 是*“先验受限”*的——如果基础模型一开始不能生成高质量的轨迹,RL 就没有多少信号可以放大[27]。像 Kimi K2 这样强大的预训练先验给 RL 提供了丰富的行为集可以专注,而从头训练一个小模型则需重新发明这些行为。这个见解颠覆了传统的智慧:在大型模型上进行 RL(具有强先验和 LoRA 效率)可能更具计算效率,而不是在较小的模型上进行 RL,即便较小的模型每步成本更低[28]。Mind Lab 的贡献不仅仅是一个算法,而是一个基础设施策略——使在最大模型上进行持续学习成为可能的蓝图。他们已将其方法上游合并到开源项目(Megatron-Bridge, VERL)中[29],以便社区可以重现和构建这项工作,潜在地使许多团体能够在有限的硬件预算上微调万亿参数代理。

Mind Lab 正在探索的另一个领域是 AI 代理如何处理其交互的长期记忆。许多当前系统使用向量数据库来检索过去的对话片段,或使用摘要技术来压缩历史。Mind Lab 提出了一种更为集成的、“模型原生”记忆系统,称为记忆扩散[30]。这个想法是将代理的整个对话或轨迹序列视为模型上下文中的可编辑记忆,而不是存储在外部。记忆扩散通过一个掩码–分配–补充循环[30]迭代地维护一个固定大小的上下文窗口。在每个步骤中,模型决定保留哪些标记(过去对话的片段)(掩码)和丢弃哪些,然后用新内容补充释放的空间——同时严格遵守上下文长度的标记预算[30]。本质上,模型在学习管理自己的上下文,压缩或忘记不太相关的细节,并在交互增长时保留重要事实。这类似于智能遗忘,其目标不是无限期地记住一切(在上下文长度限制下不可行),而是在真实约束下有用地记住[30]。
通过在令牌序列级别进行操作,Memory Diffusion避免了对外部嵌入或相似性搜索的需求;“记忆”存在于模型的工作上下文相同的表示空间中。Mind Lab报告称,这种方法实现了最先进的长时间记忆性能,意味着代理可以在不丢失相关信息的情况下进行延长的对话或任务,所有这些都通过模型内学习机制来实现[31]。它还在与上下文大小相关的恒定时间内运行——随着历史记录的增长,不会出现检索成本的爆炸,因为上下文长度是固定的,并通过掩码/补充操作进行管理[31]。实际上,具有Memory Diffusion的代理可以进行持续数千回合的对话,虽然不能明确保留每个细节,但会不断决定哪些信息需要牢记。重要的用户偏好或未解决的问题将持续存在,而早期的琐碎闲聊可能会被删除。这种方法将记忆视为模型认知的一流组件,与Mind Lab的观点一致,即记忆应是系统的活跃学习部分,而不是被动的数据存储[30]。
Tinker 的基础设施能力与 Mind Lab 的算法效率形成了一种自然的共生关系。Tinker 使得 Mind Lab 的混合 LoRA RL 可以直接应用于 Kimi K2 和 Qwen3-VL,促进多模态代理循环。
在研究与产品共创设计中——这是 Mind Lab 的核心原则——表现为:
从战略上看,这一范式加速了迭代:产品成为实验性测试平台,产生高保真数据以完善研究假设。例如,Tinker 的少样本视觉分类收益可以成为部署视觉代理中的 RL 目标,逐步将感知策略与用户偏好对齐。
传统上,AI 研究会产生一个模型或算法,然后由产品团队想办法部署,双方之间的迭代相对缓慢。而 Mind Lab 采用的是研究与产品共同设计的理念:每一种新技术都会在实际应用环境中快速测试,真实用户的交互生成数据来优化研究[32]。
「研究和产品不再是分开的轨道。它们是一个封闭的反馈循环:用户体验 → 数据 → 强化学习训练 → 部署 → 更好的用户体验 → 更丰富的数据 → 循环继续。」[33]。在实践中,这意味着当 Mind Lab 改进他们的强化学习算法或记忆系统时,他们会将其整合到实际面向用户的代理中(例如,Macaron 的个人 AI 助手),并观察它在真实用户中的表现。使用数据——用户提出的问题、代理失败或成功的地方、明确的反馈——然后作为训练信号反馈(通过监督微调或强化学习)用于下一个模型更新。这个紧密的循环极大地加速了学习:产品就是实验。
一个影响是使用流式奖励模型和在线 RLHF(从人类反馈中强化学习)。Mind Lab 的框架设想不再是收集静态的人类偏好比较数据集并训练一次奖励模型,而是在部署期间随着新反馈的到来不断更新奖励模型。例如,如果代理为用户解决任务并偶尔收到差评或修正,这些信号可以流入奖励模型,实时优化对“良好”行为的理解。下次运行 RL 时(可能是按计划的节奏或甚至异步进行),更新后的奖励模型将指导策略更好地符合用户偏好。这种流式 RL 范式将部署变成训练的延续——代理在现实世界中运行的时间越长,积累的经验就越多,表现就越好。Tinker 提供的OpenAI 兼容接口实际上补充了这一策略:它允许这些持续学习的模型轻松接入现有产品和工具,这意味着研究实验室可以快速将新模型版本推向产品并观察结果,而无需每次重建集成。
从 Tinker 的角度来看,平台在训练过程中从模型中采样的能力[10]可以通过启用中间评估和细粒度调优决策来促进这种迭代循环。对于 Mind Lab 来说,协同设计循环确保他们的创新(如万亿规模的 RL 或记忆扩散)能够在真实用例中进行压力测试。这种方法可以在早期揭示实际挑战(例如如何处理延迟或意外用户输入)并缩小前沿研究与面向用户的 AI 产品之间的差距。战略收益在于改进是由实际需求驱动的,并直接在实际使用中得到验证。正如 Mind Lab 所指出的,真正的进步来自“从用户与产品互动中不断学习”[33],能够适应现场的代理将最终提供比在部署时固定的代理更好的用户体验。
综合来看,Tinker 和 Mind Lab 的进步突显了我们构建 AI 系统方式的深刻转变——从静态模型到与其环境协同设计的自适应代理。出现了几个关键影响:
随着静态扩展法则达到瓶颈,由 Tinker 的可访问万亿级定制和 Mind Lab 的高效体验式强化学习所展现的综合体,引领了一个变革时代。通过将适应性嵌入产品循环,我们超越了脆弱的大脑,迈向了有韧性的心智——这些系统不仅能在前沿水平进行推理和感知,还能与环境共生成长。这种共进化的轨迹承诺了不仅仅具备能力的 AI,更是能不断调整以适应人类需求和现实世界复杂性的 AI。
[1] [34] [35] [36] [2507.20534] Kimi K2: 开放代理智能
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - 思考机器实验室
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker:全面可用性和视觉输入 - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 我们如何用 10% 的 GPU 构建万亿参数推理 RL
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial