从静态模型到自适应代理:Tinker 和 Mind Lab 的创新

作者: Boxu LI

在人工智能不断发展的领域中,极限规模的预训练已带来了强大的静态能力,前沿现在从构建越来越大的静态模型转向创建代理系统 —— 能够深入推理、使用工具、观察和记忆,并能够从经验中持续学习的 AI 代理[1]

Thinking Machines Lab 的 Tinker 平台在 2025 年 12 月 12 日宣布全面可用,这标志着基础设施的关键飞跃,使得对万亿参数模型的微调和多模态扩展的访问更加民主化。同时,Macaron AI 的研究部门 Mind Lab 阐述了一个关于 "体验智能" 的哲学和技术框架,其中模型从冻结的知识库转变为通过现实世界反馈自我优化的动态过程。这种融合为优化研究和产品的共同设计提供了深远的机会,缩短了算法创新与实地适应之间的循环。

Tinker 更新中的关键创新

  • Thinking Machines Lab 的 Tinker 平台已实现全面可用性,支持微调 Moonshot AI 的兆亿参数 Kimi K2 Thinking MoE 模型,兼容 OpenAI 的推理,以及通过阿里巴巴的 Qwen3-VL 系列实现多模态输入。
  • 这些功能支持前沿推理和视觉语言模型的高效定制,演示显示在图像分类中具有出色的少样本性能。
  • Mind Lab(Macaron AI 的研究部门)在类似的兆规模 MoE 模型上推进了基于 LoRA 的可扩展 RL,强调经验适应。

在本文中,我们将深入探讨 Tinker 的新 Kimi K2 推理模型、兼容 OpenAI 的接口和 Qwen3-VL 视觉模型,然后探索 Mind Lab 的经验智能理念,他们在兆亿参数强化学习(RL)方面的突破,记忆扩散方法,以及构建下一代 AI 系统的战略意义。

Tinker 的最新创新:推理、工具与视觉

Tinker 是一个 AI 训练平台,旨在让研究人员能够微调和部署尖端模型,而无需担心基础设施[2][3]。在 2025 年 12 月,Tinker 宣布了几项重大更新,增强了 AI 模型的推理能力、工具使用和视觉理解[4]

  • Kimi K2 思维模型: 用户现在可以微调 Kimi K2 思维,这是一款拥有 1 万亿参数的巨大模型,也是 Tinker 阵容中最大的模型[5]。Kimi K2 是一种专家混合(MoE)变压器,专为长链思维推理和代理工具使用而设计[6]。尽管规模庞大,但每次仅激活其参数的子集(约32B),使其在保持高效推理的同时实现最先进的推理性能[7]。这种开放模型被称为“开放代理智能”,在复杂推理基准上可与许多封闭模型媲美或超过[7]。通过支持 Tinker 上的 Kimi K2,Thinking Machines 使研究人员能够利用 高级推理引擎 处理需要多步逻辑、规划或外部工具调用的任务。重要的是,Tinker 使用 LoRA(低秩适应) 来微调此类模型,通过训练小型适配器矩阵而不是更新所有万亿权重[8]。这种方法显著减少了定制所需的内存和计算资源。事实上,内部研究发现,使用适当的设置,LoRA 可以在使用更少资源的情况下 匹配完全微调的学习性能[9]。实际上,这意味着用户可以将像 Kimi K2 这样的巨型模型适应于新任务或领域而无需高昂成本——这是实现更 高效推理工作流 的关键一步。
  • OpenAI API 兼容推理: 为了加速研究和产品的整合,Tinker 推出了一种与 OpenAI 的 API 完全兼容的推理接口,用于完成任务[10]。基本上,可以使用与 OpenAI 平台相同的 API 调用查询 Tinker 托管的模型,通过指定带有特殊 tinker:// URI 的模型路径。例如,开发者可以使用 OpenAI 风格的语法(模型、提示、最大_tokens 等)调用 Tinker 模型的完成 API,获得结果,如同调用 openai.Completion.create[10]。这种 即插即用的兼容性 意味着围绕 OpenAI API 构建的任何工具或应用都可以无缝集成 Tinker 的模型[10]。它降低了将高级开放模型应用于真实产品的摩擦:您可以在 Tinker 上微调 Kimi K2,然后将其投入现有的链式思维代理或聊天机器人框架中,几乎无需代码更改。此外,Tinker 的 API 框架甚至允许在模型仍在训练时进行采样[10]——支持交互式评估或 工具增强训练循环,在微调过程中可以同时测试和使用模型。这次更新支持更高效的 代理开发工作流,让研究人员在真实环境中不断集成和测试模型改进。
  • Qwen3-VL 视觉–语言模型: Tinker 的另一个重大新增功能是支持 多模态视觉-语言模型。平台新增了两个支持视觉的模型,Qwen3-VL-30BQwen3-VL-235B,可以接受图像输入和文本[11]。这些模型(分别为 300 亿和 2350 亿参数,均为 MoE 架构)经过指令调优,可遵循包含图像的提示,例如回答关于图表的问题或解释照片。通过简单的 API 调用,用户现在可以将图像(作为 ImageChunk)与文本交错输入到模型中,并获得语言响应[12]。这解锁了多种 视觉信息应用——从分析截图和图表到能够看和说的多模态助手。值得注意的是,Qwen3-VL 模型是在考虑 数据高效视觉能力 的情况下设计的。为此,Thinking Machines 在一些经典图像分类任务(Caltech101、Oxford Flowers 等)上微调了 235B Qwen3-VL 模型,使用 LoRA 适配器以提高效率[13]。他们将其性能与强大的视觉-only 基线(DINOv2 ViT 模型带有分类器头)进行了比较,涵盖每类不同数量的训练数据[14]

[15] Qwen3-VL-235B(视觉语言模型)与DINOv2(仅视觉基线)在有限标记示例的图像分类任务中的比较。得益于其语言信息的视觉理解,Qwen3-VL在低数据情况下(最左侧)取得了更高的准确性。

即使每个类别只有一个示例,235B Qwen3-VL 模型在这种极低数据情况下仍取得了合理的准确性,显著优于 DINOv2[15]。随着示例数量的增加,两个模型都有所提高,但 Qwen3-VL 仍保持优势,展示了更强的少样本泛化能力[16]。这种优势来自于模型的内置语言和世界知识——例如,通过其多模态预训练,Qwen3-VL 已经具备了对“向日葵”或“金毛猎犬”长什么样或如何描述的概念[16]。这意味着它可以通过极少的新示例来识别或分类新颖的图像。在实际应用中,Tinker 的用户可以通过利用这些大型视觉语言模型,在非常小的数据集上实现高准确度的视觉任务。这种数据高效视觉能力对于标注数据稀缺的现实场景至关重要。它也暗示了工具增强推理的力量:一个“看见”的模型可以利用视觉线索和语言上下文,使其成为更通用的代理(例如,阅读图表并进行解释,或将图像用作推理链的一部分)。总体而言,Qwen3-VL 的加入将 Tinker 平台的范围从纯文本扩展到视觉领域,使得在同一统一训练 API 下实现多模态推理工作流程成为可能。

Mind Lab 的自适应系统:体验式智能的应用

在研究前沿,Mind Lab——一个隶属于 Macaron AI 的新前沿研究实验室,正在应对使 AI 代理真正具备适应性和体验性的挑战。Mind Lab 的理念是 “真正的智能来自真实体验,而不仅仅是更大的预训练”[17]。换句话说,仅仅在静态数据集上扩展模型是不够的;AI 的下一次飞跃将来自于从互动中持续学习的系统,就像人类积累经验一样。Mind Lab 将这一愿景定义为体验智能——从静态“头脑”转变为能够形成内部世界模型、通过反馈更新知识、拥有明确目标或价值观,甚至能够反思自身行为的适应性“心智”[18]。这是对当前 LLMs 局限性的直接回应,这些系统在预训练后通常强大但冻结[18]。通过引入真正适应的机制——如持续强化学习和动态记忆——Mind Lab 旨在创造能够随使用而进化的代理。

Mind Lab 工作的两个核心支柱是:(1) 高效强化学习微调大规模模型,以注入新行为,以及 (2) 先进的记忆系统,让代理能够保留和利用长期知识。两者都旨在使 AI 更具 自主性(自主决策和改进),并紧密结合研究进展与产品部署。

基于 LoRA 的万亿参数 RL,使用 10% GPU

我们是如何实现的?

Mind Lab 的一项重大成就是展示了万亿参数规模的强化学习,并以实用且成本效益高的方式实现。在 2025 年 12 月,他们宣布在 1.04 万亿参数的 Kimi K2 推理模型上实现了第一个端到端的RL流程,只用了通常训练所需GPU资源的约10%[19]。这如何实现?团队构建了一个专门的训练引擎,将参数高效微调 (LoRA) 与模型的专家混合结构中的混合并行相结合[20][21]

Mind Lab的方法不是调整所有万亿个权重,而是在Kimi K2的选定层(包括密集主干和专家层)中注入低秩适应矩阵,并仅在RL期间更新这些矩阵[22]。这大大减少了可训练参数的数量(例如,每层的LoRA秩为几十或几百,而不是完整矩阵),因此将内存和计算使用量减少了一个数量级。同时,训练如此规模的模型需要有效地将工作负载分布在多个GPU上。团队采用了混合并行策略:协调使用张量并行、流水线并行、专家并行(用于MoE专家)和序列并行(用于长序列训练),并使其与分片的LoRA更新兼容[23]。实际上,这意味着利用现有的大模型训练框架(NVIDIA的Megatron和字节跳动的VolcEngine RL),增强它们以处理MoE上的LoRA,并在集群中的64个GPU之间谨慎平衡计算[24]。结果是在完整的Kimi K2模型上实现了稳定的策略内RL训练(类似于PPO风格的算法),并通过奖励模型提供推理质量的反馈[22]——由于成本原因,以前大多数团队认为这是不可行的。

同样重要的是,它奏效了:LoRA 微调的 Kimi K2 在长远推理任务上取得了显著进展,学习曲线平滑且没有发散[25]。关键在于,适应后的模型保留了基础模型的通用技能(得益于仅有的最小、集中的权重变化),同时获得了新的特定任务行为[26]。这意味着基础模型的大量先验知识没有被覆盖,只是得到了增强——这是 LoRA 微调的一个关键优势。事实上,Mind Lab 的实验证实了较大的模型为 RL 提供了更强的基础。在固定的训练预算下,大模型加上小的 LoRA 适配器在域内任务和转移到新任务上都优于完全调优的小模型[27]。正如团队所言,RL 是*“先验受限”*的——如果基础模型一开始不能生成高质量的轨迹,RL 就没有多少信号可以放大[27]。像 Kimi K2 这样强大的预训练先验给 RL 提供了丰富的行为集可以专注,而从头训练一个小模型则需重新发明这些行为。这个见解颠覆了传统的智慧:在大型模型上进行 RL(具有强先验和 LoRA 效率)可能更具计算效率,而不是在较小的模型上进行 RL,即便较小的模型每步成本更低[28]。Mind Lab 的贡献不仅仅是一个算法,而是一个基础设施策略——使在最大模型上进行持续学习成为可能的蓝图。他们已将其方法上游合并到开源项目(Megatron-Bridge, VERL)中[29],以便社区可以重现和构建这项工作,潜在地使许多团体能够在有限的硬件预算上微调万亿参数代理。

记忆扩散:重新思考代理的记忆超越向量数据库

记忆扩散现场演示

Mind Lab 正在探索的另一个领域是 AI 代理如何处理其交互的长期记忆。许多当前系统使用向量数据库来检索过去的对话片段,或使用摘要技术来压缩历史。Mind Lab 提出了一种更为集成的、“模型原生”记忆系统,称为记忆扩散[30]。这个想法是将代理的整个对话或轨迹序列视为模型上下文中的可编辑记忆,而不是存储在外部。记忆扩散通过一个掩码–分配–补充循环[30]迭代地维护一个固定大小的上下文窗口。在每个步骤中,模型决定保留哪些标记(过去对话的片段)(掩码)和丢弃哪些,然后用新内容补充释放的空间——同时严格遵守上下文长度的标记预算[30]。本质上,模型在学习管理自己的上下文,压缩或忘记不太相关的细节,并在交互增长时保留重要事实。这类似于智能遗忘,其目标不是无限期地记住一切(在上下文长度限制下不可行),而是在真实约束下有用地记住[30]

通过在令牌序列级别进行操作,Memory Diffusion避免了对外部嵌入或相似性搜索的需求;“记忆”存在于模型的工作上下文相同的表示空间中。Mind Lab报告称,这种方法实现了最先进的长时间记忆性能,意味着代理可以在不丢失相关信息的情况下进行延长的对话或任务,所有这些都通过模型内学习机制来实现[31]。它还在与上下文大小相关的恒定时间内运行——随着历史记录的增长,不会出现检索成本的爆炸,因为上下文长度是固定的,并通过掩码/补充操作进行管理[31]。实际上,具有Memory Diffusion的代理可以进行持续数千回合的对话,虽然不能明确保留每个细节,但会不断决定哪些信息需要牢记。重要的用户偏好或未解决的问题将持续存在,而早期的琐碎闲聊可能会被删除。这种方法将记忆视为模型认知的一流组件,与Mind Lab的观点一致,即记忆应是系统的活跃学习部分,而不是被动的数据存储[30]

在我们的技术博客上阅读更多

研究–产品共创设计:持续学习循环

Tinker 的基础设施能力与 Mind Lab 的算法效率形成了一种自然的共生关系。Tinker 使得 Mind Lab 的混合 LoRA RL 可以直接应用于 Kimi K2 和 Qwen3-VL,促进多模态代理循环。

在研究与产品共创设计中——这是 Mind Lab 的核心原则——表现为:

  1. 反馈的仪器化:部署的代理(例如,通过 Tinker 提供的模型)从用户互动、工具结果和纠正中生成结构化的情节。
  2. 在线 RL 管道:混合并行支持对实时信号的持续更新,发展价值函数和策略,无需离线批处理。
  3. 多模态适应:视觉输入允许对感知任务进行 RL,优化用于 GUI 导航、文档理解或视觉推理的世界模型。
  4. 安全性和稳定性:共置展开最小化分布偏移;流式奖励(如 Mind Lab 的 HTML 美学示例中)可防止奖励作弊。

从战略上看,这一范式加速了迭代:产品成为实验性测试平台,产生高保真数据以完善研究假设。例如,Tinker 的少样本视觉分类收益可以成为部署视觉代理中的 RL 目标,逐步将感知策略与用户偏好对齐。

传统上,AI 研究会产生一个模型或算法,然后由产品团队想办法部署,双方之间的迭代相对缓慢。而 Mind Lab 采用的是研究与产品共同设计的理念:每一种新技术都会在实际应用环境中快速测试,真实用户的交互生成数据来优化研究[32]

「研究和产品不再是分开的轨道。它们是一个封闭的反馈循环:用户体验 → 数据 → 强化学习训练 → 部署 → 更好的用户体验 → 更丰富的数据 → 循环继续。」[33]。在实践中,这意味着当 Mind Lab 改进他们的强化学习算法或记忆系统时,他们会将其整合到实际面向用户的代理中(例如,Macaron 的个人 AI 助手),并观察它在真实用户中的表现。使用数据——用户提出的问题、代理失败或成功的地方、明确的反馈——然后作为训练信号反馈(通过监督微调或强化学习)用于下一个模型更新。这个紧密的循环极大地加速了学习:产品就是实验。

一个影响是使用流式奖励模型和在线 RLHF(从人类反馈中强化学习)。Mind Lab 的框架设想不再是收集静态的人类偏好比较数据集并训练一次奖励模型,而是在部署期间随着新反馈的到来不断更新奖励模型。例如,如果代理为用户解决任务并偶尔收到差评或修正,这些信号可以流入奖励模型,实时优化对“良好”行为的理解。下次运行 RL 时(可能是按计划的节奏或甚至异步进行),更新后的奖励模型将指导策略更好地符合用户偏好。这种流式 RL 范式将部署变成训练的延续——代理在现实世界中运行的时间越长,积累的经验就越多,表现就越好。Tinker 提供的OpenAI 兼容接口实际上补充了这一策略:它允许这些持续学习的模型轻松接入现有产品和工具,这意味着研究实验室可以快速将新模型版本推向产品并观察结果,而无需每次重建集成。

从 Tinker 的角度来看,平台在训练过程中从模型中采样的能力[10]可以通过启用中间评估和细粒度调优决策来促进这种迭代循环。对于 Mind Lab 来说,协同设计循环确保他们的创新(如万亿规模的 RL 或记忆扩散)能够在真实用例中进行压力测试。这种方法可以在早期揭示实际挑战(例如如何处理延迟或意外用户输入)并缩小前沿研究与面向用户的 AI 产品之间的差距。战略收益在于改进是由实际需求驱动的,并直接在实际使用中得到验证。正如 Mind Lab 所指出的,真正的进步来自“从用户与产品互动中不断学习”[33],能够适应现场的代理将最终提供比在部署时固定的代理更好的用户体验。

对 Agentic AI 和未来协同设计系统的影响

综合来看,Tinker 和 Mind Lab 的进步突显了我们构建 AI 系统方式的深刻转变——从静态模型到与其环境协同设计的自适应代理。出现了几个关键影响:

  • 从基础模型到基础代理 引入了像 Kimi K2 这样的代理模型(内置工具使用和推理功能)以及不断微调它们的技术,这表明大型语言模型正在从知识平台演变为行为平台。与一次性训练的仅模仿文本的模型不同,我们获得了可以计划、行动和结合反馈的代理。这模糊了 AI 模型和 AI 产品之间的界限:模型就是你互动的代理,并且它可以自我更新以更好地为你服务。构建这样的代理需要在一个开发周期中将**以模型为中心的研究(新架构、训练方法)以产品为中心的思维(用户体验、部署限制)**结合起来。
  • 工具增强推理成为常态: 借助 Tinker 的 OpenAI 兼容接口和专为工具使用而构建的模型,我们可以预见 AI 代理在推理过程中无缝调用外部工具、API 或数据库。Kimi K2 的设计和 Mind Lab 的代理实验都强调,解决复杂任务通常需要 AI 咨询工具或模拟环境[34][35]。未来的系统可能会在模型训练的核心集成工具 API(如 Kimi 的大规模代理数据合成所做的那样[36]),从而提供开箱即用的工具使用能力。从战略上讲,这意味着 AI 产品将不仅仅是一个单一的模型——它们将成为工具编排平台,模型充当知道何时以及如何调用其他服务的大脑。通过熟悉的 API 集成 Tinker 模型的便利性降低了开发人员在实践中创建此类工具使用 AI 工作流程的门槛。
  • 有状态交互和个性化 AI: 像 Memory Diffusion 这样的记忆创新指向能够维持交互长期状态的 AI。未来的代理将不再将每个会话或查询视为独立事件,而是会以有原则、有界限的方式携带以前的交互、偏好和上下文的记忆。这将实现更加个性化和上下文感知的 AI 助手——不会每次重置,而是真正学习他们在与互动以及发生了什么。重要的是,Mind Lab 的方法表明这可以在不需要无限上下文窗口的情况下实现;通过学习的记忆管理,代理可以更智能地记住什么。对用户而言,这意味着更流畅的体验:一个记得过去对话的个人 AI 会更像是一个持续的对话或一致的助手,而不是一系列断开的使用。这也提出了新的设计问题:我们如何确保记住或遗忘正确的事情?答案可能在于像记忆扩散这样的技术,它们结合了类人的遗忘和强调。
  • 混合基础设施作为竞争优势: 这些项目奠定的技术基础——如混合并行训练、LoRA-on-MoE、分布式 RL——将成为AI 开发团队的游戏规则改变者。采用这些方法的团队可以使用相对较少的计算资源微调最大模型,这可能会使构建专门的高性能 AI 代理的能力民主化。与其说只有大型科技公司能够部署万亿参数模型,任何实验室或初创公司都可以利用像 Kimi K2 这样的开放模型,并通过 LoRA 在较小的 GPU 集群上对其进行调整[37][21]。这平坦了竞争场地,并鼓励在利基领域对大型模型进行实验(因为成本较低)。我们可能会看到量身定制的万亿规模代理的爆炸式增长——一些专注于医学推理,其他则专注于法律研究,或创意设计——所有这些都是通过高效微调框架实现的。开源集成(Megatron 等)进一步确保了这些创新的快速传播。此外,混合并行方法意味着对于任何给定的硬件预算,可以通过智能调度和并行化挤出更有效的训练,而不仅仅是接受更小的模型。这是至关重要的,因为我们推动模型集成更多的模态和更长的上下文,这将进一步增加计算需求。
  • 持续学习和人机交互: 最后,闭环学习系统的概念改变了用户在 AI 演变中的角色。每个用户交互都可能成为训练示例,每个部署都是一个实验。实际上,这可能导致 AI 服务在一夜之间显著改进,因为它们重新训练前一天的数据——就像软件更新一样滚动发布。用户可能开始期待如果他们今天纠正了 AI,明天就不会重复同样的错误。这建立了一个良性循环:更好的产品吸引更多使用,产生更多的数据来学习,从而进一步改进产品。然而,这也要求谨慎共同设计评估和安全——如果代理正在从自己的交互中学习,我们需要健全的奖励模型和防护措施,以确保它学习正确的经验(避免强化不良行为)。Mind Lab 在将人类偏好奖励和自我批评纳入 RL 中的工作是这方面的早期模板[35]。从长远来看,这种研究与产品的共同设计可能会成为标准实践:而不是一篇研究论文以“我们微调了一个模型并实现了 X”结尾,成功标准将是“我们向用户部署了一个自适应代理,并在一段时间内持续提高了其性能/实用性 Y%”。

迈向适应性思维:终极愿景

随着静态扩展法则达到瓶颈,由 Tinker 的可访问万亿级定制和 Mind Lab 的高效体验式强化学习所展现的综合体,引领了一个变革时代。通过将适应性嵌入产品循环,我们超越了脆弱的大脑,迈向了有韧性的心智——这些系统不仅能在前沿水平进行推理和感知,还能与环境共生成长。这种共进化的轨迹承诺了不仅仅具备能力的 AI,更是能不断调整以适应人类需求和现实世界复杂性的 AI。


[1] [34] [35] [36] [2507.20534] Kimi K2: 开放代理智能

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - 思考机器实验室

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker:全面可用性和视觉输入 - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 我们如何用 10% 的 GPU 构建万亿参数推理 RL

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] 介绍 Mind Lab — Macaron AI 的研究部门

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友