從靜態模型到自適應代理:Tinker 和 Mind Lab 的創新

作者: Boxu LI

在人工智慧不斷演變的領域中,極大規模的預訓練已經產生了強大的靜態能力,如今的前沿正在從構建更大規模的靜態模型轉向創造代理系統——能夠深入推理、使用工具、觀察並記憶,以及不斷從經驗中學習的 AI 代理[1]

思考機器實驗室的 Tinker 平台,隨著其於 2025 年 12 月 12 日的全面可用性公告,代表了一個關鍵的基礎設施飛躍,民主化了對兆參數模型的微調和多模態擴展的訪問。同時,Macaron AI 的研究部門 Mind Lab 提出了"體驗智慧"的哲學和技術框架,其中模型從固定的知識庫轉變為通過真實世界反饋自我改進的動態過程。這種融合為完善研究與產品的共同設計提供了深遠的機會,將算法創新與部署適應性之間的環路閉合。

Tinker 更新中的關鍵創新

  • Thinking Machines Lab 的 Tinker 平台實現全面可用,支持微調 Moonshot AI 的兆參數 Kimi K2 Thinking MoE 模型、OpenAI 兼容推理,以及通過阿里巴巴的 Qwen3-VL 系列實現多模態輸入。
  • 這些功能使前沿推理和視覺語言模型的高效定制成為可能,展示了在圖像分類中卓越的少樣本性能。
  • Mind Lab(Macaron AI 的研究部門)在類似的兆規模 MoE 模型上推進基於 LoRA 的可擴展 RL,強調體驗式適應。

在這篇文章中,我們將深入探討Tinker的新 Kimi K2 推理模型、OpenAI 兼容接口和 Qwen3-VL 視覺模型,然後探索 Mind Lab 的體驗智能理念、他們的兆參數強化學習(RL)突破、記憶擴散方法,以及構建下一代 AI 系統的戰略意義。

Tinker 的最新創新:推理、工具和視覺

Tinker 是一個 AI 訓練平台,旨在讓研究人員可以在不必擔心基礎設施的情況下微調和部署最先進的模型[2][3]。2025 年 12 月,Tinker 宣布了多項重大更新,增強了 AI 模型的推理能力、工具使用和視覺理解[4]

  • Kimi K2 思維模型:用戶現在可以微調 Kimi K2 思維模型,這是一個擁有 1 兆個參數的巨型模型,也是 Tinker 系列中最大的模型[5]。Kimi K2 是一個專為長鏈思考推理和代理工具使用而設計的專家混合 (MoE) 轉換器[6]。儘管其規模龐大,但一次僅有一部分(約 32B)參數是活躍的,使其在保持推理高效的情況下實現最先進的推理性能[7]。這個開放模型被描述為“開放代理智能”,在複雜推理基準上可與許多封閉模型競爭甚至超越[7]。通過在 Tinker 上支持 Kimi K2,Thinking Machines 使研究人員能夠利用一個先進的推理引擎來處理需要多步邏輯、計劃或外部工具調用的任務。重要的是,Tinker 使用 LoRA(低秩適應)微調這類模型,訓練小型適配器矩陣而不是更新所有參數[8]。這種方法顯著減少了定制所需的記憶體和計算資源。事實上,內部研究發現,通過正確的設置,LoRA 可以在使用更少資源的情況下達到完整微調的學習效果[9]。實際上,這意味著用戶可以在不承擔高昂成本的情況下將像 Kimi K2 這樣的巨型模型適應到新的任務或領域中——這是實現更高效推理工作流程的重要一步。
  • OpenAI API 兼容推理:為加速研究與產品的融合,Tinker 推出了一個推理介面,該介面兼容 OpenAI 的 API 用於完成[10]。基本上,只需指定模型路徑為特別的 tinker:// URI,就可以使用與 OpenAI 平台相同的 API 調用查詢 Tinker 託管的模型。開發者可以用類似 OpenAI 的語法(模型、提示、max_tokens 等)調用 Tinker 模型的完成 API,並獲得如同調用 openai.Completion.create 的結果[10]。這種即插即用的兼容性意味著任何圍繞 OpenAI API 構建的工具或應用都可以無縫整合 Tinker 的模型[10]。它降低了在真實產品中採用先進開放模型的阻力:你可以在 Tinker 上微調 Kimi K2,然後將其置入現有的思考鏈代理或聊天機器人框架中,幾乎不需要代碼更改。此外,Tinker 的 API 結構甚至允許在模型仍在訓練時進行抽樣[10]——支持互動式評估或工具增強訓練循環,使模型可以在微調過程中同時進行測試和使用。此更新支持更高效的代理開發流程,讓研究人員在真實環境中不斷集成和測試模型改進。
  • Qwen3-VL 視覺–語言模型:Tinker 的另一項重大新增功能是支持多模態視覺-語言模型。該平台新增了兩個支持視覺的模型,Qwen3-VL-30BQwen3-VL-235B,可以接受圖像輸入與文本一起使用[11]。這些模型(分別擁有 300 億和 2350 億參數,均為 MoE 架構)經過指令調整以遵循包含圖像的提示,例如回答有關圖表的問題或解讀照片。通過簡單的 API 調用,用戶現在可以將圖像(作為 ImageChunk)與文本交錯輸入模型並獲得語言回應[12]。這解鎖了多種視覺信息應用——從分析屏幕截圖和圖表到能夠看和說的多模態助手。值得注意的是,Qwen3-VL 模型在設計時考慮了數據高效的視覺能力。為了說明這一點,Thinking Machines 在一些經典的圖像分類任務(Caltech101、Oxford Flowers 等)上微調了 235B Qwen3-VL 模型,使用 LoRA 適配器以提高效率[13]。他們將其性能與一個強大的僅視覺基準(帶分類器頭的 DINOv2 ViT 模型)進行比較,跨越每個類的不同數量的訓練數據[14]

[15] 比較微調後的 Qwen3-VL-235B(視覺語言模型)與 DINOv2(僅視覺基準)在有限標註範例的影像分類任務中表現。Qwen3-VL 在低數據情境(最左側)中,由於其語言引導的視覺理解,達到更高的準確性。

即使每個類別只有一個範例,235B Qwen3-VL模型在這種極端低數據環境下仍達到了合理的準確性,並顯著超越了DINOv2[15]。隨著範例數量的增加,兩個模型都有所改善,但Qwen3-VL保留了優勢,展示了更強的少樣本泛化能力[16]。這一優勢來自於模型內建的語言和世界知識——例如,Qwen3-VL已經擁有對「向日葵」或「金毛尋回犬」的概念,這得益於其多模態預訓練[16]。這意味著它可以用極少的新範例來識別或分類新圖像。實際上,Tinker的用戶可以利用這些大型視覺語言模型,在非常小的數據集上達到高準確度。這種數據高效視覺能力對於標籤數據稀少的現實場景至關重要。它還暗示了工具增強推理的力量:一個「看見」的模型可以同時利用視覺線索和語言上下文,使其成為更通用的代理(例如,閱讀圖表並解釋它,或者將圖像作為推理鏈的一部分)。總的來說,Qwen3-VL的加入將Tinker的範疇從純文本擴展到了視覺領域,實現了在同一統一訓練API下的多模態推理工作流程

Mind Lab 的自適應系統:體驗式智慧的應用

在研究前沿,Mind Lab——隸屬於 Macaron AI 的新前沿研究實驗室——正在解決使 AI 代理真正適應性和經驗性的挑戰。Mind Lab 堅持的信念是:「真正的智慧來自於真實的經驗,而不僅僅是更大的預訓練」[17]。換句話說,僅僅在靜態數據集上擴展模型是不夠的;AI 的下一次飛躍將來自於能夠像人類積累經驗一樣不斷從互動中學習的系統。Mind Lab 將這一願景稱為經驗智能——從靜態的「大腦」轉向能夠形成內部世界模型、通過反饋更新知識、擁有明確目標或價值觀,甚至能反思自身行為的適應性「心智」[18]。這是對當前大型語言模型(LLMs)限制的直接回應,這些模型經常在預訓練後強大但僵化[18]。通過引入真正適應性的機制——如持續強化學習和動態記憶——Mind Lab 旨在創造隨著使用而演變的代理。

Mind Lab 工作的兩大核心支柱是:(1) 大型模型的高效強化學習微調,以賦予新行為,以及 (2) 先進的記憶系統,讓代理能夠保留和利用長期知識。兩者皆旨在讓 AI 更具 自主性(自主決定和改進),並緊密結合研究進展與產品部署。

基於 LoRA 的兆參數強化學習,僅需 10% GPU

我們是如何做到的?

Mind Lab 的一項重大成就是展示了在兆參數規模上進行強化學習,且以實用且成本效益高的方式實現。2025 年 12 月,他們宣布在 1.04 兆參數的 Kimi K2 推理模型上首次實現端到端的強化學習管道,僅使用了這類訓練通常需要的 ~10% GPU 資源[19]。這是如何做到的?團隊建立了一個專門的訓練引擎,將參數高效微調 (LoRA) 與模型的專家混合結構中的混合並行技術結合起來[20][21]

Mind Lab 的方法不是調整所有萬億權重,而是將低秩適應矩陣注入到 Kimi K2 的選定層(包括密集骨幹和專家層內),並僅在 RL 中更新這些層[22]。這大大減少了可訓練參數的數量(例如,每層的 LoRA 秩僅為數十或數百,而不是完整矩陣),從而將記憶體和計算使用量減少了一個數量級。同時,訓練這麼大一個模型需要有效地將工作負載分配到多個 GPU 上。團隊採用了混合並行策略:協調使用張量並行、管道並行、專家並行(用於 MoE 專家)和序列並行(用於長序列訓練),所有這些都與分片的 LoRA 更新兼容[23]。實際上,這意味著利用現有的大模型訓練框架(NVIDIA 的 Megatron 和 ByteDance 的 VolcEngine RL),增強它們以處理 MoE 上的 LoRA,並仔細平衡集群中 64 個 GPU 的計算[24]。結果是在完整的 Kimi K2 模型上進行穩定的策略內 RL 訓練(類似於 PPO 風格的算法),並由獎勵模型提供推理質量的反饋[22] —— 之前大多數團隊因成本問題而認為這是不可能的。

同樣重要的是,它成功了:LoRA 微調的 Kimi K2 在長期推理任務上取得了顯著的改善,學習曲線平滑且無發散[25]。重要的是,經過調整的模型保留了基礎模型的一般技能(由於只進行了最小且集中的權重調整),同時獲得了新的任務特定行為[26]。這意味著基礎模型的巨大先驗知識沒有被覆蓋,只是得到了增強——這是 LoRA 微調的一大優勢。實際上,Mind Lab 的實驗證實了更大的模型為 RL 提供了更強的基礎。在固定的訓練預算下,大模型加上小型 LoRA 適配器在域內任務和轉移到新任務中都優於使用完整調整的小模型[27]。正如團隊所說,RL 是*“先驗限制”*——如果基礎模型一開始就無法生成高質量的軌跡,RL 就沒有信號可以放大[27]。像 Kimi K2 這樣強大的預訓練先驗給予 RL 豐富的行為集以進行精緻化,而從零開始訓練小模型則必須重新創造這些行為。這一見解顛覆了傳統智慧:在大模型上進行 RL(具有強大的先驗和 LoRA 效率)可能比在小模型上進行 RL 更具計算效率,即使小模型每一步更便宜[28]。Mind Lab 在這方面的貢獻不僅僅是一個算法,而是一個基礎設施策略——一個讓最大的模型實現持續學習的藍圖。他們已經將其方法上游合併到開源項目(Megatron-Bridge、VERL)中[29],以便社群可以重現並基於此工作進行構建,可能使許多團隊能夠在有限的硬件預算下微調萬億參數代理。

記憶擴散:重新思考代理記憶超越向量資料庫

記憶擴散現場示範

Mind Lab 探索的另一個前沿是 AI 代理如何處理其互動的長期記憶。許多當前系統附加了一個向量資料庫,用於檢索過去的對話片段,或使用摘要技術壓縮歷史。Mind Lab 提出了一個更整合的、「模型原生」記憶系統,稱為記憶擴散[30] 。這個想法是將代理的整個對話或軌跡序列作為模型上下文中的可編輯記憶,而不是作為外部儲存的東西。記憶擴散通過一個遮罩–分配–填充循環[30] 迭代地維持一個固定大小的上下文窗口。在每一步中,模型決定保留(遮罩)哪些代碼片(過去對話的片段),放棄哪些,然後用新進入的內容填補釋放的空間——同時遵守上下文長度的嚴格代碼預算[30]。本質上,模型正在學習管理自己的上下文,隨著互動的增長,壓縮或忘記不太相關的細節,保留重要的事實。這類似於智能忘記,其目標不是無限期地記住所有事物(考慮到上下文長度限制,這不可行),而是在現實約束下有用地記住[30]

透過在 token 序列層級運作,Memory Diffusion 避免了對外部嵌入或相似性搜索的需求;「記憶」存在於與模型工作上下文相同的表示空間中。Mind Lab 報告指出,這種方法達到最先進的長期記憶性能,意味著代理可以進行延長的對話或任務而不丟失相關信息,這一切都通過模型內部學習機制達成[31]。它還能夠在固定時間內相對於上下文大小運行——隨著歷史增長,檢索成本不會爆炸式增加,因為上下文長度是固定的,並通過遮罩/填充操作管理[31]。實際上,具有 Memory Diffusion 的代理可以進行持續數千輪的對話,雖然不能明確保留每個細節,但會不斷決定要記住什麼。重要的用戶偏好或未解決的問題會持續存在,而較早的瑣碎對話可能會被剪除。這種方法將記憶視為模型認知的第一級組成部分,與 Mind Lab 的觀點一致,即記憶應該是系統中活躍且學習的一部分,而不是被動的數據存儲[30]

在我們的技術博客閱讀更多

研究與產品共設計:持續學習迴圈

Tinker 的基礎結構優勢和 Mind Lab 的演算法效率形成了自然的共生關係。 Tinker 使 Mind Lab 的混合 LoRA RL 能夠直接應用於 Kimi K2 和 Qwen3-VL,促進多模態代理迴圈。

在研究與產品共設計中——這是 Mind Lab 的核心理念——這體現為:

  1. 回饋的工具化:部署的代理(例如透過 Tinker 提供的模型)從用戶互動、工具結果和修正中生成結構化的情節。
  2. 在線 RL 管道:混合並行性支持對即時信號的持續更新,演化價值函數和政策而無需離線批次。
  3. 多模態適應:視覺輸入允許在感知任務上進行 RL,優化 GUI 導航、文件理解或視覺推理的世界模型。
  4. 安全性和穩定性:同地展開最小化分佈偏移;流式獎勵(如 Mind Lab 的 HTML 美學範例)防止獎勵作弊。

從策略上看,這一範式加速了迭代:產品成為實驗測試平台,產生高保真數據來細化研究假設。例如,Tinker 的少樣本視覺分類增益可以在部署的視覺代理中播種 RL 目標,逐步使感知政策與用戶偏好對齊。

傳統上,人工智慧研究會產生一個模型或算法,然後產品團隊可能會想辦法部署它,兩者之間的迭代相對較慢。而 Mind Lab 則採用研究與產品共同設計的理念:每一項新技術都在實時代理環境中快速測試,並透過真實用戶互動產生數據來改進研究[32]

「研究與產品不再是獨立的軌道,它們是一個閉環的反饋循環:用戶體驗 → 數據 → 強化學習訓練 → 部署 → 更佳的用戶體驗 → 更豐富的數據 → 重複。」[33]。在實踐中,這意味著當 Mind Lab 改進他們的強化學習算法或記憶系統時,他們將其整合到實際的面向用戶的代理中(例如 Macaron 的個人 AI 助手),並觀察其在真實用戶中的表現。使用數據——用戶提出的問題、代理的成功或失敗之處、明確的反饋——然後作為下一次模型更新的訓練信號(透過監督微調或強化學習)回饋。這個緊密的迴圈大大加速了學習:產品就是實驗。

一個影響是使用串流獎勵模型和線上RLHF(來自人類反饋的強化學習)。與其收集靜態的人類偏好比較數據集並訓練一次獎勵模型,Mind Lab的框架設想在部署期間隨著新反饋的進來不斷更新獎勵模型。例如,如果代理為用戶解決任務並偶爾收到負面評價或更正,這些信號可以串流進入獎勵模型,以即時優化其「良好」行為的概念。下次運行RL時(可以是按計劃的節奏或甚至是非同步的),更新的獎勵模型將指導政策更好地與用戶偏好對齊。這種串流RL模式將部署轉變為訓練的延伸——代理在現實世界中運行的時間越長,積累的經驗越多,表現就越好。Tinker提供的OpenAI兼容介面實際上補充了這一策略:它允許這些持續學習的模型輕鬆地插入現有產品和工具,這意味著研究實驗室可以快速地將新模型版本推向產品並觀察結果,而不需要每次都重新構建集成。

從 Tinker 的角度來看,平台在模型訓練過程中進行取樣的能力[10]可以促進此類迭代循環,因為它支持中間評估和細緻的調整決策。在 Mind Lab 的角度,協同設計循環確保他們的創新(如萬億規模的強化學習或記憶擴散)在實際使用案例中進行壓力測試。這種方法能夠及早揭示實際挑戰(例如如何處理延遲或意外的用戶輸入),並縮小尖端研究與面向用戶的 AI 產品之間的差距。戰略收益在於改進是由現實世界需求驅動的,並且直接在現實世界中得到驗證。正如 Mind Lab 所指出的,真正的進步來自“持續從用戶與產品的互動中學習”[33],能夠即時調整的代理最終會提供比部署時固定的代理更好的用戶體驗。

對代理型 AI 和未來協同設計系統的影響

綜合來看,Tinker 和 Mind Lab 的進展突顯了我們如何構建 AI 系統的深刻轉變——從靜態模型到與環境協同設計的自適應代理。幾個關鍵影響浮現:

  • 從基礎模型到基礎*代理: 引入像Kimi K2這樣的代理模型(內建工具使用和推理)以及持續微調的技術,暗示大型語言模型正在進化為行為平台,而不僅僅是知識平台。與其僅僅模仿文字的單次訓練模型,我們得到的是可以規劃、行動並整合反饋的代理。這模糊了AI模型與AI產品之間的界限:模型即是你互動的代理,它可以自我更新以更好地為你服務。構建這樣的代理需要將**以模型為中心的研究(新架構、訓練方法)以產品為中心的思維(用戶體驗、部署約束)**結合在一個開發週期中。
  • 工具增強推理成為常態: 通過Tinker的OpenAI兼容接口和專為工具使用而建的模型,我們可以預見AI代理在推理過程中無縫調用外部工具、API或數據庫。Kimi K2的設計和Mind Lab的代理實驗都強調,解決複雜任務通常需要AI諮詢工具或模擬環境[34][35]。未來的系統可能會在模型訓練的核心整合工具API(正如Kimi的大規模代理數據合成所做的那樣[36]),提供開箱即用的工具使用能力。從戰略上講,這意味著AI產品將不僅僅是一個單一模型——它們將成為工具協作平台,其中模型充當大腦,知道何時以及如何調用其他服務。通過熟悉的API輕鬆整合Tinker模型降低了開發者創建此類工具使用AI工作流的實踐門檻。
  • 有狀態互動和個性化AI: 像Memory Diffusion這樣的記憶創新指向可以維持互動長期狀態的AI。未來的代理不再將每個會話或查詢視為孤立,而是會以有原則、有界限的方式攜帶先前互動、偏好和上下文的記憶。這將使得AI助手更具個性化和上下文感知——不再每次都重置,而是真正學習與誰互動以及發生了什麼。重要的是,Mind Lab的方法表明這可以在沒有無限上下文窗口的情況下完成;通過學習的記憶管理,代理可以更智能地決定記住什麼。對於用戶來說,這意味著更流暢的體驗:一個記得過去對話的個人AI會更像持續的對話或一致的助手,而不是一系列不相關的使用。這也提出了新的設計問題:我們如何確保記住或遺忘正確的東西?答案可能在於像記憶擴散這樣的技術,結合人類式的遺忘和強調。
  • 混合基礎設施作為競爭優勢: 這些項目奠定的技術基礎——例如混合並行訓練、LoRA-on-MoE、分佈式RL——將是AI開發團隊的變革者。採用這些方法的團隊可以用相對較少的計算資源微調最大的模型,這可能會使構建專門的高性能AI代理的能力民主化。不再只有大型科技公司能夠部署萬億參數模型,任何實驗室或初創公司都可以利用像Kimi K2這樣的開放模型,並通過LoRA在較小的GPU集群上進行適應[37][21]。這平坦了競爭場地,也鼓勵在利基領域對大型模型的實驗(因為成本不再那麼高)。我們可能會看到定制的萬億級代理的激增——一些專注於醫療推理,其他專注於法律研究,還有一些專注於創意設計——所有這些都是由高效微調框架實現的。開源整合(Megatron等)進一步確保這些創新迅速傳播。此外,混合並行方法意味著對於任何特定的硬件預算,可以通過智能調度和平行處理擠出更有效的訓練,而不是僅僅接受較小的模型。這在我們推動模型融入更多模態和更長上下文時尤其重要,這將進一步增加計算需求。
  • 持續學習和人機交互: 最後,閉環學習系統的概念改變了用戶在AI演化中的角色。每次用戶互動都可能成為一個潛在的訓練例子,每次部署都是一個實驗。實際上,這可能導致AI服務一夜之間顯著改進,因為它們重新訓練前一天的數據——就像軟件更新一樣。用戶可能會開始期待,如果他們今天糾正了一個AI,明天它不會重複錯誤。這建立了一個良性循環:更好的產品吸引更多的使用,產生更多數據來學習,從而提高產品。但是,這也要求謹慎地共同設計評估和安全——如果代理從自己的互動中學習,我們需要強大的獎勵模型和防護措施,以確保它學習正確的教訓(避免加強不良行為)。Mind Lab在將人類偏好獎勵和自我批判納入RL的工作是一個早期模板[35]。從長遠來看,這種研究–產品共同設計可能成為標準做法:研究論文不再以“我們微調了一個模型並實現了X”結束,而是以“我們向用戶部署了一個自適應代理,並且它在一段時間內可持續地提高其性能/效用Y%”作為成功標準。

邁向適應性思維:結論願景

隨著靜態擴展法則達到瓶頸,由 Tinker 的易於接受的兆級客製化與 Mind Lab 的高效經驗RL所展現的合成,預示著一個變革的時代。透過將適應性嵌入產品循環,我們超越了脆弱的大腦,邁向有韌性的思維系統——這些系統不僅在前沿水平上進行推理和感知,還能與其環境共生成長。這種共同進化的路徑承諾了AI不僅僅是具備能力,而是持續地更貼合人類需求及現實世界的複雜性。


[1] [34] [35] [36] [2507.20534] Kimi K2: 開放代理智能

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - 思考機器實驗室

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker:全面可用性及視覺輸入 - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 我們如何用 10% 的 GPU 建立兆參數推理強化學習

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] 介紹 Mind Lab — Macaron AI 的研究部門

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友