
作者: Boxu LI
在人工智慧不斷演變的領域中,極大規模的預訓練已經產生了強大的靜態能力,如今的前沿正在從構建更大規模的靜態模型轉向創造代理系統——能夠深入推理、使用工具、觀察並記憶,以及不斷從經驗中學習的 AI 代理[1]。
思考機器實驗室的 Tinker 平台,隨著其於 2025 年 12 月 12 日的全面可用性公告,代表了一個關鍵的基礎設施飛躍,民主化了對兆參數模型的微調和多模態擴展的訪問。同時,Macaron AI 的研究部門 Mind Lab 提出了"體驗智慧"的哲學和技術框架,其中模型從固定的知識庫轉變為通過真實世界反饋自我改進的動態過程。這種融合為完善研究與產品的共同設計提供了深遠的機會,將算法創新與部署適應性之間的環路閉合。
Tinker 更新中的關鍵創新
在這篇文章中,我們將深入探討Tinker的新 Kimi K2 推理模型、OpenAI 兼容接口和 Qwen3-VL 視覺模型,然後探索 Mind Lab 的體驗智能理念、他們的兆參數強化學習(RL)突破、記憶擴散方法,以及構建下一代 AI 系統的戰略意義。
Tinker 是一個 AI 訓練平台,旨在讓研究人員可以在不必擔心基礎設施的情況下微調和部署最先進的模型[2][3]。2025 年 12 月,Tinker 宣布了多項重大更新,增強了 AI 模型的推理能力、工具使用和視覺理解[4]:
[15] 比較微調後的 Qwen3-VL-235B(視覺語言模型)與 DINOv2(僅視覺基準)在有限標註範例的影像分類任務中表現。Qwen3-VL 在低數據情境(最左側)中,由於其語言引導的視覺理解,達到更高的準確性。
即使每個類別只有一個範例,235B Qwen3-VL模型在這種極端低數據環境下仍達到了合理的準確性,並顯著超越了DINOv2[15]。隨著範例數量的增加,兩個模型都有所改善,但Qwen3-VL保留了優勢,展示了更強的少樣本泛化能力[16]。這一優勢來自於模型內建的語言和世界知識——例如,Qwen3-VL已經擁有對「向日葵」或「金毛尋回犬」的概念,這得益於其多模態預訓練[16]。這意味著它可以用極少的新範例來識別或分類新圖像。實際上,Tinker的用戶可以利用這些大型視覺語言模型,在非常小的數據集上達到高準確度。這種數據高效視覺能力對於標籤數據稀少的現實場景至關重要。它還暗示了工具增強推理的力量:一個「看見」的模型可以同時利用視覺線索和語言上下文,使其成為更通用的代理(例如,閱讀圖表並解釋它,或者將圖像作為推理鏈的一部分)。總的來說,Qwen3-VL的加入將Tinker的範疇從純文本擴展到了視覺領域,實現了在同一統一訓練API下的多模態推理工作流程。
在研究前沿,Mind Lab——隸屬於 Macaron AI 的新前沿研究實驗室——正在解決使 AI 代理真正適應性和經驗性的挑戰。Mind Lab 堅持的信念是:「真正的智慧來自於真實的經驗,而不僅僅是更大的預訓練」[17]。換句話說,僅僅在靜態數據集上擴展模型是不夠的;AI 的下一次飛躍將來自於能夠像人類積累經驗一樣不斷從互動中學習的系統。Mind Lab 將這一願景稱為經驗智能——從靜態的「大腦」轉向能夠形成內部世界模型、通過反饋更新知識、擁有明確目標或價值觀,甚至能反思自身行為的適應性「心智」[18]。這是對當前大型語言模型(LLMs)限制的直接回應,這些模型經常在預訓練後強大但僵化[18]。通過引入真正適應性的機制——如持續強化學習和動態記憶——Mind Lab 旨在創造隨著使用而演變的代理。
Mind Lab 工作的兩大核心支柱是:(1) 大型模型的高效強化學習微調,以賦予新行為,以及 (2) 先進的記憶系統,讓代理能夠保留和利用長期知識。兩者皆旨在讓 AI 更具 自主性(自主決定和改進),並緊密結合研究進展與產品部署。
Mind Lab 的一項重大成就是展示了在兆參數規模上進行強化學習,且以實用且成本效益高的方式實現。2025 年 12 月,他們宣布在 1.04 兆參數的 Kimi K2 推理模型上首次實現端到端的強化學習管道,僅使用了這類訓練通常需要的 ~10% GPU 資源[19]。這是如何做到的?團隊建立了一個專門的訓練引擎,將參數高效微調 (LoRA) 與模型的專家混合結構中的混合並行技術結合起來[20][21]。
Mind Lab 的方法不是調整所有萬億權重,而是將低秩適應矩陣注入到 Kimi K2 的選定層(包括密集骨幹和專家層內),並僅在 RL 中更新這些層[22]。這大大減少了可訓練參數的數量(例如,每層的 LoRA 秩僅為數十或數百,而不是完整矩陣),從而將記憶體和計算使用量減少了一個數量級。同時,訓練這麼大一個模型需要有效地將工作負載分配到多個 GPU 上。團隊採用了混合並行策略:協調使用張量並行、管道並行、專家並行(用於 MoE 專家)和序列並行(用於長序列訓練),所有這些都與分片的 LoRA 更新兼容[23]。實際上,這意味著利用現有的大模型訓練框架(NVIDIA 的 Megatron 和 ByteDance 的 VolcEngine RL),增強它們以處理 MoE 上的 LoRA,並仔細平衡集群中 64 個 GPU 的計算[24]。結果是在完整的 Kimi K2 模型上進行穩定的策略內 RL 訓練(類似於 PPO 風格的算法),並由獎勵模型提供推理質量的反饋[22] —— 之前大多數團隊因成本問題而認為這是不可能的。
同樣重要的是,它成功了:LoRA 微調的 Kimi K2 在長期推理任務上取得了顯著的改善,學習曲線平滑且無發散[25]。重要的是,經過調整的模型保留了基礎模型的一般技能(由於只進行了最小且集中的權重調整),同時獲得了新的任務特定行為[26]。這意味著基礎模型的巨大先驗知識沒有被覆蓋,只是得到了增強——這是 LoRA 微調的一大優勢。實際上,Mind Lab 的實驗證實了更大的模型為 RL 提供了更強的基礎。在固定的訓練預算下,大模型加上小型 LoRA 適配器在域內任務和轉移到新任務中都優於使用完整調整的小模型[27]。正如團隊所說,RL 是*“先驗限制”*——如果基礎模型一開始就無法生成高質量的軌跡,RL 就沒有信號可以放大[27]。像 Kimi K2 這樣強大的預訓練先驗給予 RL 豐富的行為集以進行精緻化,而從零開始訓練小模型則必須重新創造這些行為。這一見解顛覆了傳統智慧:在大模型上進行 RL(具有強大的先驗和 LoRA 效率)可能比在小模型上進行 RL 更具計算效率,即使小模型每一步更便宜[28]。Mind Lab 在這方面的貢獻不僅僅是一個算法,而是一個基礎設施策略——一個讓最大的模型實現持續學習的藍圖。他們已經將其方法上游合併到開源項目(Megatron-Bridge、VERL)中[29],以便社群可以重現並基於此工作進行構建,可能使許多團隊能夠在有限的硬件預算下微調萬億參數代理。

Mind Lab 探索的另一個前沿是 AI 代理如何處理其互動的長期記憶。許多當前系統附加了一個向量資料庫,用於檢索過去的對話片段,或使用摘要技術壓縮歷史。Mind Lab 提出了一個更整合的、「模型原生」記憶系統,稱為記憶擴散[30] 。這個想法是將代理的整個對話或軌跡序列作為模型上下文中的可編輯記憶,而不是作為外部儲存的東西。記憶擴散通過一個遮罩–分配–填充循環[30] 迭代地維持一個固定大小的上下文窗口。在每一步中,模型決定保留(遮罩)哪些代碼片(過去對話的片段),放棄哪些,然後用新進入的內容填補釋放的空間——同時遵守上下文長度的嚴格代碼預算[30]。本質上,模型正在學習管理自己的上下文,隨著互動的增長,壓縮或忘記不太相關的細節,保留重要的事實。這類似於智能忘記,其目標不是無限期地記住所有事物(考慮到上下文長度限制,這不可行),而是在現實約束下有用地記住[30]。
透過在 token 序列層級運作,Memory Diffusion 避免了對外部嵌入或相似性搜索的需求;「記憶」存在於與模型工作上下文相同的表示空間中。Mind Lab 報告指出,這種方法達到最先進的長期記憶性能,意味著代理可以進行延長的對話或任務而不丟失相關信息,這一切都通過模型內部學習機制達成[31]。它還能夠在固定時間內相對於上下文大小運行——隨著歷史增長,檢索成本不會爆炸式增加,因為上下文長度是固定的,並通過遮罩/填充操作管理[31]。實際上,具有 Memory Diffusion 的代理可以進行持續數千輪的對話,雖然不能明確保留每個細節,但會不斷決定要記住什麼。重要的用戶偏好或未解決的問題會持續存在,而較早的瑣碎對話可能會被剪除。這種方法將記憶視為模型認知的第一級組成部分,與 Mind Lab 的觀點一致,即記憶應該是系統中活躍且學習的一部分,而不是被動的數據存儲[30]。
Tinker 的基礎結構優勢和 Mind Lab 的演算法效率形成了自然的共生關係。 Tinker 使 Mind Lab 的混合 LoRA RL 能夠直接應用於 Kimi K2 和 Qwen3-VL,促進多模態代理迴圈。
在研究與產品共設計中——這是 Mind Lab 的核心理念——這體現為:
從策略上看,這一範式加速了迭代:產品成為實驗測試平台,產生高保真數據來細化研究假設。例如,Tinker 的少樣本視覺分類增益可以在部署的視覺代理中播種 RL 目標,逐步使感知政策與用戶偏好對齊。
傳統上,人工智慧研究會產生一個模型或算法,然後產品團隊可能會想辦法部署它,兩者之間的迭代相對較慢。而 Mind Lab 則採用研究與產品共同設計的理念:每一項新技術都在實時代理環境中快速測試,並透過真實用戶互動產生數據來改進研究[32]。
「研究與產品不再是獨立的軌道,它們是一個閉環的反饋循環:用戶體驗 → 數據 → 強化學習訓練 → 部署 → 更佳的用戶體驗 → 更豐富的數據 → 重複。」[33]。在實踐中,這意味著當 Mind Lab 改進他們的強化學習算法或記憶系統時,他們將其整合到實際的面向用戶的代理中(例如 Macaron 的個人 AI 助手),並觀察其在真實用戶中的表現。使用數據——用戶提出的問題、代理的成功或失敗之處、明確的反饋——然後作為下一次模型更新的訓練信號(透過監督微調或強化學習)回饋。這個緊密的迴圈大大加速了學習:產品就是實驗。
一個影響是使用串流獎勵模型和線上RLHF(來自人類反饋的強化學習)。與其收集靜態的人類偏好比較數據集並訓練一次獎勵模型,Mind Lab的框架設想在部署期間隨著新反饋的進來不斷更新獎勵模型。例如,如果代理為用戶解決任務並偶爾收到負面評價或更正,這些信號可以串流進入獎勵模型,以即時優化其「良好」行為的概念。下次運行RL時(可以是按計劃的節奏或甚至是非同步的),更新的獎勵模型將指導政策更好地與用戶偏好對齊。這種串流RL模式將部署轉變為訓練的延伸——代理在現實世界中運行的時間越長,積累的經驗越多,表現就越好。Tinker提供的OpenAI兼容介面實際上補充了這一策略:它允許這些持續學習的模型輕鬆地插入現有產品和工具,這意味著研究實驗室可以快速地將新模型版本推向產品並觀察結果,而不需要每次都重新構建集成。
從 Tinker 的角度來看,平台在模型訓練過程中進行取樣的能力[10]可以促進此類迭代循環,因為它支持中間評估和細緻的調整決策。在 Mind Lab 的角度,協同設計循環確保他們的創新(如萬億規模的強化學習或記憶擴散)在實際使用案例中進行壓力測試。這種方法能夠及早揭示實際挑戰(例如如何處理延遲或意外的用戶輸入),並縮小尖端研究與面向用戶的 AI 產品之間的差距。戰略收益在於改進是由現實世界需求驅動的,並且直接在現實世界中得到驗證。正如 Mind Lab 所指出的,真正的進步來自“持續從用戶與產品的互動中學習”[33],能夠即時調整的代理最終會提供比部署時固定的代理更好的用戶體驗。
綜合來看,Tinker 和 Mind Lab 的進展突顯了我們如何構建 AI 系統的深刻轉變——從靜態模型到與環境協同設計的自適應代理。幾個關鍵影響浮現:
隨著靜態擴展法則達到瓶頸,由 Tinker 的易於接受的兆級客製化與 Mind Lab 的高效經驗RL所展現的合成,預示著一個變革的時代。透過將適應性嵌入產品循環,我們超越了脆弱的大腦,邁向有韌性的思維系統——這些系統不僅在前沿水平上進行推理和感知,還能與其環境共生成長。這種共同進化的路徑承諾了AI不僅僅是具備能力,而是持續地更貼合人類需求及現實世界的複雜性。
[1] [34] [35] [36] [2507.20534] Kimi K2: 開放代理智能
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - 思考機器實驗室
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker:全面可用性及視覺輸入 - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 我們如何用 10% 的 GPU 建立兆參數推理強化學習
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial