在人工智慧不斷演進的過程中,大型語言模型(LLM)已經超越了初期階段,成為從代碼生成到創意敘事的不可或缺工具。然而,隨著預訓練在數據稀缺和計算需求激增中趨於平緩,後訓練技術的關注度急劇上升。這一轉變不僅僅是學術上的好奇心,而是一項戰略必要。2025 年 11 月 11 日,有報導稱 OpenAI 正在重新調整其路線圖,著重於增強後訓練方法,以應對 GPT 後續版本性能增長減緩的問題。隨著像 GPT-4o 這樣的基礎模型已經在原始規模上推進了界限,真正的魔法現在展現在精煉階段:將機率性的鸚鵡轉化為精確、對齊且適應力強的思考者。
後訓練——涵蓋監督微調(SFT)、來自人類反饋的強化學習(RLHF)、參數高效微調(PEFT),以及如持續學習等新興範式——在不需從頭開始重新訓練的高昂成本下,解鎖了領域特定的能力。正如Nathan Lambert在2025年1月的分析中精闢指出的那樣:「後訓練不再是事後考慮;它是驅動現代AI能力的引擎。」這篇博客深入探討這些技術,借鑒OpenAI、Scale AI、Hugging Face和Red Hat 2025年的最新突破。無論你是優化企業部署的開發人員還是探索對齊前沿的研究人員,理解後訓練是充分利用LLMs潛力的關鍵。我們將探索方法論、基準、挑戰和前瞻性策略,為你提供可行的見解以未來保證你的AI工作流程。
在數百億參數的模型中,透過預訓練大型語言模型(LLM)並從互聯網上刮取數據,已經產生了像是新興推理這樣的奇蹟。然而,正如OpenAI的內部指標所揭示的,報酬遞減法則正在發揮作用:每次計算能力加倍僅帶來邊際的困惑度改善,加上高品質數據的消耗。進入後訓練:這是一套在初始權重凍結後應用的干預措施,專注於對齊、效率和專業化。不同於預訓練的蠻力模式提取,後訓練是精細的——調整行為以優先考量有用性、無害性和誠實性(AI安全的「三H」)。
到 2025 年,這一轉變由行業巨頭具體化。OpenAI 在 11 月初宣佈成立的全新「基礎」團隊,優先考慮合成數據生成和迭代改進以持續推進,這表明更廣泛的行業共識,即訓練後可以從現有架構中提取 2-5 倍的價值。Scale AI 於 11 月 8 日的研究更進一步證明了這一點,展示了模型如何在訓練後學習中吸收新知識而不會出現災難性遺忘——這種災難性遺忘在天真微調中會侵蝕 20-30% 的基本能力。與此同時,Hugging Face 的《Smol Training Playbook》——一本於 10 月下旬發布的超過 200 頁的書籍——將這些見解民主化,記錄了它們從 SmolLM 預訓練到通過 SFT 和直接偏好優化(DPO)進行訓練後的過程。
為什麼這對於以 SEO 為驅動的內容創作者、企業架構師或獨立開發者來說很重要?根據 Red Hat 於 11 月 4 日的概述,訓練後的 LLM 為 80% 的生產級應用提供動力,從個性化聊天機器人到代碼助手。它們減少了幻覺(通過 RLHF 將錯誤率降低多達 40%),並實現了垂直專業化,如法律文件分析或醫療診斷,而不會增加推斷成本。當我們解開這些技術時,請考慮:在一個像 Llama 3.1 和 Mistral Large 等模型主導開源排行榜的世界中,訓練後不是可選的——而是區別的關鍵。
後訓練技術範圍從輕量級的調整到密集的對齊。在其核心,這一過程從預訓練的基礎模型開始,並通過精心策劃的數據集和優化循環注入特定任務的信號。我們來剖析這些支柱。
SFT 是後訓練的入門方法:讓模型接觸高質量、標註過的指令-回應對,以灌輸期望的行為。可以將其視為學徒制——引導 LLM 從死記硬背到上下文應用。Red Hat 在 11 月 4 日的綜合指南中強調了 SFT 在領域適應中的角色,模型通過攝取 10,000 到 100,000 個例子來提高任務準確性 15-25%。
像開放監督微調 (OSFT) 類似的變體利用社區策劃的數據集,減少對專有數據的依賴。Hugging Face 的指導手冊中的基準顯示,SFT 將 SmolLM 的指令遵循率從 45% 提升到 72%,所需計算量最小(低於 1,000 A100 小時)。然而,SFT 有過擬合的風險;緩解措施包括課程學習,逐步提高複雜性。
對於資源有限的團隊,PEFT 透過適配器如 LoRA(低秩適應)更新不到 1% 的參數,展現了其優勢。LoRA 在 2021 年推出,但在 2025 年得到改進,通過在注意力層中注入低秩矩陣來凍結基礎模型。Scale AI 的持續學習研究將 PEFT 與重播緩衝區整合,使模型能夠連續學習而不遺忘先前的任務,在多領域暴露後於 GLUE 基準測試中達到 90% 的保留率。
QLoRA 將這一技術擴展到 4 位元量化,將 VRAM 需求削減 75%,同時匹配完整微調的困惑度。實際上,根據 Varun Godbole 的《提示調整手冊》(更新於 2025 年 11 月 9 日),PEFT 配合「思維鏈支架」等心理模型來增強推理能力,在 GSM8K 數學任務中取得 18% 的提升。

RLHF 通過納入人類(或 AI)的偏好來提升 SFT,訓練一個獎勵模型來對輸出進行評分,然後通過近端策略優化(PPO)進行優化。然而,PPO 的不穩定性促使 2025 年的創新如 DPO 和 GRPO(廣義獎勵偏好優化)出現,這些方法繞過了明確的獎勵建模,直接進行偏好學習,計算量減少 50%,同時對齊效果達到 95%。
OpenAI 的策略重心在這裡:在 GPT 的增效放緩之際,他們正在擴展 DPO 在合成偏好上的應用,根據 11 月 11 日的披露,以促進能自我批評偏見的「憲法 AI」。Red Hat 的 RL 概覽強調混合 SFT-RL 管道,其中初始 SFT 為 RL 提供「冷啟動」,如在 Qwen 2.5 中,提升了 Arena-Hard 上的推理能力 22%。正在興起的是:多代理進化,一種自我改進的 RL 模式,LLM 作為提案者、解決者和裁判共同進化,提升 3B 模型 3-5% 而不依賴外部數據。
災難性遺忘——新的學習抹去舊的——長期困擾著訓練後階段。Scale AI 的 11 月 8 日研究引入了重播增強的持續學習,混合 10-30% 的歷史數據以保留多語言流利度,根據 mT5 的實驗。Google 於 11 月 7 日的嵌套學習將優化問題像俄羅斯套娃一樣嵌套,實現無干擾的無限技能積累,並在持續基準測試中比變壓器表現高 11%。11 月 4 日 UBC-Mila 的研究追蹤到對齊過程中的價值漂移,揭示偏好如何微妙地扭曲倫理——促使像 Verbalized Sampling 這樣的工件感知保護措施來恢復多樣性。
這些進展呼應了 Hugging Face 的策略:後訓練不是線性的,而是迭代的,通過合併(如 SLERP)混合變體以構建強大的集成。
提示調整通常與後訓練混為一談,但它是輕量級的親屬:優化軟提示(可學習嵌入)而非權重。Godbole 的《LLM 提示調整手冊》(11 月 9 日,在 X 上獲得 611 多個讚)通過心智模型來框定這一點——如「零射擊初始」或「少量示例」等概念支架,以引發潛在的能力。實際操作中,前綴調整(附加可調向量)在 GLUE 上媲美完整的 SFT,成本僅為其 1/100。
與後訓練配合:使用 SFT 進行粗略對齊,然後進行提示調整以進行微調。Maxime Labonne 在 2025 年 ODSC East 演講中展示了心智模型如何減少幻覺,將 RLHF 獎勵與動態提示結合,使輸出更安全,提高 25%。對於 SEO 專家來說,這意味著創建 LLM 驅動的內容流程,能夠根據查詢意圖進行調整,而無需重新訓練。

儘管有成功,後訓練仍隱藏著荊棘。由於RLHF的「典型性偏差」引入了非預期的偏見,導致產出多樣性下降,正如斯坦福NLP在11月6日的研討會所警告的那樣,創意任務因此下降了15-20%。多語言退化困擾SFT,非英語任務下降10-15%,除非重新訓練。計算不對稱有利於現有企業;PEFT雖然民主化了,但需要在超參數編排方面的專業知識。
根據Red Hat的最佳實踐:(1)混合管道——SFT啟動RL;(2)嚴格評估——除了困惑度,還應使用HELM進行全面的指標評估;(3)道德審計——在部署前追蹤價值偏移。像Tunix(JAX原生)這樣的工具簡化了白盒對齊,支持大規模的SFT/RLHF。
展望未來,訓練後的階段將與代理系統融合——如同多代理進化中的強化學習驅動自我改進迴圈,預示著自主演化。Meta 的 GEM(11 月 10 日白皮書)展示了通過蒸餾進行的知識轉移,以 10 倍效率實現特定廣告的大型語言模型。對於開發者而言,像 Red Hat 的訓練中心這樣的開放生態系統承諾提供即插即用的強化學習,而 OpenAI 的合成擴展可能使超對齊變得商品化。
總之,訓練後的階段不是尾聲,而是高潮。如同 OpenAI 的轉變所證實的,這是普遍性讓位於天才的地方。大膽實驗:在您的數據集上微調一個 Llama 變體,進行嚴格的評估,並反覆修正。定製化大型語言模型的時代已經來臨——把握機會。
