掌握 2025 年 LLM 的后训练技术:将模型从通才提升为专家

在人工智能的不断演变中,大型语言模型 (LLM) 已经超越了其初期阶段,成为从代码生成到创意故事讲述的不可或缺的工具。然而,随着数据稀缺和计算需求的不断增加,预训练进入瓶颈期,后训练技术开始受到极大关注。这一转变不仅仅是学术上的好奇心,而是一种战略性必需。2025 年 11 月 11 日,有报道称 OpenAI 正在重新调整其路线图,以增强后训练方法,以应对 GPT 连续迭代中性能增速放缓的问题。在像 GPT-4o 这样的基础模型已经在原始规模上突破界限的情况下,真正的魔法现在在于精炼阶段:将概率鹦鹉转变为精准、对齐且适应性强的思考者。

后训练——包括监督微调 (SFT)、从人类反馈中进行强化学习 (RLHF)、参数高效微调 (PEFT) 以及持续学习等新兴范式——在不需要从头开始重新训练的情况下,解锁了特定领域的能力。正如内森·兰伯特在他 2025 年 1 月的分析中敏锐地指出的那样:「后训练不再是事后之举;它是推动现代 AI 能力的引擎。」这篇博客深入探讨了这些技术,借鉴了 2025 年来自 OpenAI、Scale AI、Hugging Face 和 Red Hat 的最新突破。无论您是为企业部署进行优化的开发者,还是探究对齐前沿的研究人员,理解后训练是充分利用 LLMs 潜力的关键。我们将探讨方法论、基准、挑战和前瞻性策略,为您提供可操作的见解,以保障您的 AI 工作流程的未来。

后训练在回报递减时代的必要性

在互联网抓取数据的数太字节上进行预训练的LLM,已经产生了诸如在超过1000亿参数模型中出现的推理能力等奇迹。然而,正如OpenAI的内部指标所揭示的,收益递减规律正在严重影响:每次计算能力翻倍仅能带来微小的困惑度改善,并且高质量数据也在枯竭。进入后训练阶段:一系列在初始权重冻结后应用的干预措施,专注于对齐、效率和专业化。与预训练的蛮力模式提取不同,后训练是精细化的——调整行为以优先考虑有益性、无害性和诚实性(AI安全的“三个H”)。

到2025年,这一转变由行业巨头推动。OpenAI在11月初宣布成立的全新「基础」团队,优先考虑合成数据生成和迭代优化,以维持进展。这表明更广泛的行业共识认为,后训练可以从现有架构中提取出2-5倍的价值。Scale AI于11月8日的研究进一步强调了这一点,展示了模型如何在后训练期间吸收新知识而不发生灾难性遗忘——在天真的微调中,这种遗忘会侵蚀20-30%的基本能力。同时,Hugging Face的Smol Training Playbook——一本200多页的书籍,于10月底发布——使这些见解更为普及,记录了他们从SmolLM的预训练到通过SFT和直接偏好优化(DPO)的后训练的历程。

为什么这对SEO驱动的内容创作者、企业架构师或独立开发者很重要?根据Red Hat在11月4日的概述,后训练的LLM为80%的生产级应用提供动力,从个性化聊天机器人到代码助手。它们减少幻觉(通过RLHF将错误率降低多达40%)并实现垂直专业化,如法律文件分析或医学诊断,而不会增加推理成本。当我们解读这些技术时,请考虑:在像Llama 3.1和Mistral Large这样的模型主导开源排行榜的世界中,后训练不是可选项,而是区分因素。

核心后训练技术:比较分类

后训练技术范围从轻量级调整到深入对齐。其核心是从一个预训练的基础模型开始,通过精心策划的数据集和优化循环注入任务特定的信号。让我们解析这些支柱。

监督微调(SFT):行为雕刻的基石

SFT 是后训练的入门药物:通过高质量、标记好的指令响应对来使模型形成所需行为。可以将其视为学徒制——引导大语言模型从死记硬背到情境应用。红帽公司在 11 月 4 日的综合指南强调了 SFT 在领域适应中的作用,模型摄取 10,000-100,000 个示例以提高任务准确性 15-25%。

像开放监督微调(OSFT)这样的变体利用社区策划的数据集,减少对专有数据的依赖。来自 Hugging Face 的指南显示,SFT 将 SmolLM 的指令跟随能力从 45% 提升到 72% 在 MT-Bench 上,计算资源需求很小(低于 1,000 个 A100 小时)。然而,SFT 存在过拟合的风险;缓解方法包括课程学习,逐步增加复杂性。

技术
描述
计算成本
优势
限制
示例用例
SFT
监督暴露于输入输出对
低(10-100 GPU小时)
快速对齐;保留基础知识
易陷入模式崩溃;数据需求大
指令调优聊天机器人
OSFT
社区提供的SFT数据集
非常低
民主化访问;多样化示例
质量可变
开源模型优化(例如,Llama 2)

参数高效微调(PEFT):适应民主化

对于资源受限的团队,PEFT通过仅更新极少量的参数(通常不到1%)来展现其优势,例如LoRA(低秩适应)。LoRA于2021年首次推出并在2025年得到改进,通过在注意力层中注入低秩矩阵来冻结基础模型。Scale AI的持续学习研究将PEFT与重放缓冲区结合,使模型能够在不遗忘先前任务的情况下顺序学习,在多领域曝光后在GLUE基准上实现90%的保留率。

QLoRA 将量化扩展到 4 位,削减了 75% 的 VRAM 需求,同时匹配完整微调的困惑度。在实践中,根据 Varun Godbole 的提示调优手册(2025 年 11 月 9 日更新),PEFT 与“思维链脚手架”等心理模型配对,以增强推理能力,在 GSM8K 数学任务上实现了 18% 的提升。

PEFT 变体
参数更新比率
内存节省
基准提升(例如在 AlpacaEval 上)
最适合的场景
LoRA
0.1-1%
3 倍
0.12
一般适应性
QLoRA
0.01-0.1%
75%
0.1
边缘设备,低资源微调
AdaLoRA
动态秩分配
2-4 倍
0.15
自适应,多任务学习

从人类反馈中强化学习(RLHF)及其扩展:校准的试炼

RLHF 通过整合人类(或 AI)偏好提升 SFT,训练奖励模型对输出进行评分,然后通过近端策略优化(PPO)进行优化。然而,PPO 的不稳定性促使 2025 年出现了创新,如 DPO 和 GRPO(广义奖励偏好优化),这些方法绕过显式奖励建模,直接进行偏好学习——将计算量减少了 50%,同时实现了 95% 的有效对齐。

OpenAI 的战略转向在此大力倾斜:在 GPT 收益放缓之际,他们根据 11 月 11 日的披露,正在对合成偏好进行 DPO 扩展,以促进能够自我批评偏见的「宪法 AI」。红帽的 RL 概述强调了混合 SFT-RL 管道,其中初始 SFT 为 RL 提供“冷启动”,如在 Qwen 2.5 中,实现了 Arena-Hard 上推理能力提升 22%。新兴的有:多代理进化,一种自我改进的 RL 范式,其中 LLMs 作为提议者-解决者-评判者共同进化,提升了 3B 模型 3-5%,无需外部数据。

RL 方法
优化方法
对齐效率
计算开销
2025 创新
RLHF/PPO
奖励模型 + 策略梯度
高 (90%+ 偏好匹配)
高 (10x SFT)
Llama Guard 的偏差审计
DPO
直接偏好损失
非常高 (95%)
低 (2x SFT)
合成数据扩展 (OpenAI)
GRPO
泛化奖励
中高
中等
与 SFT 的混合 (Red Hat)

持续和嵌套学习:告别遗忘

灾难性遗忘——新知识抹去旧知识——长期困扰后训练阶段。Scale AI 于 11 月 8 日的工作引入了重播增强的持续学习,混合 10-30% 的历史数据以保持多语言流利度,在 mT5 的实验中表现优异。Google 的嵌套学习(11 月 7 日)像俄罗斯套娃一样嵌套优化问题,实现了无干扰的技能无限积累,在持续基准测试中比变压器高出 11%。UBC-Mila 在 11 月 4 日的研究中追踪到对齐期间的价值漂移,揭示了偏好如何微妙地扭曲伦理——促使使用 Verbalized Sampling 等工件感知的保障措施来恢复多样性。

这些进步反映了 Hugging Face 的策略:后期训练不是线性的,而是迭代的,通过合并(例如 SLERP)将变体融合,形成强大的集成。

整合提示调优:精确工程的心智模型

提示调优常与后期训练混淆,但其实是其轻量级的亲属:优化软提示(可学习的嵌入)而非权重。Godbole 的《LLM 提示调优策略》(11 月 9 日,在 X 上获得 611+ 赞)通过心智模型——如「零样本初始」或「少样本示例」等概念性支架——来引出潜在能力。在实践中,前缀调优(附加可调向量)在 GLUE 上的表现与全 SFT 相媲美,成本仅为其 1/100。

与后期训练配合使用:使用 SFT 进行粗略对齐,然后通过提示调优进行微调。Maxime Labonne 在 2025 年 ODSC East 的演讲中展示了心智模型如何减轻幻觉,将 RLHF 奖励与动态提示相结合,使输出安全性提高 25%。对于 SEO 专业人士来说,这意味着打造 LLM 驱动的内容管道,可以在不重新训练的情况下适应查询意图。

后期训练中的挑战:导航陷阱

尽管取得了胜利,训练后仍存有荆棘。工件引入——RLHF 的「典型性偏差」带来的无意偏见——削弱了输出的多样性,正如斯坦福 NLP 在 11 月 6 日的研讨会上警告的那样,创意任务因此下降了 15-20%。多语言退化困扰着 SFT,非英语任务下降 10-15%,除非重新训练。计算不对称有利于现有企业;PEFT 实现了民主化,但需要在超参数协调方面的专业知识。

根据红帽的最佳实践:(1)混合管道——SFT 启动 RL;(2)评估严格性——超越困惑度,使用 HELM 进行全面指标评估;(3)伦理审计——在部署前跟踪价值偏移。像 Tunix(原生 JAX)这样的工具简化了白盒对齐,支持大规模的 SFT/RLHF。

挑战
影响
缓解策略
工具/示例
灾难性遗忘
能力损失 20-30%
重播缓冲区 + 持续学习
Scale AI 的框架
模式崩溃
多样性减少
语言采样
斯坦福 NLP
可扩展性
高 GPU 需求
PEFT + 量化
Hugging Face 上的 QLoRA
偏见放大
伦理风险
偏好审计
使用合成数据的 DPO

2025 年的地平线:训练后阶段作为 AGI 的锻造场

展望未来,后训练将与代理系统融合——如同在多代理进化中,通过强化学习驱动的自我改进循环,预示着自主进化的到来。Meta 的 GEM(11 月 10 日白皮书)通过蒸馏实现知识转移,以 10 倍效率启用广告专用的 LLMs。对于开发者来说,像 Red Hat 的 Training Hub 这样的开放生态系统承诺即插即用的 RL,而 OpenAI 的合成扩展可能使超级对齐商品化。

总之,后训练不是终点,而是高潮。如同 OpenAI 的转变所证实的那样,这是通用性让位于天才的时刻。大胆实验:在你的数据集上微调一个 Llama 变体,使用严格的评估进行测量,并迭代。定制化 LLMs 的时代已经来临——抓住它。

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友