2025年に向けたLLMのポストトレーニング技術をマスターする: 一般モデルから専門モデルへの進化

人工知能の絶え間ない進化の中で、大規模言語モデル(LLM)はその初期段階を超え、コード生成からクリエイティブなストーリーテリングに至るまで、不可欠なツールとなっています。しかし、データ不足と計算要求の高騰により、事前トレーニングが停滞する中、ポストトレーニング技術にスポットライトが当たるようになりました。この転換は単なる学術的な好奇心ではなく、戦略的な必然です。2025年11月11日、OpenAIが次々と続くGPTのパフォーマンス向上の鈍化に対抗するため、ポストトレーニング手法を強化する方向へとロードマップを再設定しているとの報告がありました。GPT-4oのような基盤モデルが既に規模の限界を押し広げている中で、今や本当の錬金術は精緻化の段階で展開されています: 確率的なおうむ返しを正確で、調整可能で、適応力のある思考者に変えることです。

ポストトレーニング—監督付き微調整(SFT)、人間のフィードバックによる強化学習(RLHF)、パラメータ効率の良い微調整(PEFT)、継続学習のような新しいパラダイムを含む—は、ゼロから再訓練する高額なコストなしに、特定のドメインでの能力を解放します。ネイサン・ランバートが2025年1月の分析で巧みに指摘するように、「ポストトレーニングはもはや後回しではなく、現代のAIの能力を駆動するエンジンです」。このブログは、OpenAI、Scale AI、Hugging Face、Red Hatからの2025年の最新の進展を引き合いに出しながら、これらの技術を深く掘り下げます。エンタープライズ展開の最適化を目指す開発者であれ、アラインメントの最前線を探る研究者であれ、ポストトレーニングを理解することは、LLMの可能性を最大限に活用する鍵となります。手法、ベンチマーク、課題、将来を見据えた戦略を探求し、AIワークフローを未来に備えるための実用的な洞察を提供します。

収穫逓減の時代におけるポストトレーニングの必要性

数テラバイトのインターネットから収集したデータでLLMを事前トレーニングすることで、1000億パラメータを超えるモデルにおいて出現する推論などの驚異的な成果が得られました。しかし、OpenAIの内部指標が示すように、収穫逓減の法則が厳しく効いています。計算量を倍増しても、パープレキシティの改善はわずかで、高品質データの枯渇がそれに拍車をかけています。そこで登場するのがポストトレーニングです。これは初期の重みが固定された後に適用される一連の介入で、アライメント、効率性、専門性に焦点を当てています。事前トレーニングのような力任せのパターン抽出とは異なり、ポストトレーニングは外科的です。役立ち、無害で、正直であること(AI安全性の「3つのH」)を優先するように行動を微調整します。

2025年には、この変化が業界の大手によって結晶化されます。OpenAIが11月初めに発表した新しい「基盤」チームは、進歩を持続させるために合成データ生成と反復的な改良を優先しており、トレーニング後に既存のアーキテクチャから2〜5倍の価値を引き出せるという業界全体のコンセンサスを示しています。Scale AIの11月8日の研究は、トレーニング後の継続学習についてさらに強調しており、モデルが新しい知識を吸収しつつ、単純なファインチューニングで生じる能力の20〜30%を失うという問題を回避できることを示しています。一方、Hugging Faceの『Smol Training Playbook』—10月末にリリースされた200ページ以上の書籍—はこれらの洞察を民主化し、SmolLMの事前トレーニングからSFTと直接好みの最適化(DPO)を経てトレーニング後に到達するまでの旅を記録しています。

では、これがSEOを重視するコンテンツクリエイター、企業のアーキテクト、またはインディー開発者にとってなぜ重要なのでしょうか?Red Hatが11月4日に概説したところによれば、トレーニング後のLLMは、パーソナライズされたチャットボットからコードアシスタントまで、製品グレードのアプリケーションの80%を支えています。RLHFによって誤り率を最大40%削減し、幻覚を軽減し、法的文書解析や医療診断のような垂直専門化を可能にしつつ、推論コストの膨張を防ぎます。これらの技術を解説する際に考慮してください。Llama 3.1やMistral Largeのようなモデルがオープンソースのリーダーボードを支配する世界において、トレーニング後のプロセスは選択肢ではなく、差別化要因です。

コアなポストトレーニング技術: 比較タクソノミー

ポストトレーニング技術は、軽量な適応から集中的な整合までのスペクトラムをカバーしています。プロセスの核心は、事前にトレーニングされたベースモデルから始まり、キュレーションされたデータセットと最適化ループを通じてタスク特有のシグナルを注入することです。柱を分解してみましょう。

教師あり微調整 (SFT): 行動彫刻の礎

SFTはポストトレーニングのゲートウェイドラッグです。高品質なラベル付き指示-応答ペアをモデルにさらすことで、望ましい行動を植え付けます。これは見習いのようなもので、LLMを単なる暗記から文脈の応用へと導きます。Red Hatの包括的な11月4日ガイドは、SFTのドメイン適応における役割を強調しています。ここでモデルは、タスクの精度を15-25%向上させるために10,000〜100,000の例を取り込みます。

Open Supervised Fine-Tuning (OSFT) のようなバリアントは、コミュニティがキュレーションしたデータセットを活用し、専有データへの依存を減らします。Hugging Faceのプレイブックからのベンチマークは、SFTがSmolLMの指示追従をMT-Benchで45%から72%に引き上げ、計算量は1,000 A100時間未満であることを示しています。しかし、SFTは過学習のリスクがあり、複雑さを段階的に増やすカリキュラムラーニングで緩和します。

技術
説明
計算コスト
強み
制限
使用例
SFT
入力と出力のペアを監督付きで露出する
低 (10-100 GPU-時間)
迅速な整合性維持; 基本知識の保持
モード崩壊の危険性; データ依存
指示に特化したチャットボット
OSFT
コミュニティによるSFTデータセット
非常に低
民主化されたアクセス; 多様な例
品質のばらつき
オープンソースモデルの改良 (例: Llama 2)

Parameter-Efficient Fine-Tuning (PEFT): 適応の民主化

リソースが限られたチームにとって、PEFTはパラメータのわずかな部分、しばしば<1%のみを更新することで際立ちます。例えばLoRA(低ランク適応)などのアダプターを通じて。2021年に導入され、2025年に洗練されたLoRAは、低ランク行列を注意層に注入し、ベースモデルを凍結します。Scale AIの継続的学習研究は、PEFTをリプレイバッファと統合し、モデルが先行タスクを忘れることなく逐次学習できるようにし、GLUEベンチマークでの複数ドメインにわたる露出後に90%の保持率を達成します。

QLoRAは、4ビット量子化を可能にし、VRAMの必要量を75%削減しながら、完全な微調整の当惑度と一致させます。実際には、Varun Godboleの『プロンプトチューニングプレイブック』(2025年11月9日更新)によれば、PEFTは「思考の連鎖の足場」といったメンタルモデルと組み合わせることで推論を強化し、GSM8K数学タスクで18%の向上をもたらします。

PEFTバリアント
パラメータ更新比率
メモリ節約
ベンチマークの向上(例:AlpacaEval)
最適な用途
LoRA
0.1-1%
3倍
0.12
一般的な適応
QLoRA
0.01-0.1%
75%
0.1
エッジデバイス、低リソース微調整
AdaLoRA
動的ランク割り当て
2-4倍
0.15
適応的なマルチタスク学習

人間のフィードバックからの強化学習(RLHF)とその先:アライメントの試金石

RLHF は、SFT を人間(または AI)の好みを組み込むことで高め、報酬モデルを訓練して出力をスコアリングし、その後、Proximal Policy Optimization(PPO)を通じて最適化します。しかし、PPO の不安定さにより、2025 年には DPO や GRPO(Generalized Reward Preference Optimization)といった革新が生まれ、これらは明示的な報酬モデリングを回避し、直接的な好みの学習を行うことで、計算を 50% 削減しながら 95% の効果的な整合性を実現します。

OpenAI の戦略的な転換はここに重点を置いています。GPT の成果が鈍化する中で、彼らは「憲法 AI」を促進するために、11 月 11 日の発表に基づき、合成的な好みに DPO をスケーリングして、バイアスを自己批判することを目指しています。Red Hat の RL 概要は、最初の SFT が Qwen 2.5 のように RL を「コールドスタート」させるハイブリッド SFT-RL パイプラインを強調しており、Arena-Hard で 22% の推論向上をもたらします。新たに登場したのは、Multi-Agent Evolve という自己改善型の RL パラダイムで、LLM が提案者-解決者-審査者として共進化し、外部データなしで 3B モデルを 3-5% 向上させます。

RL メソッド
最適化アプローチ
アライメント効率
計算オーバーヘッド
2025年のイノベーション
RLHF/PPO
報酬モデル + ポリシー勾配
高い(90%以上の好み一致)
高い(SFTの10倍)
Llama Guardでのバイアス監査
DPO
直接の好み損失
非常に高い(95%)
低い(SFTの2倍)
合成データ拡張(OpenAI)
GRPO
一般化された報酬
中〜高
SFTとのハイブリッド(Red Hat)

継続的かつネストされた学習:忘却の克服

新しい学習が古い学習を消し去る「破滅的忘却」は、ポストトレーニングの長年の課題でした。Scale AIの11月8日の研究では、10〜30%の過去データを混ぜて多言語の流暢さを保持するリプレイ強化継続学習を紹介。Googleのネストされた学習(11月7日)は、ロシアの人形のように最適化問題をネストし、干渉なしでスキルを無限に蓄積でき、継続ベンチマークでトランスフォーマーを11%上回る性能を示しました。11月4日のUBC-Milaの研究では、アライメント中の価値のドリフトがどのように好みを微妙にゆがめるかを明らかにし、Verbalized Samplingのようなアーティファクト対応のセーフガードが多様性を回復することを促しています。

これらの進歩は、Hugging Face のプレイブックを反映しています。ポストトレーニングは直線的ではなく反復的であり、(例:SLERP などの)マージによってバリアントがブレンドされ、強力なアンサンブルが形成されます。

プロンプトチューニングの統合: 精密工学のためのメンタルモデル

プロンプトチューニングは、しばしばポストトレーニングと混同されますが、それは軽量な親戚です。重みではなくソフトプロンプト(学習可能な埋め込み)を最適化します。Godbole の LLM Prompt Tuning Playbook(11月9日、Xで611以上の「いいね」を獲得)は、これを「ゼロショットプライミング」や「少数ショットの例」といった概念的な足場を通じて枠組み化し、潜在能力を引き出します。実際には、プレフィックスチューニング(チューニング可能なベクトルを追加する)は、GLUEでの完全なSFTに匹敵し、コストは1/100です。

ポストトレーニングとの組み合わせ: 粗い調整にはSFTを使用し、その後マイクロ調整のためにプロンプトチューニングを行います。2025年のODSC EastでのMaxime Labonneの講演では、メンタルモデルが幻覚を軽減し、RLHFの報酬と動的プロンプトを組み合わせることで25%安全な出力が実現される様子が示されています。SEOの専門家にとって、これは再トレーニングなしでクエリの意図に適応するLLM駆動のコンテンツパイプラインを構築することを意味します。

ポストトレーニングの課題: 落とし穴のナビゲート

成功にもかかわらず、トレーニング後にはいくつかの困難があります。アーティファクトの導入—RLHFの「典型性バイアス」による意図しないバイアス—が出力の多様性を崩壊させ、スタンフォードNLPの11月6日のセミナーによると、創造的なタスクを15-20%侵食します。多言語の劣化はSFTを苦しめ、再実行しない限り非英語タスクは10-15%低下します。計算の非対称性は既存のプレーヤーに有利であり、PEFTは民主化を進めますが、ハイパーパラメータの調整には専門知識が必要です。

Red Hatによるベストプラクティス:(1)ハイブリッドパイプライン—SFTがRLをブートストラップ; (2)評価の厳密さ—複雑性を超えて、HELMを使用して包括的なメトリクスを使用; (3)倫理的監査—展開前に価値の変遷を追跡。Tunix(JAXネイティブ)のようなツールは、SFT/RLHFを大規模にサポートしながら、ホワイトボックスの整合性を簡素化します。

課題
影響
緩和戦略
ツール/例
壊滅的忘却
20-30%の能力喪失
リプレイバッファー + 継続学習
Scale AIのフレームワーク
モード崩壊
多様性の低下
言語化サンプリング
スタンフォードNLP
スケーラビリティ
高GPU要求
PEFT + 量子化
Hugging FaceのQLoRA
バイアスの増幅
倫理的リスク
好みの監査
合成データによるDPO

2025年の地平線: AGIの鍛冶場としてのポストトレーニング

先を見据えると、ポストトレーニングはエージェントシステムと融合し、マルチエージェント進化のようにRL駆動の自己改善ループが自律進化を予感させます。MetaのGEM(11月10日のホワイトペーパー)は、蒸留を通じた知識の移転を例に示し、特定広告向けのLLMを10倍の効率で可能にします。開発者にとって、Red HatのTraining Hubのようなオープンエコシステムは、プラグアンドプレイのRLを約束し、OpenAIの合成スケーリングはスーパーアライメントを商品化する可能性があります。

要するに、ポストトレーニングは終わりではなく、クライマックスです。OpenAIのシフトが示すように、そこでは一般性が天才に変わるのです。大胆に実験してください:データセットに基づいてLlamaのバリアントを微調整し、厳密な評価で測定し、繰り返し改善しましょう。オーダーメイドのLLMの時代が到来しています—このチャンスをつかんでください。

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達