Pagsasanay sa Post-Training Techniques para sa LLMs sa 2025: Pagtataas ng mga Modelo mula Generalists patungong Specialists

Sa walang humpay na pag-unlad ng artipisyal na intelihensiya, ang mga malalaking modelo ng wika (LLMs) ay lumampas na sa kanilang mga unang yugto, naging mahahalagang kasangkapan mula sa pagbuo ng code hanggang sa malikhaing pagkukuwento. Gayunpaman, habang ang pre-training ay umabot sa rurok sa gitna ng kakulangan sa datos at tumataas na pangangailangan sa compute, ang pokus ay lubos na lumipat sa mga teknik ng post-training. Ang pagbabagong ito ay hindi lamang usaping akademiko—ito ay isang estratehikong pangangailangan. Noong Nobyembre 11, 2025, lumabas ang mga ulat na ang OpenAI ay muling isinasalaysay ang kanilang roadmap patungo sa pinahusay na mga metodolohiya ng post-training upang kontrahin ang bumabagal na pagtaas ng performance sa sunod-sunod na mga iterasyon ng GPT. Sa mga pundasyunal na modelo tulad ng GPT-4o na itinutulak na ang mga hangganan ng raw na sukat, ang tunay na alchemy ngayon ay nagaganap sa yugto ng pagpipino: pag-transforma ng mga probabilistic na parrot patungo sa mga tiyak, aligned, at nababagay na mga tagapag-isip.

Ang post-training—na sumasaklaw sa supervised fine-tuning (SFT), reinforcement learning mula sa feedback ng tao (RLHF), parameter-efficient fine-tuning (PEFT), at mga umuusbong na paradigma tulad ng patuloy na pag-aaral—ay nagbubukas ng kasanayan sa tiyak na larangan nang hindi kinakailangan ang napakalaking gastos ng muling pagsasanay mula sa simula. Gaya ng matalinong obserbasyon ni Nathan Lambert sa kanyang pagsusuri noong Enero 2025, 「Ang post-training ay hindi na isang pag-iisipan pagkatapos; ito na ang makina na nagtutulak sa makabagong kakayahan ng AI.」 Ang blog na ito ay malalim na sumisid sa mga teknik na ito, gamit ang pinakabagong mga tagumpay noong 2025 mula sa OpenAI, Scale AI, Hugging Face, at Red Hat. Kung ikaw man ay isang developer na nag-o-optimize para sa pag-deploy sa enterprise o isang mananaliksik na sumusuri sa mga hangganan ng pagkakahanay, ang pag-unawa sa post-training ay susi sa pagkuha ng buong potensyal ng LLMs. Tatalakayin namin ang mga metodolohiya, benchmark, hamon, at mga estratehiyang nakatuon sa hinaharap, na bibigyan ka ng mga praktikal na pananaw upang gawing handa para sa hinaharap ang iyong mga AI workflow.

Ang Pangangailangan ng Post-Training sa Panahon ng Pagbawas ng Pagbabalik

Ang pre-training ng LLMs gamit ang terabytes ng data na kinuha mula sa internet ay nagbunga ng mga himala tulad ng umuusbong na pangangatwiran sa mga modelo na lumalampas sa 100 bilyong parameter. Gayunpaman, ayon sa panloob na mga sukatan ng OpenAI, ang batas ng pagbawas ng pagbabalik ay matindi: ang bawat pagdodoble ng compute ay nagbubunga lamang ng bahagyang pagbuti sa perplexity, na pinalala pa ng pagkaubos ng de-kalidad na data. Dito pumapasok ang post-training: isang hanay ng mga interbensyon na inilalapat pagkatapos ma-freeze ang mga paunang timbang, na nakatuon sa pagkakahanay, kahusayan, at espesyalisasyon. Hindi tulad ng pre-training na gumagamit ng masinsinang pagkuha ng pattern, ang post-training ay masinsin—inaayos ang mga pag-uugali upang bigyang-pansin ang pagiging kapaki-pakinabang, walang pinsala, at katapatan (ang "tatlong H" ng kaligtasan ng AI).

Sa taong 2025, ang pagbabagong ito ay kinikilala ng mga higante ng industriya. Ang bagong tatag na koponan ng "foundations" ng OpenAI, na inanunsyo noong unang bahagi ng Nobyembre, ay inuuna ang paglikha ng synthetic na data at iterative na pagpapabuti upang mapanatili ang progreso, na senyales ng mas malawak na pagkakaisa ng industriya na ang post-training ay maaaring makakuha ng 2-5x na mas maraming halaga mula sa umiiral na mga arkitektura. Ang pananaliksik ng Scale AI noong Nobyembre 8 tungkol sa patuloy na pag-aaral sa panahon ng post-training ay lalo pang nagpatibay nito, na ipinapakita kung paano maaaring matuto ng bagong kaalaman ang mga modelo nang hindi nawawala ang dating kaalaman—isang suliraning nag-aalis ng 20-30% ng pangunahing kakayahan sa hindi maayos na fine-tuning. Samantala, ang Smol Training Playbook ng Hugging Face—isang higit sa 200 pahinang aklat na inilabas noong huling bahagi ng Oktubre—ay nagbibigay-daan sa mga pananaw na ito, na nagkukuwento ng kanilang paglalakbay mula sa pre-training ng SmolLM hanggang sa post-training sa pamamagitan ng SFT at direct preference optimization (DPO).

Bakit mahalaga ito para sa mga content creator na nakatuon sa SEO, mga enterprise architect, o mga indie developer? Ang mga post-trained LLM ay nagmamaneho ng 80% ng mga production-grade na aplikasyon, mula sa personalized na chatbots hanggang sa mga code assistant, ayon sa overview ng Red Hat noong Nobyembre 4. Binabawasan nila ang mga hallucination (binabawasan ang error rates ng hanggang 40% sa pamamagitan ng RLHF) at nagbibigay-daan sa vertical specialization, tulad ng pagsusuri ng legal na dokumento o diagnostic sa medisina, nang hindi lumalaki ang gastos sa inference. Habang sinisiyasat natin ang mga teknika, isaalang-alang: sa isang mundo kung saan ang mga modelo tulad ng Llama 3.1 at Mistral Large ang nangingibabaw sa mga open-source na leaderboard, ang post-training ay hindi opsyonal—ito ang nakapagpapakilala.

Mga Pangunahing Teknik sa Post-Training: Isang Paghahambing na Taksonomiya

Saklaw ng mga post-training na teknika ang isang spectrum mula sa magagaan na adaptasyon hanggang sa matinding mga alignments. Sa pinakapuso nito, nagsisimula ang proseso sa isang pre-trained na base model at nag-iinject ng mga task-specific na signal sa pamamagitan ng mga curated dataset at optimization loops. Tingnan natin ang mga haligi.

Supervised Fine-Tuning (SFT): Ang Saligan ng Paghubog ng Pag-uugali

Ang SFT ay ang gateway drug ng post-training: ilantad ang modelo sa mataas na kalidad, naka-label na mga pares ng instruction-response upang maitanim ang nais na pag-uugali. Isipin ito bilang apprenticeship—ginagabayan ang LLM mula sa simpleng pagmememorya patungo sa kontekstwal na aplikasyon. Binibigyang-diin ng komprehensibong gabay ng Red Hat noong Nobyembre 4 ang papel ng SFT sa pag-aangkop ng domain, kung saan kumukuha ang mga modelo ng 10,000-100,000 na halimbawa upang mapataas ang katumpakan ng gawain ng 15-25%.

Ang mga variant tulad ng Open Supervised Fine-Tuning (OSFT) ay gumagamit ng mga dataset na na-curate ng komunidad, nagpapababa ng dependency sa proprietary data. Ang mga benchmark mula sa playbook ng Hugging Face ay nagpapakita ng pag-angat ng SFT sa instruction-following ng SmolLM mula 45% hanggang 72% sa MT-Bench, na may minimal na compute (mas mababa sa 1,000 A100-hours). Gayunpaman, may panganib ang SFT ng overfitting; ang mitigasyon ay kinabibilangan ng curriculum learning, unti-unting pinapataas ang pagiging kumplikado.

Teknik
Paglalarawan
Gastos sa Pag-compute
Mga Kalakasan
Mga Limitasyon
Halimbawa ng Paggamit
SFT
Supervised exposure sa input-output pairs
Mababa (10-100 GPU-hours)
Mabilis na pag-aayon; pinapanatili ang base knowledge
Maaring magresulta sa mode collapse; nangangailangan ng maraming data
Instruction-tuned chatbots
OSFT
Community-sourced SFT datasets
Napakababa
Demokratikong access; iba't ibang halimbawa
Pagkakaiba-iba ng kalidad
Pagpapaunlad ng open-source model (hal. Llama 2)

Parameter-Efficient Fine-Tuning (PEFT): Pag-demokratisa ng Adaptasyon

Para sa mga team na may limitadong resources, ang PEFT ay nagiging kapansin-pansin sa pamamagitan ng pag-update ng maliit na bahagi ng mga parameter—madalas na <1%—gamit ang mga adapter tulad ng LoRA (Low-Rank Adaptation). Inilunsad noong 2021 pero pinino noong 2025, ang LoRA ay naglalagay ng mababang-ranggo na matrices sa mga attention layer, pinapangalagaan ang base model. Ang patuloy na pananaliksik ng Scale AI sa pag-aaral ay isinasama ang PEFT sa mga replay buffer, na nagbibigay-daan sa mga modelong matutunan ang sunod-sunod na gawain nang hindi nakakalimutan ang mga nakaraang gawain, na nakakamit ang 90% retention sa GLUE benchmarks pagkatapos ng multi-domain exposure.

Pinalalawig ng QLoRA ito sa 4-bit quantization, na binawasan ang pangangailangan sa VRAM ng 75% habang tumutugma sa buong fine-tuning perplexity. Sa praktika, ayon sa Prompt Tuning Playbook ni Varun Godbole (ina-update noong Nobyembre 9, 2025), ang PEFT ay ipinapares sa mga mental model tulad ng "chain-of-thought scaffolding" upang mapahusay ang reasoning, na nagbubunga ng 18% pagtaas sa GSM8K math tasks.

PEFT Variant
Ratio ng Pag-update ng Parameter
Mga Tipid sa Memorya
Mga Pagkamit sa Benchmark (hal., sa AlpacaEval)
Pinakamahusay Para sa
LoRA
0.1-1%
3x
0.12
Pangkalahatang adaptasyon
QLoRA
0.01-0.1%
75%
0.1
Mga edge device, pagtutok sa mababang mapagkukunan
AdaLoRA
Dinamikong alokasyon ng ranggo
2-4x
0.15
Adaptive, multi-task learning

Reinforcement Learning mula sa Feedback ng Tao (RLHF) at Higit Pa: Ang Crucible ng Pag-align

Itinatampok ng RLHF ang SFT sa pamamagitan ng pagsasama ng mga kagustuhan ng tao (o AI), pagsasanay ng isang reward model upang i-score ang mga output, pagkatapos ay pag-optimize sa pamamagitan ng Proximal Policy Optimization (PPO). Gayunpaman, ang kawalan ng katatagan ng PPO ay nagbunsod ng mga inobasyon noong 2025 tulad ng DPO at GRPO (Generalized Reward Preference Optimization), na lumalaktaw sa malinaw na reward modeling para sa direktang pag-aaral ng kagustuhan—binabawasan ang compute ng 50% habang nag-a-align ng 95% na kasing epektibo.

Nakatuon ang estratehiya ng OpenAI dito: sa gitna ng bumabagal na mga kita ng GPT, pinalalaki nila ang DPO sa mga synthetic preferences, ayon sa mga pagbubunyag noong Nobyembre 11, upang isulong ang "konstitusyonal na AI" na kusang pumupuna sa mga bias. Binibigyang-diin ng RL overview ng Red Hat ang hybrid na SFT-RL pipelines, kung saan ang paunang SFT ay "cold-starts" RL, gaya sa Qwen 2.5, na nagbubunga ng 22% na pag-unlad sa pangangatwiran sa Arena-Hard. Umuusbong: Multi-Agent Evolve, isang self-improving RL paradigm kung saan ang mga LLM ay sabay-sabay na umuunlad bilang proposer-solver-judge, na nagpapalakas ng 3B na mga modelo ng 3-5% nang walang panlabas na data.

RL Method
Pamamaraang Pag-optimize
Kahusayan sa Pagkakatugma
Compute Overhead
Inobasyon sa 2025
RLHF/PPO
Reward model + policy gradient
Mataas (90%+ tugma sa nais)
Mataas (10x SFT)
Mga bias audit sa Llama Guard
DPO
Tuwirang pagkawala ng kagustuhan
Napakataas (95%)
Mababa (2x SFT)
Pag-scale ng synthetic data (OpenAI)
GRPO
Pinagsamang gantimpala
Katamtaman-Mataas
Katamtaman
Hybrid sa SFT (Red Hat)

Patuloy at Nested na Pag-aaral: Hindi na Makakalimutan

Ang catastrophic forgetting—kung saan ang bagong kaalaman ay nagtatanggal ng luma—ay matagal nang naging problema pagkatapos ng pag-training. Ang gawain ng Scale AI noong Nobyembre 8 ay nagpakilala ng replay-augmented continual learning, na naghahalo ng 10-30% ng historical data upang mapanatili ang multilingual fluency, ayon sa mga eksperimento sa mT5. Ang Nested Learning ng Google (Nobyembre 7) ay naglalagay ng mga optimization problems tulad ng Russian dolls, na nagpapahintulot sa walang katapusang pagdaragdag ng kasanayan nang walang interference, na naglalampas sa mga transformers ng 11% sa continual benchmarks. Ang paglipat ng halaga sa panahon ng alignment, ayon sa isang pag-aaral ng UBC-Mila noong Nobyembre 4, ay nagpapakita kung paano subtly binabago ng mga kagustuhan ang etika—na nag-uudyok ng mga artifact-aware safeguards tulad ng Verbalized Sampling upang maibalik ang pagkakaiba-iba.

Ang mga pag-unlad na ito ay sumasalamin sa playbook ng Hugging Face: ang post-training ay hindi linear kundi iterative, na may merging (hal. SLERP) na nagpapalipat-lipat ng mga variant para sa mas matibay na mga ensemble.

Pagsasama ng Prompt Tuning: Mga Mental Model para sa Precision Engineering

Ang prompt tuning, na madalas napagkakamalang post-training, ay ang magaan nitong kapatid: pag-optimize ng soft prompts (natutunang embeddings) imbes na weights. Sa LLM Prompt Tuning Playbook ni Godbole (Nobyembre 9, may 611+ na likes sa X), ipinapaliwanag ito gamit ang mental models—konseptuwal na mga balangkas tulad ng "zero-shot priming" o "few-shot exemplars"—upang ilabas ang mga nakatagong kakayahan. Sa praktika, ang prefix-tuning (pagdaragdag ng mga tunable vectors) ay kayang makipagsabayan sa buong SFT sa GLUE, sa 1/100 na halaga.

Pagsasama sa post-training: Gamitin ang SFT para sa mas malaking pag-aayon, at pagkatapos ay ang prompt tuning para sa maliliit na pagbabago. Isang talakayan sa ODSC East 2025 ni Maxime Labonne ang nagpapakita kung paano binabawasan ng mental models ang hallucinations, pinaghalo ang RLHF rewards sa dynamic prompts para sa 25% mas ligtas na outputs. Para sa mga SEO pros, nangangahulugan ito ng paglikha ng mga LLM-driven content pipelines na umaangkop sa query intent nang hindi na muling nagtetrain.

Mga Hamon sa Post-Training: Pagtahak sa mga Panganib

Sa kabila ng mga tagumpay, may mga tinik sa post-training. Ang pagpapakilala ng artifact—mga hindi sinasadyang pagkiling mula sa "typicality bias" ng RLHF—ay nagpapabagsak sa pagkakaiba-iba ng output, gaya ng babala ng seminar ng Stanford NLP noong Nobyembre 6, na nagdudulot ng pagbaba ng mga gawaing malikhain ng 15-20%. Ang multilingual na pagkasira ay sumasalot sa SFT, na may mga non-English na gawain na bumababa ng 10-15% maliban kung inuulit. Ang compute asymmetry ay pumapabor sa mga incumbent; ang PEFT ay nagdidemokratisa ngunit nangangailangan ng kadalubhasaan sa pagsasaayos ng hyperparameter.

Mga pinakamainam na kasanayan, ayon sa Red Hat: (1) Hybrid pipelines—ang SFT ay nagbo-bootstraps ng RL; (2) Pagsusuri ng rigor—lampas sa perplexity, gamitin ang HELM para sa holistic metrics; (3) Etikal na pag-audit—subaybayan ang mga pagbabago sa halaga bago ang deployment. Ang mga tool tulad ng Tunix (JAX-native) ay nagpapadali ng white-box alignment, na sumusuporta sa SFT/RLHF sa malakihang sukat.

Hamon
Epekto
Estratehiya ng Pagsasaayos
Kasangkapan/Halimbawa
Catastrophic Forgetting
20-30% pagkawala ng kakayahan
Replay buffers + patuloy na pagkatuto
Balangkas ng Scale AI
Mode Collapse
Nabawasang pagkakaiba-iba
Verbalized Sampling
Stanford NLP
Scalability
Mataas na pangangailangan sa GPU
PEFT + quantization
QLoRA sa Hugging Face
Bias Amplification
Mga panganib sa etika
Preference auditing
DPO gamit ang synthetic data

Ang Horizon ng 2025: Pagkatapos ng Pagsasanay bilang Forge ng AGI

Tumingin sa hinaharap, ang post-training ay maghahalong muli sa mga agentic system—mga RL-driven self-improvement loops, tulad sa Multi-Agent Evolve, na nagpapahiwatig ng autonomous na ebolusyon. Ang GEM ng Meta (puting papel noong Nobyembre 10) ay isang halimbawa ng kaalaman transfer sa pamamagitan ng distillation, na nagbibigay-daan sa ad-specific na LLMs na may 10x na kahusayan. Para sa mga developer, ang mga bukas na ecosystem tulad ng Red Hat's Training Hub ay nangangako ng plug-and-play na RL, habang ang synthetic scaling ng OpenAI ay maaaring gawing kalakal ang superalignment.

Sa kabuuan, ang post-training ay hindi isang pagtatapos kundi isang kasukdulan. Tulad ng pinagtibay ng paglipat ng OpenAI, ito ang lugar kung saan ang kaganapan ay nagbibigay daan sa henyo. Mag-eksperimento nang buong tapang: i-fine-tune ang isang variant ng Llama sa iyong dataset, sukatin gamit ang mahigpit na evals, at mag-iterate. Dumating na ang panahon ng mga bespoke na LLMs—samantalahin ito.

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends