2025년 LLM을 위한 포스트 트레이닝 기법 마스터하기: 모델을 제너럴리스트에서 스페셜리스트로 향상시키기

인공지능의 끊임없는 진화 속에서 대규모 언어 모델(LLM)은 초기 단계를 넘어 코드 생성부터 창의적인 스토리텔링까지 모든 분야에서 필수 도구가 되었습니다. 그러나 데이터 부족과 증가하는 컴퓨팅 요구 속에서 사전 훈련이 정체되는 가운데, 포스트 트레이닝 기법에 대한 주목이 급격히 증가하고 있습니다. 이는 단순한 학문적 호기심이 아니라 전략적 필수 사항입니다. 2025년 11월 11일, OpenAI가 후속 GPT 버전에서 성능 향상이 둔화되는 것을 반전시키기 위해 향상된 포스트 트레이닝 방법론으로 로드맵을 재정립하고 있다는 보고가 나왔습니다. GPT-4o와 같은 기초 모델이 이미 원시 규모의 한계를 넘어서고 있는 상황에서, 진정한 변혁은 이제 세련된 단계에서 이루어집니다: 확률적 앵무새를 정확하고, 정렬되며, 적응 가능한 사고자로 변모시키는 것입니다.

후속 학습—지도 학습(SFT), 인간 피드백을 통한 강화 학습(RLHF), 효율적인 파라미터 튜닝(PEFT), 그리고 연속 학습과 같은 새로운 패러다임을 포함—은 처음부터 다시 학습하는 데 드는 막대한 비용 없이도 도메인별 능력을 발휘할 수 있게 합니다. Nathan Lambert가 2025년 1월 분석에서 통찰력 있게 지적했듯이, 「후속 학습은 더 이상 부차적인 것이 아닙니다; 현대 AI 역량을 이끄는 엔진입니다.」 이 블로그는 OpenAI, Scale AI, Hugging Face, Red Hat의 2025년 최신 혁신을 바탕으로 이러한 기술을 깊이 있게 탐구합니다. 기업 배포를 최적화하는 개발자든, 정렬의 최전선을 탐구하는 연구자든, 후속 학습을 이해하는 것은 LLM의 잠재력을 최대한 활용하기 위한 핵심입니다. 우리는 방법론, 벤치마크, 과제 및 미래 지향적인 전략을 탐구하며, AI 워크플로우를 미래에 대비할 수 있는 실행 가능한 통찰력을 제공합니다.

수익 감소 시대의 후속 학습의 필요성

인터넷에서 수집한 테라바이트의 데이터를 사전 학습한 LLM은 1,000억 개 이상의 매개 변수를 가진 모델에서 출현하는 추론과 같은 경이로움을 보여주었습니다. 그러나 OpenAI의 내부 지표가 보여주듯이, 수확 체감 법칙이 강력하게 작용하고 있습니다: 계산 능력을 두 배로 늘릴 때마다 혼란도가 약간만 개선되고, 고품질 데이터가 소진되면서 상황이 더욱 복잡해집니다. 사후 학습이 등장합니다: 초기 가중치가 고정된 후에 적용되는 일련의 개입으로, 정렬, 효율성, 전문성에 중점을 둡니다. 사전 학습의 무차별 패턴 추출과 달리, 사후 학습은 외과적 접근을 통해 유용성, 무해성, 정직성(인공지능 안전성의 '3H')을 우선시하는 행동을 조정합니다.

2025년에 이 변화는 산업 거물들에 의해 구체화됩니다. OpenAI는 11월 초에 발표된 새로운 "foundations" 팀을 통해 합성 데이터 생성과 반복적 개선을 우선시하여 진전을 지속하고, 이는 기존 구조에서 훈련 후 2-5배 더 많은 가치를 추출할 수 있다는 폭넓은 산업 합의를 나타냅니다. 11월 8일 Scale AI의 연구는 훈련 후 지속적인 학습에 대해 강조하며, 모델이 새로운 지식을 통합할 수 있음을 보여주며, 이는 순진한 미세 조정에서 기본 능력의 20-30%를 침식하는 문제를 방지합니다. 한편, Hugging Face의 Smol Training Playbook—10월 말에 공개된 200페이지 이상의 책자—는 이러한 통찰력을 민주화하며, SmolLM의 사전 훈련에서 SFT 및 직접 선호 최적화를 통한 훈련 후의 여정을 기록합니다.

이것이 SEO 중심 콘텐츠 제작자, 엔터프라이즈 아키텍트 또는 독립 개발자에게 왜 중요할까요? 훈련 후 LLM은 Red Hat의 11월 4일 개요에 따르면 개인화된 챗봇부터 코드 어시스턴트까지 80%의 실전급 애플리케이션을 구동합니다. 이들은 환각을 줄이고(RLHF를 통해 오류율을 최대 40% 감소) 법률 문서 분석이나 의료 진단과 같은 수직적 특수화를 가능하게 하면서 추론 비용을 불필요하게 증가시키지 않습니다. 우리가 기술을 풀어볼 때, Llama 3.1 및 Mistral Large와 같은 모델이 오픈 소스 리더보드를 지배하는 세계에서 훈련 후는 선택 사항이 아니라 차별화 요소입니다.

핵심 후속 학습 기법: 비교적 분류

후속 학습 기법은 가벼운 적응부터 집중적인 정렬까지 다양한 범위를 아우릅니다. 이 과정의 핵심은 사전 훈련된 기본 모델에서 시작하여, 큐레이션된 데이터셋과 최적화 루프를 통해 과제별 신호를 주입하는 것입니다. 주요 기둥을 살펴봅시다.

지도된 미세 조정(SFT): 행동 조각의 기초

SFT는 후속 학습의 시작점입니다. 고품질의 라벨이 있는 명령-응답 쌍을 모델에 노출시켜 원하는 행동을 주입하는 것입니다. 마치 도제 훈련과 같아서, LLM을 단순 암기에서 맥락적 응용으로 이끄는 역할을 합니다. Red Hat의 11월 4일 종합 가이드는 SFT가 도메인 적응에서의 역할을 강조하고 있으며, 모델이 10,000-100,000개의 예제를 섭취하여 과제 정확도를 15-25% 향상시킨다고 설명합니다.

Open Supervised Fine-Tuning (OSFT)와 같은 변형은 커뮤니티가 큐레이션한 데이터셋을 활용하여 독점 데이터 의존성을 줄입니다. Hugging Face의 플레이북에서의 벤치마크는 SFT가 SmolLM의 명령 수행 능력을 MT-Bench에서 45%에서 72%로 향상시키며, 최소한의 컴퓨팅(1,000 A100-시간 이하)으로 수행된다고 보여줍니다. 그러나 SFT는 과적합의 위험이 있으며, 이를 완화하기 위해 점진적으로 복잡성을 증가시키는 커리큘럼 학습이 필요합니다.

기술
설명
계산 비용
강점
한계
예시 사용 사례
SFT
입력-출력 쌍에 대한 감독된 노출
낮음 (10-100 GPU-시간)
빠른 정렬; 기본 지식 보존
모드 붕괴에 취약; 데이터 요구량 많음
명령어 조정된 챗봇
OSFT
커뮤니티 소싱 SFT 데이터셋
매우 낮음
민주화된 접근; 다양한 예시
품질 변동성
오픈 소스 모델 개선 (예: Llama 2)

매개변수 효율적 미세 조정 (PEFT): 적응의 민주화

자원이 제한된 팀을 위해 PEFT는 LoRA (저랭크 적응)와 같은 어댑터를 통해 매개변수의 일부분만 업데이트하여 빛을 발합니다—종종 <1% 이하입니다. 2021년에 도입되었으나 2025년에 개선된 LoRA는 주의 레이어에 저랭크 행렬을 삽입하여 기본 모델을 동결합니다. Scale AI의 지속적인 학습 연구는 PEFT를 재생 버퍼와 통합하여 모델이 이전 작업을 잊지 않고 순차적으로 학습할 수 있도록 하며, 멀티 도메인 노출 후 GLUE 벤치마크에서 90% 보유율을 달성합니다.

QLoRA는 전체 미세 조정 당혹감과 맞먹으면서 VRAM 요구 사항을 75% 줄이는 4비트 양자화를 확장합니다. 실제로 Varun Godbole의 Prompt Tuning Playbook (2025년 11월 9일 업데이트)에 따르면 PEFT는 "사고 연결 틀"과 같은 정신 모델과 짝을 이루어 추론을 향상시켜 GSM8K 수학 과제에서 18%의 향상을 이끌어냅니다.

PEFT 변형
매개변수 업데이트 비율
메모리 절약
벤치마크 향상 (예: AlpacaEval에서)
최적의 용도
LoRA
0.1-1%
3배
0.12
일반적 적응
QLoRA
0.01-0.1%
75%
0.1
엣지 장치, 저자원 미세 조정
AdaLoRA
동적 순위 할당
2-4배
0.15
적응형 다중 과제 학습

인간 피드백을 통한 강화 학습 (RLHF) 및 그 이상: 정렬의 도가니

RLHF는 인간(또는 AI) 선호도를 통합하여 SFT를 향상시키고, 보상 모델을 훈련하여 출력을 점수화한 후, 근접 정책 최적화(PPO)를 통해 최적화합니다. 그러나 PPO의 불안정성은 2025년 DPO와 GRPO(일반화된 보상 선호 최적화)와 같은 혁신을 촉발했으며, 이는 명시적인 보상 모델링을 우회하고 직접적인 선호 학습을 통해 50%의 컴퓨팅을 절감하면서 95%의 효과적인 정렬을 달성합니다.

OpenAI의 전략적 전환은 여기에서 크게 기울어지며, GPT의 성장이 둔화되는 가운데 11월 11일 공개된 자료에 따르면 합성 선호도를 기반으로 DPO를 확장하여 편향을 스스로 비판하는 "헌법적 AI"를 육성하고 있습니다. Red Hat의 RL 개요는 초기 SFT가 Qwen 2.5에서처럼 RL을 '콜드 스타트'하여 Arena-Hard에서 22%의 추론 향상을 이루는 하이브리드 SFT-RL 파이프라인을 강조합니다. 떠오르는 것은 LLM이 제안자-해결자-심판으로 공동 진화하면서 외부 데이터 없이 3B 모델을 3-5% 향상시키는 자기 개선 RL 패러다임인 Multi-Agent Evolve입니다.

RL 방법
최적화 접근 방식
정렬 효율성
컴퓨팅 오버헤드
2025 혁신
RLHF/PPO
보상 모델 + 정책 기울기
높음 (90%+ 선호도 일치)
높음 (10x SFT)
Llama Guard에서 편향 감사
DPO
직접 선호 손실
매우 높음 (95%)
낮음 (2x SFT)
합성 데이터 확장 (OpenAI)
GRPO
일반화된 보상
중간-높음
중간
SFT와 하이브리드 (Red Hat)

지속적 및 중첩 학습: 더 이상 잊지 않기

새로운 학습이 오래된 것을 지우는 재앙적 망각은 오랫동안 사후 학습을 괴롭혀 왔습니다. Scale AI의 11월 8일 작업은 재생이 보강된 지속적 학습을 도입하여 10-30%의 역사적 데이터를 혼합하여 다국어 유창성을 유지하며, mT5 실험에서 이를 입증합니다. Google의 중첩 학습(11월 7일)은 러시아 인형처럼 최적화 문제를 중첩하여 방해 없이 끝없는 기술 축적을 가능하게 하며, 지속적 벤치마크에서 변형 학습기를 11% 능가합니다. 11월 4일 UBC-Mila 연구에서 추적된 정렬 중 가치 이동은 선호도가 미묘하게 윤리를 왜곡하는 방법을 드러내며, 다양성을 복원하기 위한 Verbalized Sampling과 같은 아티팩트 인식 보호를 촉구합니다.

이러한 발전은 Hugging Face의 전략과 일치합니다: 사후 훈련은 선형이 아닌 반복적이며, 병합(예: SLERP)으로 변형을 혼합하여 강력한 앙상블을 만듭니다.

프롬프트 튜닝 통합: 정밀 엔지니어링을 위한 멘탈 모델

프롬프트 튜닝은 종종 사후 훈련과 혼동되지만, 그보다 가벼운 버전입니다: 가중치가 아니라 소프트 프롬프트(학습 가능한 임베딩)를 최적화합니다. Godbole의 LLM 프롬프트 튜닝 플레이북 (11월 9일, X에서 611개 이상의 좋아요를 받음)은 이를 멘탈 모델을 통해 설명합니다—"제로샷 프라이밍"이나 "퓨샷 예시"와 같은 개념적 틀을 통해 잠재적 기능을 이끌어냅니다. 실제로 프리픽스 튜닝(튜닝 가능한 벡터 첨부)은 GLUE에서 전체 SFT와 1/100의 비용으로 경쟁합니다.

사후 훈련과의 조합: SFT로 대략적인 정렬을 수행한 다음 프롬프트 튜닝으로 미세 조정합니다. Maxime Labonne의 2025년 ODSC East 강연은 멘탈 모델이 환각을 완화하는 방법을 보여줍니다. 이는 RLHF 보상과 동적 프롬프트를 결합하여 25% 더 안전한 출력을 제공합니다. SEO 전문가에게 이는 LLM 기반 콘텐츠 파이프라인을 쿼리 의도에 맞게 재훈련 없이 조정하는 것을 의미합니다.

사후 훈련의 도전 과제: 함정 탐색

승리에도 불구하고, 훈련 후엔 가시가 있다. Stanford NLP의 11월 6일 세미나에서 경고한 바와 같이, RLHF의 「전형성 편향」에서 비롯된 비의도적 편향은 출력 다양성을 감소시키고, 창의적 작업을 15-20% 저하시킨다. 다국어 저하는 SFT를 괴롭히며, 비영어 작업은 재생되지 않으면 10-15% 감소한다. 컴퓨팅 비대칭은 기존 업체에 유리하며, PEFT는 민주화하지만 하이퍼파라미터 조정에 대한 전문성을 요구한다.

Red Hat에 따른 모범 사례: (1) 하이브리드 파이프라인—SFT가 RL을 부트스트랩; (2) 평가 엄격성—혼란도 그 이상으로, 전체적인 지표를 위한 HELM 사용; (3) 윤리적 감사—배포 전 가치 드리프트 추적. Tunix(JAX-네이티브) 같은 도구는 대규모 SFT/RLHF를 지원하며 화이트박스 정렬을 간소화한다.

도전 과제
영향
완화 전략
도구/예시
치명적 망각
20-30% 능력 손실
재생 버퍼 + 계속 학습
Scale AI의 프레임워크
모드 붕괴
다양성 감소
언어화된 샘플링
Stanford NLP
확장성
높은 GPU 요구
PEFT + 양자화
Hugging Face의 QLoRA
편향 증폭
윤리적 위험
선호 감사
합성 데이터를 사용한 DPO

2025 지평선: AGI의 단련장으로서의 훈련 후

앞을 내다보며, 훈련 후에는 Multi-Agent Evolve에서처럼 RL 기반의 자기 개선 루프와 결합된 에이전트 시스템으로 융합되어 자율적인 진화를 예고합니다. Meta의 GEM(11월 10일 백서)은 증류를 통한 지식 전이를 예시하여, 10배의 효율성을 가진 광고 전용 LLM을 가능하게 합니다. 개발자에게는 Red Hat의 Training Hub와 같은 개방형 생태계가 플러그 앤 플레이 RL을 약속하며, OpenAI의 합성 확장이 초정렬을 상품화할 수 있습니다.

결론적으로, 훈련 후는 종결이 아니라 절정입니다. OpenAI의 전환이 확인하듯, 이는 일반성이 천재로 바뀌는 순간입니다. 대담하게 실험하세요: 데이터셋에 라마 변종을 미세 조정하고, 엄격한 평가로 측정하며 반복하세요. 맞춤형 LLM의 시대가 도래했습니다—이 기회를 잡으세요.

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog

Boxu는 에모리 대학교에서 정량 경제학 학사 학위를 받았습니다. Macaron에 합류하기 전, Boxu는 미국에서 사모펀드 및 벤처 캐피탈 분야에서 대부분의 경력을 쌓았습니다. 현재 그는 Macaron AI의 비서실장 겸 마케팅 부사장으로, 재무, 물류 및 운영을 관리하고 마케팅을 총괄하고 있습니다.

지원하기 Macaron 의 첫 친구들