AI의 '후반전'에서 강화 학습이 주목받는 이유

저자: Boxu Li

사전 훈련에서 AI의 '후반전'으로

대규모 사전 훈련으로 지배된 10년을 지나, AI 커뮤니티는 AI 개발의 '후반전'이라고 부르는 시기에 접어들고 있습니다[1][2]. 전반전에서는 새로운 모델 구조와 훈련 방법이 끊임없이 벤치마크를 향상시켰습니다[3] – 컨브넷과 LSTM에서부터 트랜스포머까지 – 모든 것이 정적 데이터셋에서 감독 또는 자기 감독 학습을 통해 최적화되었습니다. 그러나 오늘날 GPT-4와 같은 최첨단 모델들은 본질적으로 많은 벤치마크를 포화시켰고, 데이터를 확장하고 매개변수를 단순히 늘리는 것은 점점 더 적은 수익을 냅니다[2]. 이러한 변화는 AI에서 더 높은 지능과 유용성을 달성하는 방법에 대한 재검토를 촉발했습니다.

최근에 떠오르는 합의 중 하나는 **강화 학습(RL)**이 다음 단계에서 큰 역할을 할 것이라는 점입니다. RL은 오랫동안 AI의 “최종 목표”로 여겨져 왔으며, 장기적인 보상을 최적화하여 임의의 작업에서 승리할 수 있는 강력한 프레임워크입니다[4]. 실제로 AlphaGoAlphaStar와 같은 초인적 시스템을 RL 없이 상상하기는 어렵습니다[4]. 이제 대규모 사전 학습 모델을 기반으로 많은 연구자들은 “사전 학습은 끝났다”라고 주장하며, 미래의 돌파구는 RL을 통해 대화형 환경에서 이러한 모델을 후속 학습하는 데서 올 것이라고 말합니다. 최근 한 에세이에서는 대규모 사전 학습 모델(“사전”)과 적절한 환경이 갖추어지면, **“RL 알고리즘은 고급 에이전트를 만드는 데 가장 사소한 부분일 수 있다”**고 했습니다[5]. 즉, 우리는 사전 학습으로 케이크를 구웠고, 강화 학습은 추론과 에이전시로 장식하는 것에 핵심입니다.

Shunyu Yao는 The Second Half에서 이 정신을 표현합니다. 그는 현대 AI가 이미 많은 작업을 별도의 알고리즘 없이 해결할 수 있는 **「작동하는 레시피」**를 제공한다고 지적합니다. 즉, 대규모 언어 모델 사전 학습 + 확장 + 추론이 그것입니다[2][6]. 따라서 게임이 바뀌었습니다: 단순히 또 다른 아키텍처를 발명하는 것만으로는 예전처럼 큰 도약을 이룰 수 없습니다. 대신 평가와 환경에 집중해야 합니다. 즉, AI가 단순히 다음 토큰을 예측하는 것이 아니라 진정으로 생각하고 행동하게 하는 작업에 집중해야 합니다[7][8]. 그리고 그것은 반드시 RL을 사용하는 것을 의미합니다. Yao는 RL을 “AI의 엔드게임”이라고 부르며, 이제 우리는 강력한 사전 학습과 풍부한 언어 및 도구 환경과 같은 올바른 재료를 가지고 있기 때문에 **「레시피가 이 두 번째 절반에서 게임을 완전히 변화시키고 있다」**고 주장합니다[1]. 우리는 정적 벤치마크에서 인터랙티브 작업으로, 일회성 평가에서 야생에서의 지속적 학습으로의 전환을 기대해야 합니다. 요컨대, 강화 학습이 AI를 발전시키는 중심이 되고 있습니다.

고급 기능을 여는 열쇠로서의 강화 학습(RL)

RL에 대한 새로운 집중이 필요한 이유는 무엇일까요? 간단히 말해, 강화 학습은 지도 학습만으로는 쉽게 달성할 수 없는 기능을 가능하게 합니다. 대형 언어 모델(LLM)이 그 좋은 예입니다. GPT-4와 같은 트랜스포머는 인터넷 텍스트를 사전 학습하면서 방대한 양의 지식과 언어 패턴 인식을 배우지만, 그 자체로는 진정한 주체성이 부족합니다. 사전 학습은 '어떻게 말할지'를 가르치지만, 상호작용 환경에서 어떤 결정을 내려야 하는지는 반드시 가르치지 않습니다. 반면, RL은 AI에게 어떤 목표를 추구해야 하며 이를 달성하기 위해 어떤 행동을 취해야 하는지를 가르칠 수 있으며, 이는 목표를 반영하는 보상을 최대화함으로써 이루어집니다. 수동적으로 예측하는 것에서 적극적으로 실험하고 피드백을 받는 것으로의 전환은 추론, 계획 및 정렬에 있어 매우 중요합니다.

최근 LLM 기반 에이전트에 대한 연구는 강화 학습(RL)이 새로운 성능 수준을 어떻게 끌어내는지를 보여줍니다. 예를 들어, 오픈소스 Kimi K2 모델은 강화 학습을 통해 끝까지 미세 조정되었으며, 이는 「모델이 감독된 사후 훈련에만 의존하지 않고 긴 추론 체인을 통해 계획하고, 반응하고, 스스로 수정하도록 가르칩니다」[9]. RL을 통해 K2는 자율적인 추론 패턴을 획득했으며, 사실을 교차 확인하고 가설을 반복하며 질문이 쉬워 보여도 신중함을 유지하는 방법을 배웁니다[10]. 결과적으로, 이 모델은 단순히 훈련 데이터를 반복하지 않고 새로운 문제를 어떻게 해결할지를 적극적으로 찾아냅니다. 마찬가지로, K2 프로젝트는 신뢰성을 강조합니다: 에이전트는 답변을 최종 확정하기 전에 확인하는 것을 선호하며, 이는 속도보다 정확성을 극대화하려는 RL 훈련된 경향을 반영합니다[11]. 본질적으로, 강화 학습은 모델에 계획과 반성의 내부 「에이전트적」 루프를 부여하여 다음 토큰 예측의 한계를 넘어섰습니다.

우리는 다른 고급 시스템에서도 이 패턴을 볼 수 있습니다. ChatGPT 자체의 개선은 GPT-3에서 주로 인간 피드백을 통한 강화 학습(RLHF)을 통해 이루어졌습니다. OpenAI는 모델을 텍스트로 사전 훈련한 후, 인간 피드백과 보상 모델을 사용하여 미세 조정을 하였고, 이는 모델의 유용성과 지침 준수 능력을 크게 향상시켰습니다. ChatGPT의 주요 연구원인 John Schulman은 이 과정을 설명합니다: 인간 테스터들이 제공한 보상 신호 덕분에 모델은 일관된 대화를 유지하고, 주제를 벗어나지 않으며, 원하지 않는 출력을 피하는 데 훨씬 능숙해졌습니다[12]. 즉, RLHF는 모델을 인간의 선호도와 대화 규범에 맞추었습니다. 이 기술은 원시 LLM을 유용한 어시스턴트로 전환하는 사실상의 표준이 되었습니다. WIRED 기사에 따르면, 강화 학습은 이제 모델을 미세 조정하기 위해 피드백 기반 보상을 제공하는 “점점 더 인기 있는” 방법입니다[13]. 챗봇이 지시를 따르도록 하거나 대규모 모델에 문제 해결 능력을 부여하기 위해서든, 사전 훈련이 모든 것을 다 했다면 RL이 선택 도구입니다.

RL의 중요성은 단순히 예의 바름을 위한 미세 조정을 넘어, 모델이 결정을 내리도록 가르치는 것에 있습니다. 최근 Macaron AI의 Mind Labs에서 나온 기술 블로그는 이를 이렇게 요약했습니다: “대규모 언어 모델이 사전 학습을 넘어 경험 학습으로 진화하면서, 강화 학습은 고급 추론 능력을 여는 열쇠로 떠올랐습니다.”[14] 최첨단 프로젝트는 RL을 단순한 사후 고려가 아니라 “주도적 행동을 위한 일류 설계 기둥으로 취급하며, 단순한 마무리 단계가 아닙니다”[15]. 실제로 이는 AI 시스템을 시뮬레이션 또는 실제 환경에 배치하여 행동하고 피드백을 받고 개선하도록 훈련하는 것을 의미합니다. 이는 도구 탐색을 하는 LLM 에이전트이든, 내비게이션을 배우는 로봇이든 마찬가지입니다. 강화 학습을 통한 경험 학습이 AI가 정적 데이터셋에 담을 수 없는 기술을 습득하는 방법입니다.

이러한 철학을 중심으로 새로운 AI 연구소들이 형성되고 있다는 것은 의미가 있습니다. Thinking Machines Lab는 전 OpenAI 리더들이 설립한 스타트업으로, RL 및 기타 기술을 통해 최첨단 모델을 미세 조정하기 위한 도구를 구축하기 위해 20억 달러의 대규모 초기 평가로 막 출범했습니다. 그들의 대표 제품 「Tinker」는 대형 모델의 RL 기반 미세 조정을 자동화하는 것을 목표로 하며, 많은 사람들이 「강화 학습을 활용하여 대형 모델에서 새로운 능력을 이끌어내는」 것이 AI의 다음 큰 트렌드가 될 것이라는 베팅을 하고 있습니다.[16][17]. 이와 마찬가지로, Macaron AI (새로운 연구 벤처)는 RL을 조 단위 파라미터 모델로 확장하기 위한 맞춤형 RL 최적화 도구와 인프라를 설계하고 있습니다.[18][19]. 이러한 노력들은 AI 커뮤니티가 RL에서 모델을 새로운 경계로 밀어올릴 수 있는 큰 기회를 보고 있다는 전반적인 트렌드를 강조합니다. 이는 Kimi K2 및 Macaron의 에이전트처럼 모델을 도구 활용 및 추론 능력을 향상시키는 것이든, ChatGPT 및 Tinker처럼 모델을 더 잘 맞추고 맞춤화하는 것이든 상관없습니다. 요약하면, RL은 지난 10년 동안 구축된 기초 모델의 잠재력을 완전히 실현하기 위한 핵심 기술로 간주되고 있습니다.

현실 세계의 영향: 시뮬레이션에서 위성까지

RL의 부상하는 두드러진 이유 중 하나는 정적 데이터 세트의 샌드박스를 넘어선 문제를 해결하는 데 있어 성공을 거두었기 때문입니다. 게임 플레이 이정표가 첫 번째 극적인 증거였습니다: DeepMind의 AlphaGo, AlphaZero와 OpenAI의 Five는 바둑, 체스, 심지어 복잡한 비디오 게임까지 깊은 강화 학습을 통해 정복했습니다. 이러한 시스템들은 잘 정의된 보상(예: 게임의 승리)이 주어질 경우, RL 에이전트가 단순한 연습과 최적화를 통해 인간 챔피언을 능가할 수 있음을 입증했습니다[4]. 특히, OpenAI Five가 2019년 Dota-2 세계 챔피언 팀을 상대로 한 승리는 전례 없는 규모의 순수 자가 플레이 RL 훈련을 통해 이루어졌으며, 충분한 경험이 제공될 때 오늘날 RL 알고리즘의 “놀라운 힘”을 보여주었습니다[20]. 이 프로젝트는 RL의 잠재력과 도전을 동시에 부각시켰습니다: 수백 년의 게임 플레이에 해당하는 거대한 시뮬레이션과 기발한 엔지니어링이 필요했지만, 실제로 작동하여 규칙 기반 AI가 할 수 없는 팀워크와 전략을 만들어냈습니다.

ADCS 박스(자세 결정 및 제어 시스템)가 이노큐브 위성의 자격 모델에 설치되고 있습니다.

중요하게도, RL은 더 이상 게임에 국한되지 않습니다. 2022년의 획기적인 성과는 DeepMind가 심층 RL을 사용하여 핵융합 플라즈마를 실시간으로 제어한 것으로, 이는 이전에 수동 컨트롤러로는 불가능했던 일이었습니다. 시뮬레이터에서 훈련한 후 토카막 반응기에 배치하여 그들의 에이전트는 플라즈마를 포함하도록 자기 코일을 조작하는 방법을 배웠고, 성공적으로 융합 반응을 안정화하는 방법을 자율적으로 학습했습니다[21]. 이는 RL이 물리학의 고차원적이고 동적인 제어 문제를 처리할 수 있음을 보여주었고, 정밀한 순차적 의사 결정에 의존하는 과학 연구에 새로운 길을 열었습니다[21].

RL이 실제로 그 진가를 발휘하고 있는 또 다른 분야는 다중 에이전트 상호작용과 게임 이론입니다. 눈에 띄는 예로는 게임 Diplomacy에서 인간 수준의 성능을 달성한 최초의 AI인 Meta의 CICERO가 있습니다. 이 게임은 여러 플레이어 간의 협상과 동맹 구축을 요구합니다. CICERO는 언어를 위한 LLM과 RL로 훈련된 계획 모듈을 결합하여 전략을 세우고, 다른 플레이어의 의도를 모델링하며, 설득력 있는 대화를 해야 합니다. 그 결과는 혁신적이었습니다. CICERO는 거짓말과 허풍이 존재하는 상황에서도 인간과 효과적으로 협력하고 경쟁할 수 있었습니다. 관찰자들은 이것이 **“여러 플레이어와의 신뢰, 협상 및 협력이 요구되는 전략 게임 Diplomacy에서 인간 수준의 성능을 달성한 최초의 AI”**라고 평가했습니다.[22] 이는 보드 게임 전술을 넘어 RL 에이전트가 사회적 전략과 동적 게임 이론 환경을 다룰 수 있음을 시사합니다. 이러한 역량은 언젠가 경제, 협상 또는 복잡한 조직적 결정을 탐색할 수 있는 AI에게 필수적입니다.

마침내, 그리고 아마도 가장 극적으로, 강화 학습(RL)은 지구를 완전히 벗어나고 있습니다. 지난 1년 동안 연구자들은 과학 소설이 현실로 이루어진 것이라고밖에 표현할 수 없는 성과를 달성했습니다: 강화 학습에 의해 제어되는 궤도상의 자율 위성 및 로봇. 미국 해군 연구소의 국제 우주 정거장에서의 실험에서, 시뮬레이션에서 훈련된 RL 알고리즘이 Astrobee 자유 비행 로봇의 제어를 맡아 미소 중력 상태에서 자율 비행을 성공적으로 수행했습니다[23][24]. NRL 팀은 이것이 “강화 학습 알고리즘을 사용한 최초의 우주 자율 로봇 제어” 라고 언급하며, RL이 우주 작전의 가혹한 조건을 처리할 수 있다는 확신을 심어주었다고 전했습니다[23]. 더욱 최근에는 2025년 10월 30일, 뷔르츠부르크 대학교 팀이 세계 최초의 궤도 내 데모를 달성했습니다: 그들의 작은 InnoCube 위성이 온보드 RL 에이전트의 완전한 제어 하에 자세 정렬 기동을 수행했습니다[25][26]. 주연구자는 *“우리가 심층 강화 학습을 사용하여 훈련된 위성 자세 제어기가 궤도에서 성공적으로 작동할 수 있다는 세계 최초의 실질적인 증거를 달성했습니다.”*라고 말했습니다[26]. 이는 중요한 전환점입니다 – RL은 시뮬레이션과 연구소를 넘어서 우주에서 물리적 시스템을 제어하는 단계에 도달했습니다. AI 컨트롤러는 고정밀 시뮬레이터에서 학습하였으며, 위성에 업로드되어 사람의 개입 없이 정밀한 방향 조정 작업을 수행했습니다[27][28]. 위성의 제어 알고리즘을 수작업으로 조정하는 몇 달간의 과정은 즉각적으로 적응할 수 있는 RL 에이전트로 대체되었습니다[29]. 우주 로봇 공학의 이러한 성공은 RL의 정책이 실제 세계의 불확실성 속에서 적응하고 일반화할 수 있는 능력을 강조하며, 이는 지구상의 더 자율적인 차량, 드론 및 로봇을 향한 중요한 발판이 됩니다.

시사점과 미래 방향

이 모든 예시는 중요한 점을 강조합니다: 강화 학습이 필요한 시기에 성숙해지고 있습니다. AI가 '후반전'에 접어들면서, 도전 과제가 단순히 예측하는 것이 아니라 수행하는 것이 된 상황에서, RL은 실험, 적응, 장기 최적화를 위한 틀을 제공합니다. 과거의 데이터에 묶여 있는 지도 학습과 달리, RL은 시스템이 자신의 경험으로부터 배우고 시행착오를 통해 개선하도록 합니다. 이는 새로운 사용자 쿼리를 해결하는 어시스턴트나 예상치 못한 장애물을 극복하는 로봇과 같이 비정형적이고 새로운 상황에서 작동해야 하는 AI에 필수적입니다.

AI에서 진보를 측정하는 방법에 대한 더 깊은 함의도 존재합니다. 모델의 지능을 평가하기 위해 더 이상 고정된 벤치마크에만 의존할 수 없습니다. 대신 연구자들은 실세계를 반영하는 새로운 평가 설정을 제안하고 있습니다: 연속 작업, 사람과의 상호작용, 비독립적이고 동일 분포가 아닌 시나리오[8][30]. 이러한 풍부한 환경을 RL 훈련과 결합함으로써, 모델이 더 견고하고 일반화 가능한 행동을 개발하도록 강요합니다. 야오의 말에 따르면, 두 번째 절반은 벤치마크 루프에서 벗어나 실제 실제 세계 유용성을 제공하는 에이전트를 만드는 것입니다[31][32]. RL 중심의 연구소에 대한 투자 붐과 산업에서 RLHF의 급속한 채택은 지금이 이 도약을 할 때라는 인식을 반영합니다.

그럼에도 불구하고, 강화 학습(RL)을 수용하는 것은 도전 과제 없이 이루어지지 않습니다. RL 훈련은 불안정하고 자원 집약적일 수 있습니다 (OpenAI Five의 고비용 훈련이 그 사례입니다[20]). 빠른 시뮬레이션이나 실수가 저렴한 환경을 요구하는 경우가 많으며, 이는 고위험 분야에서 항상 사용 가능한 것은 아닙니다. 그러나 이러한 문제에서도 진전이 이루어지고 있습니다. 새로운 알고리즘과 프레임워크(예: Macaron의 All-Sync RL with DAPO 최적화)가 대규모 RL 훈련의 효율성을 극적으로 향상시키고 있습니다[19][33]. sim2real 전이, 보상 모델링, 안전한 탐색 전략과 같은 기술들이 RL 시스템이 실제 배포에 실패 없이 도약할 수 있도록 돕고 있습니다[34][35]. 중요하게도, 커뮤니티는 다른 패러다임과 RL을 결합하는 방법을 배우고 있습니다. 예를 들어, 언어 모델을 비판자나 계획자로 사용하거나, 인간의 시범을 통해 RL을 안내하는 하이브리드 모방 학습 등을 사용하고 있습니다. 이러한 하이브리드 접근 방식은 종종 사전 훈련의 지식과 강화 학습의 의사 결정을 모두 활용할 수 있습니다.

결론적으로, 지금 강화 학습에 집중하는 것은 그 자체로 과대 광고의 문제가 아니라 필요와 기회가 어디에 있는지를 인식하는 것입니다. 우리의 AI 시스템이 방대한 잠재적 역량을 가지고 있는 시점에 서 있으며, 이러한 역량을 활성화하는 방법은 목표 지향 학습을 통해서입니다. AI의 행동을 인간의 가치와 맞추거나, 로봇에게 진정한 자율성을 부여하거나, AI가 새로운 과학 및 공학 문제를 해결하도록 밀어붙이는 것이든, RL은 피드백을 통해 AI를 반복적으로 개선하고 향상시킬 도구를 제공합니다. 우리는 수동 학습의 시대에서 적극적인 학습과 실행의 시대로 전환하는 것을 목격하고 있습니다. 흔히들 말하듯, "여기까지 오게 한 것은 우리가 가야 할 곳에 도달하게 해주지 않는다." 표현 학습의 무거운 작업은 거대한 모델들에 의해 대부분 수행되었을지 모르지만, 그 모델들을 유용하고 적응 가능하며 신뢰할 수 있는 에이전트로 바꾸는 것이 바로 강화 학습의 과업입니다. 지금 RL 연구와 응용에 투자함으로써 우리는 본질적으로 어려운 문제를 직접 해결하고 있습니다: 단계적으로 사고하고, 대안을 탐색하고, 오류에서 회복하고, 궁극적으로는 개방형 과제를 숙달할 수 있는 AI를 만드는 것입니다. AI의 거대한 궤적에서, 이 변화는 2010년대의 딥러닝 혁명만큼이나 중요합니다. 후반전은 이제 막 시작되었고, 강화 학습은 그 추진력이 될 준비가 되어 있습니다.

참조:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]


[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] The Second Half – Shunyu Yao – 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] Kimi K2 Thinking 소개 | 블로그

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] 독점: Mira Murati의 비밀 AI 연구소, 첫 제품 출시 | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] MIND LABS | DAPO와 LoRA로 All-Sync RL 확장

https://mindlabs.macaron.im/

[18] 마카롱 분석: Kimi K2 「Thinking」 모델: 개방형 에이전틱 AI 발전 - 마카롱

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five가 Dota 2 세계 챔피언을 이기다 | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] 학습된 플라즈마 제어를 통한 융합 과학 가속화 - Google DeepMind

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO: 외교 및 관계의 AI | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] 강화 학습이 우주에서 화제를 일으키고 있습니다 > 미국 해군 연구소 > NRL 뉴스

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] 우주에서의 세계 최초: 뷔르츠부르크 AI가 위성을 제어하다 -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Boxu는 에모리 대학교에서 정량 경제학 학사 학위를 받았습니다. Macaron에 합류하기 전, Boxu는 미국에서 사모펀드 및 벤처 캐피탈 분야에서 대부분의 경력을 쌓았습니다. 현재 그는 Macaron AI의 비서실장 겸 마케팅 부사장으로, 재무, 물류 및 운영을 관리하고 마케팅을 총괄하고 있습니다.

지원하기 Macaron 의 첫 친구들