
작성자: Boxu LI
인공지능의 진화하는 환경에서, 극단적인 규모로의 사전 학습이 강력한 정적 역량을 가져왔던 시점에서, 이제는 더 큰 정적 모델을 구축하는 것을 넘어 에이전트 시스템을 만들려는 프런티어로 이동하고 있습니다. 이러한 에이전트는 깊이 있는 추론을 하고, 도구를 사용하며, 보고 기억하고, 경험을 통해 지속적으로 학습할 수 있습니다[1].
Thinking Machines Lab의 Tinker 플랫폼은 2025년 12월 12일에 발표된 일반 이용 가능성 발표와 함께, 수조 매개변수 모델의 미세 조정 및 다중 모드 확장을 민주화하는 중요한 인프라적 도약을 나타냅니다. 동시에, Macaron AI의 연구 부문인 Mind Lab은 "경험적 인텔리전스"에 대한 철학적, 기술적 프레임워크를 명확히 하며, 모델이 지식의 고정된 저장소에서 실제 세계의 피드백을 통해 스스로를 정제하는 동적 프로세스로 전환하는 것을 목표로 합니다. 이 융합은 알고리즘 혁신과 배포된 적응 사이의 고리를 닫아, 연구와 제품의 공동 설계를 정제할 수 있는 깊은 기회를 제공합니다.
Tinker의 업데이트에서의 주요 혁신
이 게시물에서는 Tinker의 새로운 Kimi K2 추론 모델, OpenAI 호환 인터페이스, Qwen3-VL 비전 모델을 살펴보고, Mind Lab의 경험적 지능 철학, 트릴리언 매개변수 강화 학습(RL) 혁신, 메모리 확산 접근법, 차세대 AI 시스템 구축의 전략적 의미를 탐구해 볼 거예요.
Tinker는 연구자들이 인프라에 대한 걱정 없이 최첨단 모델을 미세 조정하고 배포할 수 있도록 설계된 AI 교육 플랫폼이에요[2][3]. 2025년 12월, Tinker는 AI 모델의 추론 능력, 도구 사용, 시각적 이해를 강화하는 몇 가지 주요 업데이트를 발표했어요[4]:
[15] Qwen3-VL-235B (비전-언어 모델)와 DINOv2 (비전 전용 기준)의 이미지 분류 작업에서의 성능 비교입니다. Qwen3-VL은 특히 데이터가 적은 상황(맨 왼쪽)에서 언어를 활용한 시각적 이해 덕분에 더 높은 정확도를 달성합니다.
클래스당 하나의 예시만으로도, 235B Qwen3-VL 모델은 극한의 저데이터 환경에서 DINOv2를 상당히 능가하며 합리적인 정확성을 달성했습니다[15]. 예시 수가 증가하면서 두 모델 모두 성능이 향상되었지만, Qwen3-VL은 여전히 우위를 유지하며 더 강력한 몇 샷 일반화를 보여주었습니다[16]. 이 장점은 모델의 내장된 언어 및 세계 지식에서 비롯됩니다. 예를 들어, Qwen3-VL은 다중모드 사전 훈련을 통해 이미 '해바라기'나 '골든 리트리버'가 어떻게 생겼는지 또는 어떻게 설명되는지를 알고 있습니다[16]. 이는 새로운 예시가 거의 없어도 새로운 이미지를 인식하거나 분류할 수 있음을 의미합니다. 실질적으로, Tinker의 사용자들은 이러한 대형 비전-언어 모델을 활용하여 아주 작은 데이터셋으로도 시각적 작업에서 높은 정확성을 달성할 수 있습니다. 이러한 데이터 효율적인 비전 기능은 레이블이 붙은 데이터가 부족한 실제 상황에서 매우 중요합니다. 또한 도구 보강 추론의 힘을 암시합니다: '볼 수 있는' 모델은 시각적 단서와 언어적 맥락을 모두 활용하여 더 다재다능한 에이전트가 됩니다 (예를 들어, 다이어그램을 읽고 설명하거나 이미지를 추론 체인의 일부로 사용하는 것). 전체적으로, Qwen3-VL의 Tinker 추가는 플랫폼의 범위를 순수 텍스트에서 시각적 영역으로 확장하여 동일한 통합 훈련 API 아래에서 다중 모드 추론 워크플로우를 가능하게 합니다.
연구 전선에서, Mind Lab – Macaron AI와 관련된 새로운 최전방 연구소 – 은 AI 에이전트를 진정으로 적응적이고 경험적인 것으로 만드는 도전을 해결하고 있어요. Mind Lab의 철학은 *“진정한 지능은 더 많은 사전 훈련이 아니라 진짜 경험에서 나온다”*는 것이에요[17]. 다시 말해, 정적 데이터셋에서 모델을 단순히 확장하는 것으로는 충분하지 않으며, 다음 AI 도약은 인간이 경험을 쌓는 것처럼 상호작용에서 지속적으로 배우는 시스템에서 나올 거예요. Mind Lab은 이 비전을 경험적 지능으로 틀지어, 정적인 “뇌”에서 적응 가능한 “마음”으로 이동하여 내부 세계 모델을 형성하고, 피드백을 통해 지식을 업데이트하며, 명확한 목표나 가치를 가지고, 심지어 자신의 행동을 반성할 수 있는 시스템을 만들고자 해요[18]. 이는 종종 강력하지만 사전 훈련 후에는 정지된 현재의 LLM의 한계에 대한 직접적인 대응이에요[18]. 진정한 적응을 위한 메커니즘 – 지속적인 강화 학습과 동적 메모리 같은 – 을 도입하여 Mind Lab은 사용과 함께 진화하는 에이전트를 만들고자 해요.
Mind Lab의 작업의 두 가지 핵심 기둥은 다음과 같습니다: (1) 대규모 모델의 효율적인 RL 미세 조정으로 새로운 행동을 심어주는 것과 (2) 에이전트가 장기 지식을 보유하고 활용할 수 있는 고급 메모리 시스템입니다. 이 두 가지 모두 AI를 더욱 자율적(스스로 결정하고 개선)으로 만들고 연구의 발전을 제품 배포와 긴밀히 연결하는 것을 목표로 합니다.
Mind Lab의 주요 업적 중 하나는 강화 학습을 조 단위 파라미터 규모로 시연하고, 이를 실용적이고 비용 효율적인 방법으로 수행한 것입니다. 2025년 12월, 그들은 1.04조 파라미터 Kimi K2 추론 모델에서 최초의 엔드 투 엔드 RL 파이프라인을 발표했으며, 이는 일반적으로 필요한 GPU 자원의 **약 10%**만으로 달성되었습니다[19]. 어떻게 가능했을까요? 팀은 **파라미터 효율적인 미세 조정(LoRA)**과 모델의 Mixture-of-Experts 구조를 통한 하이브리드 병렬화를 결합한 특수한 훈련 엔진을 구축했습니다[20][21].
모든 수조 개의 가중치를 조정하는 대신, 마인드 랩의 접근 방식은 Kimi K2의 선택된 레이어(밀집된 백본과 전문가 레이어 내)에 저순위 적응 행렬을 주입하고, RL 동안 그것들만 업데이트합니다[22]. 이는 훈련 가능한 매개변수의 수를 극적으로 줄여주며(예를 들어, 각 레이어당 수십 또는 수백의 LoRA 순위로 전체 행렬 대신) 결과적으로 메모리와 계산 사용량을 크게 줄입니다. 동시에, 이 크기의 모델을 훈련하기 위해서는 많은 GPU에 작업량을 효율적으로 분배해야 합니다. 팀은 하이브리드 병렬 전략을 사용했습니다: 텐서 병렬성, 파이프라인 병렬성, 전문가 병렬성(MoE 전문가용), 그리고 시퀀스 병렬성(긴 시퀀스 훈련용)을 조정하여 샤드된 LoRA 업데이트에 호환되도록 만들었습니다[23]. 실제로, 이는 기존의 대형 모델 훈련 프레임워크(NVIDIA의 Megatron과 ByteDance의 VolcEngine RL)를 활용하고, MoE에서 LoRA를 처리하도록 확장하며, 클러스터 내 64개의 GPU에 계산을 신중하게 분배하는 것을 의미했습니다[24]. 그 결과, 전체 Kimi K2 모델에서 안정적인 정책 내 RL 훈련이 가능해졌으며, 보상 모델이 추론 품질에 대한 피드백을 제공했습니다[22] – 이는 대부분의 팀에게 비용 때문에 불가능하다고 여겨졌던 것입니다.
동등하게 중요한 점은, 작동했다는 것입니다: LoRA로 미세 조정된 Kimi K2는 장기 추론 작업에서 큰 개선을 이루었으며, 학습 곡선이 매끄럽고 발산이 없었습니다[25]. 결정적으로, 적응된 모델은 최소한의 중점적인 가중치 변경 덕분에 기본 모델의 일반적인 기술을 유지하면서 새로운 작업별 행동을 획득했습니다[26]. 이는 기본 모델의 방대한 사전 지식이 덮어씌워지지 않고, 단지 보강되었음을 의미합니다 – 이는 LoRA 미세 조정의 핵심 이점입니다. 실제로, Mind Lab의 실험은 더 큰 모델이 RL에 더 강력한 기반을 제공한다는 것을 확인했습니다. 고정된 훈련 예산 내에서, 큰 모델과 작은 LoRA 어댑터는 완전한 조정으로 훈련된 작은 모델보다 도메인 내 작업과 새로운 작업으로의 전이 모두에서 더 나은 성과를 냈습니다[27]. 팀이 말하길, RL은 *"사전 제한"*되어 있습니다 – 기본 모델이 처음부터 고품질 경로를 생성할 수 없으면, RL은 증폭할 신호가 거의 없습니다[27]. Kimi K2와 같은 강력한 사전 학습된 사전은 RL이 집중할 풍부한 행동 세트를 제공하며, 작은 모델을 처음부터 훈련할 경우 새로운 행동을 창조해야 합니다. 이 통찰력은 기존의 지혜를 뒤집습니다: 강력한 사전과 LoRA 효율성을 가진 큰 모델에서 RL을 수행하는 것이 작은 모델에서 RL을 수행하는 것보다 더 컴퓨팅 효율적일 수 있습니다, 심지어 작은 모델이 단계당 더 저렴하더라도[28]. Mind Lab의 기여는 단순히 알고리즘뿐만 아니라 인프라 전략입니다 – 가장 큰 모델에서 연속 학습을 실현할 수 있는 청사진입니다. 그들은 그들의 방법을 오픈 소스 프로젝트(Megatron-Bridge, VERL)에 업스트림하여[29], 커뮤니티가 이 작업을 재현하고 발전시킬 수 있게 하여, 많은 그룹이 적은 하드웨어 예산으로도 조 단위 매개변수 에이전트를 미세 조정할 수 있도록 잠재적으로 가능합니다.

Mind Lab이 탐구하는 또 다른 영역은 AI 에이전트가 자신의 상호작용에 대한 장기 기억을 처리할 수 있는 방법입니다. 현재 많은 시스템은 과거 대화 조각을 검색하기 위해 벡터 데이터베이스를 추가하거나 기록을 압축하기 위해 요약 기술을 사용합니다. Mind Lab은 모델 네이티브 메모리 시스템인 Memory Diffusion을 제안합니다[30]. 이 아이디어는 에이전트의 대화나 경로의 전체 시퀀스를 외부에 저장하는 것이 아니라 모델의 컨텍스트 내에서 편집 가능한 메모리로 취급하는 것입니다. Memory Diffusion은 마스크-할당-리필 루프를 통해 고정 크기의 컨텍스트 창을 반복적으로 유지하는 방식으로 작동합니다[30]. 각 단계에서 모델은 어떤 토큰(과거 대화의 부분)을 유지할지(마스크)와 어떤 것을 버릴지를 결정한 후, 새로 들어오는 콘텐츠로 빈 공간을 리필합니다. 이 모든 과정은 컨텍스트 길이에 대한 엄격한 토큰 예산을 존중하면서 이루어집니다[30]. 본질적으로, 모델은 자체 컨텍스트를 관리하는 방법을 배우며, 상호작용이 커짐에 따라 덜 중요한 세부 사항을 압축하거나 잊고 중요한 사실을 유지합니다. 이는 지능적 망각에 비유될 수 있으며, 목표는 컨텍스트 길이 제한으로 인해 모든 것을 무기한 기억하는 것이 아니라 유용하게 기억하는 것입니다[30].
토큰 시퀀스 레벨에서 작동함으로써, Memory Diffusion은 외부 임베딩이나 유사성 검색의 필요성을 피하고, "메모리"는 모델의 작업 컨텍스트와 같은 표현 공간에 존재합니다. Mind Lab 보고서에 따르면, 이 접근 방식은 최첨단 장기 메모리 성능을 달성하여, 에이전트가 관련 정보를 잃지 않고 확장된 대화나 작업을 지속할 수 있음을 의미합니다. 이는 학습된 모델 내 메커니즘을 통해 이루어집니다[31]. 또한 문맥 크기에 비례하여 상수 시간으로 실행되며, 기록이 증가함에 따라 검색 비용이 폭발하지 않습니다. 이는 마스크/리필 작업을 통해 컨텍스트 길이가 고정되고 관리되기 때문입니다[31]. 실용적인 측면에서, Memory Diffusion을 사용하는 에이전트는 수천 번의 턴이 걸리는 대화를 할 수 있으며, 모든 세부 사항을 명시적으로 보관할 수는 없지만, 계속해서 어떤 것을 기억할지 결정할 것입니다. 중요한 사용자 선호도나 해결되지 않은 질문은 지속되지만, 훨씬 이전의 사소한 잡담은 제거될 수 있습니다. 이 접근 방식은 메모리를 모델의 인지의 일류 요소로 취급하며, 메모리가 수동적인 데이터 저장소가 아닌 시스템의 적극적이고 학습하는 부분이어야 한다는 Mind Lab의 관점과 일치합니다[30].
팅커의 인프라적 제공과 마인드 랩의 알고리즘 효율성이 자연스러운 공생 관계를 형성해요. 팅커는 마인드 랩의 하이브리드 LoRA RL을 Kimi K2와 Qwen3-VL에 직접 응용할 수 있도록 하여, 멀티모달 에이전트 루프를 촉진해요.
연구-제품 공동 설계에서, 마인드 랩의 핵심 원칙은 다음과 같이 나타나요:
전략적으로, 이 패러다임은 반복을 가속화해요: 제품은 실험적 테스트베드가 되어, 연구 가설을 정교화하는 고품질 데이터를 생성해요. 예를 들어, 팅커에서 얻은 몇 샷 비전 분류는 배포된 시각적 에이전트의 RL 목표를 씨앗으로 삼아, 지각 정책을 사용자 선호에 점진적으로 맞춰요.
전통적으로 AI 연구는 모델이나 알고리즘을 개발하고, 그 후에 별도로 제품 팀이 이를 배포하는 방법을 고민하며, 두 팀 간의 반복은 비교적 느리게 이루어지곤 했습니다. Mind Lab은 연구-제품 공동 설계라는 철학을 바탕으로 운영됩니다. 새로운 기술이 등장할 때마다 즉시 실제 에이전트 환경에서 테스트되며, 실제 사용자와의 상호작용은 연구를 개선하기 위한 데이터를 생성합니다[32].
"연구와 제품은 더 이상 별개의 경로가 아닙니다. 이들은 사용자 경험 → 데이터 → 강화 학습 훈련 → 배포 → 더 나은 UX → 풍부한 데이터 → 반복으로 이어지는 폐쇄 루프입니다."[33]. 실제로, Mind Lab이 강화 학습 알고리즘이나 메모리 시스템을 개선할 때, 이를 실제 사용자 대상의 에이전트(예: Macaron의 개인 AI 비서)로 통합하고 실제 사용자와의 성과를 관찰합니다. 사용 데이터 – 사용자가 묻는 질문, 에이전트가 실패하거나 성공하는 지점, 명시적 피드백 – 는 다음 모델 업데이트를 위한 훈련 신호(감독된 미세 조정 또는 강화 학습을 통해)로 사용됩니다. 이러한 긴밀한 루프는 학습을 크게 가속화합니다: 제품 자체가 실험입니다.
한 가지 의미는 스트리밍 보상 모델과 온라인 RLHF (Human Feedback를 통한 강화 학습)의 사용입니다. 인간의 선호 비교의 정적 데이터를 수집하고 한 번 보상 모델을 훈련하는 대신, Mind Lab의 프레임워크는 배포 중에 새로운 피드백이 들어올 때마다 보상 모델을 지속적으로 업데이트하는 것을 상상합니다. 예를 들어, 에이전트가 사용자에게 과제를 해결하고 때때로 엄지손가락을 내리거나 수정할 때, 이러한 신호를 보상 모델에 스트리밍하여 '좋은' 행동의 개념을 실시간으로 개선할 수 있습니다. 다음에 RL이 실행될 때(예정된 주기나 비동기적으로 실행될 수 있음), 업데이트된 보상 모델이 정책을 사용자 선호에 더 잘 맞도록 안내합니다. 이 스트리밍 RL 패러다임은 배포를 훈련의 확장으로 바꾸어 줍니다. 에이전트가 실제 세계에서 실행되는 시간이 길어질수록 더 많은 경험을 쌓고 더 나아집니다. Tinker가 제공하는 OpenAI 호환 인터페이스는 실제로 이 전략을 보완합니다. 이는 지속적으로 학습된 모델을 기존 제품 및 도구에 쉽게 연결할 수 있게 하여, 연구실이 제품에 새 모델 버전을 신속하게 푸시하고 결과를 관찰할 수 있으며, 매번 통합을 재구성할 필요가 없습니다.
Tinker 측에서는 플랫폼이 모델의 학습 중간에서 샘플링할 수 있는 능력[10]이 중간 평가와 세밀한 조정 결정을 가능하게 하여 이러한 반복 루프를 촉진할 수 있습니다. Mind Lab 측에서는 공동 설계 루프가 그들의 혁신(예: 트릴리언 규모의 강화 학습 또는 메모리 확산)이 실제 사용 사례에서 스트레스 테스트되도록 보장합니다. 이 접근 방식은 실질적인 문제를 조기에 드러내며(예: 지연 시간 처리 방법 또는 예기치 않은 사용자 입력 처리 방법) 최첨단 연구와 사용자 대상 AI 제품 간의 간격을 좁힙니다. 전략적 결과는 개선이 실제 세계의 필요에 의해 추진되고 실제 사용에 직접 검증된다는 것입니다. Mind Lab이 언급했듯이, 진정한 진보는 "사용자-제품 상호작용에서의 지속적인 학습"[33]에서 오며, 상황에 맞게 적응할 수 있는 에이전트는 최종적으로 배포 시 고정된 것보다 훨씬 나은 사용자 경험을 제공합니다.
종합하면, Tinker와 Mind Lab의 발전은 AI 시스템을 구축하는 방식에서 정적인 모델에서 환경과 공동 설계된 적응형 에이전트로의 깊은 변화를 강조합니다. 몇 가지 주요 시사점이 나타납니다:
정적인 확장 법칙이 정체되는 가운데, Tinker's 접근 가능한 조 단위 맞춤화와 Mind Lab의 효율적인 경험적 강화학습이 변혁적 시대를 예고합니다. 제품 루프에 적응성을 내장함으로써, 우리는 부서지기 쉬운 뇌를 넘어, 환경과 공생하며 성장하는 회복력 있는 마음을 향해 나아갑니다. 이러한 공진화적 경로는 AI가 단순히 유능한 것을 넘어, 인간의 필요와 현실 세계의 복잡성에 더욱 적응하게 될 것임을 약속합니다.
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Thinking Machines Lab
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: 일반 제공 및 비전 입력 - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 우리는 어떻게 10%의 GPU로 1조 개의 파라미터를 가진 추론 RL을 구축하나요?
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial