정적 모델에서 적응형 에이전트로: Tinker와 Mind Lab의 혁신

작성자: Boxu LI

인공지능의 진화하는 환경에서, 극단적인 규모로의 사전 학습이 강력한 정적 역량을 가져왔던 시점에서, 이제는 더 큰 정적 모델을 구축하는 것을 넘어 에이전트 시스템을 만들려는 프런티어로 이동하고 있습니다. 이러한 에이전트는 깊이 있는 추론을 하고, 도구를 사용하며, 보고 기억하고, 경험을 통해 지속적으로 학습할 수 있습니다[1].

Thinking Machines Lab의 Tinker 플랫폼은 2025년 12월 12일에 발표된 일반 이용 가능성 발표와 함께, 수조 매개변수 모델의 미세 조정 및 다중 모드 확장을 민주화하는 중요한 인프라적 도약을 나타냅니다. 동시에, Macaron AI의 연구 부문인 Mind Lab은 "경험적 인텔리전스"에 대한 철학적, 기술적 프레임워크를 명확히 하며, 모델이 지식의 고정된 저장소에서 실제 세계의 피드백을 통해 스스로를 정제하는 동적 프로세스로 전환하는 것을 목표로 합니다. 이 융합은 알고리즘 혁신과 배포된 적응 사이의 고리를 닫아, 연구와 제품의 공동 설계를 정제할 수 있는 깊은 기회를 제공합니다.

Tinker의 업데이트에서의 주요 혁신

  • Thinking Machines Lab의 Tinker 플랫폼이 일반 제공 상태에 도달하여 Moonshot AI의 트릴리언 매개변수 Kimi K2 Thinking MoE 모델의 미세 조정, OpenAI 호환 추론, Alibaba의 Qwen3-VL 시리즈를 통한 멀티모달 입력을 지원해요.
  • 이를 통해 최첨단 추론 및 비전-언어 모델의 효율적인 맞춤화가 가능하며, 이미지 분류에서 우수한 몇 샷 성능을 보여주는 데모가 있어요.
  • Mind Lab (Macaron AI의 연구 부서)은 유사한 트릴리언 규모의 MoE 모델에서 확장 가능한 LoRA 기반 RL을 발전시키며 경험적 적응을 강조해요.

이 게시물에서는 Tinker의 새로운 Kimi K2 추론 모델, OpenAI 호환 인터페이스, Qwen3-VL 비전 모델을 살펴보고, Mind Lab의 경험적 지능 철학, 트릴리언 매개변수 강화 학습(RL) 혁신, 메모리 확산 접근법, 차세대 AI 시스템 구축의 전략적 의미를 탐구해 볼 거예요.

Tinker의 최신 혁신: 추론, 도구 및 비전

Tinker는 연구자들이 인프라에 대한 걱정 없이 최첨단 모델을 미세 조정하고 배포할 수 있도록 설계된 AI 교육 플랫폼이에요[2][3]. 2025년 12월, Tinker는 AI 모델의 추론 능력, 도구 사용, 시각적 이해를 강화하는 몇 가지 주요 업데이트를 발표했어요[4]:

  • Kimi K2 사고 모델: 이제 사용자는 Kimi K2 사고를 세밀하게 조정할 수 있습니다. 이는 1조 파라미터를 가진 거대한 모델로, Tinker의 라인업 중 가장 큽니다[5]. Kimi K2는 긴 사고 사슬 추론과 도구 사용을 위한 Mixture-of-Experts (MoE) 변환기입니다[6]. 이 모델은 규모에도 불구하고, 한 번에 약 32B의 파라미터만 활성화되어 효율적인 추론 성능을 유지하면서 최첨단의 추론 성능을 달성합니다[7]. 이 오픈 모델은 "오픈 에이전틱 인텔리전스"로 묘사되며, 복잡한 추론 벤치마크에서 많은 폐쇄 모델과 견줄만하거나 뛰어넘습니다[7]. Tinker에서 Kimi K2를 지원함으로써, Thinking Machines는 연구자들이 다단계 논리, 계획, 외부 도구 호출이 필요한 작업에 대해 고급 추론 엔진을 활용할 수 있게 합니다. 중요한 것은, Tinker가 **LoRA (저랭크 적응)**을 사용하여 그러한 모델을 미세 조정하는데, 이는 모든 조 트릴리언 가중치를 업데이트하는 대신 작은 어댑터 행렬을 학습합니다[8]. 이 접근법은 맞춤화를 위한 메모리와 계산을 크게 줄입니다. 실제로 내부 연구에서는 적절한 설정을 통해 LoRA가 훨씬 적은 자원을 사용하면서도 완전한 미세 조정의 학습 성능과 맞먹을 수 있음을 발견했습니다[9]. 실질적으로, 이는 사용자가 Kimi K2 같은 거대한 모델을 새로운 작업이나 도메인에 적응시킬 수 있도록 하여, 금전적 비용이 부담되는 것을 방지할 수 있게 합니다. 이는 보다 효율적인 추론 워크플로우를 위한 중요한 단계입니다.
  • OpenAI API 호환 추론: 연구-제품 통합을 가속화하기 위해, Tinker는 OpenAI의 API와 호환되는 추론 인터페이스를 도입했습니다[10]. 기본적으로, Tinker 호스팅 모델을 OpenAI 플랫폼이 사용하는 동일한 API 호출을 사용하여, 특별한 tinker:// URI로 모델 경로를 지정하여 쿼리할 수 있습니다. 예를 들어, 개발자는 OpenAI와 유사한 구문(모델, 프롬프트, max_tokens 등)으로 Tinker 모델의 완성 API를 호출하고, openai.Completion.create를 호출하는 것과 같은 결과를 얻을 수 있습니다[10]. 이러한 플러그 앤 플레이 호환성은 OpenAI API를 중심으로 구축된 모든 도구나 애플리케이션이 Tinker의 모델을 원활하게 통합할 수 있게 합니다[10]. 이는 실제 제품에서 고급 오픈 모델을 채택하는 데 있어 마찰을 줄입니다. 예를 들어, Tinker에서 Kimi K2를 미세 조정한 후, 기존의 사고 사슬 에이전트나 챗봇 프레임워크에 최소한의 코드 변경만으로 삽입할 수 있습니다. 또한, Tinker의 API 스캐폴딩은 모델이 여전히 학습 중일 때 샘플링을 허용하며[10] – 모델이 미세 조정 프로세스와 병행하여 테스트되고 사용될 수 있는 도구 강화 훈련 루프를 가능하게 합니다. 이 업데이트는 보다 효율적인 에이전트 개발 워크플로우를 지원하며, 연구자들이 현실적인 설정에서 모델 개선을 지속적으로 통합하고 테스트할 수 있게 합니다.
  • Qwen3-VL 비전–언어 모델: Tinker에 또 다른 주요 추가 사항은 멀티모달 비전-언어 모델에 대한 지원입니다. 플랫폼은 Qwen3-VL-30BQwen3-VL-235B라는 두 개의 비전 활성 모델을 추가했으며, 이 모델들은 텍스트와 함께 이미지 입력을 수용할 수 있습니다[11]. 이 모델들은 각각 300억과 2350억 파라미터를 가지고 있으며, 모두 MoE 아키텍처로, 이미지가 포함된 프롬프트를 따르도록 지시 조정되었습니다. 예를 들어, 다이어그램에 대한 질문에 답하거나 사진을 해석합니다. 간단한 API 호출로, 사용자는 이제 텍스트와 함께 모델에 이미지를 (ImageChunk로) 입력하고 언어 응답을 받을 수 있습니다[12]. 이는 스크린샷과 차트 분석부터 보고 대화하는 멀티모달 어시스턴트까지 다양한 비전 기반 응용 프로그램을 가능하게 합니다. 특히, Qwen3-VL 모델은 데이터 효율적인 비전 기능을 염두에 두고 설계되었습니다. 이를 보여주기 위해, Thinking Machines는 235B Qwen3-VL 모델을 몇 가지 고전적인 이미지 분류 작업(Caltech101, Oxford Flowers 등)에 대해, 효율성을 위해 LoRA 어댑터를 사용하여 미세 조정했습니다[13]. 그들은 다양한 클래스당 훈련 데이터 양에 따라 강력한 비전 전용 기준(DINOv2 ViT 모델과 분류기 헤드)과 성능을 비교했습니다[14].

[15] Qwen3-VL-235B (비전-언어 모델)와 DINOv2 (비전 전용 기준)의 이미지 분류 작업에서의 성능 비교입니다. Qwen3-VL은 특히 데이터가 적은 상황(맨 왼쪽)에서 언어를 활용한 시각적 이해 덕분에 더 높은 정확도를 달성합니다.

클래스당 하나의 예시만으로도, 235B Qwen3-VL 모델은 극한의 저데이터 환경에서 DINOv2를 상당히 능가하며 합리적인 정확성을 달성했습니다[15]. 예시 수가 증가하면서 두 모델 모두 성능이 향상되었지만, Qwen3-VL은 여전히 우위를 유지하며 더 강력한 몇 샷 일반화를 보여주었습니다[16]. 이 장점은 모델의 내장된 언어 및 세계 지식에서 비롯됩니다. 예를 들어, Qwen3-VL은 다중모드 사전 훈련을 통해 이미 '해바라기'나 '골든 리트리버'가 어떻게 생겼는지 또는 어떻게 설명되는지를 알고 있습니다[16]. 이는 새로운 예시가 거의 없어도 새로운 이미지를 인식하거나 분류할 수 있음을 의미합니다. 실질적으로, Tinker의 사용자들은 이러한 대형 비전-언어 모델을 활용하여 아주 작은 데이터셋으로도 시각적 작업에서 높은 정확성을 달성할 수 있습니다. 이러한 데이터 효율적인 비전 기능은 레이블이 붙은 데이터가 부족한 실제 상황에서 매우 중요합니다. 또한 도구 보강 추론의 힘을 암시합니다: '볼 수 있는' 모델은 시각적 단서와 언어적 맥락을 모두 활용하여 더 다재다능한 에이전트가 됩니다 (예를 들어, 다이어그램을 읽고 설명하거나 이미지를 추론 체인의 일부로 사용하는 것). 전체적으로, Qwen3-VL의 Tinker 추가는 플랫폼의 범위를 순수 텍스트에서 시각적 영역으로 확장하여 동일한 통합 훈련 API 아래에서 다중 모드 추론 워크플로우를 가능하게 합니다.

마인드랩의 적응 시스템: 경험적 지능의 실현

연구 전선에서, Mind Lab – Macaron AI와 관련된 새로운 최전방 연구소 – 은 AI 에이전트를 진정으로 적응적이고 경험적인 것으로 만드는 도전을 해결하고 있어요. Mind Lab의 철학은 *“진정한 지능은 더 많은 사전 훈련이 아니라 진짜 경험에서 나온다”*는 것이에요[17]. 다시 말해, 정적 데이터셋에서 모델을 단순히 확장하는 것으로는 충분하지 않으며, 다음 AI 도약은 인간이 경험을 쌓는 것처럼 상호작용에서 지속적으로 배우는 시스템에서 나올 거예요. Mind Lab은 이 비전을 경험적 지능으로 틀지어, 정적인 “뇌”에서 적응 가능한 “마음”으로 이동하여 내부 세계 모델을 형성하고, 피드백을 통해 지식을 업데이트하며, 명확한 목표나 가치를 가지고, 심지어 자신의 행동을 반성할 수 있는 시스템을 만들고자 해요[18]. 이는 종종 강력하지만 사전 훈련 후에는 정지된 현재의 LLM의 한계에 대한 직접적인 대응이에요[18]. 진정한 적응을 위한 메커니즘 – 지속적인 강화 학습과 동적 메모리 같은 – 을 도입하여 Mind Lab은 사용과 함께 진화하는 에이전트를 만들고자 해요.

Mind Lab의 작업의 두 가지 핵심 기둥은 다음과 같습니다: (1) 대규모 모델의 효율적인 RL 미세 조정으로 새로운 행동을 심어주는 것과 (2) 에이전트가 장기 지식을 보유하고 활용할 수 있는 고급 메모리 시스템입니다. 이 두 가지 모두 AI를 더욱 자율적(스스로 결정하고 개선)으로 만들고 연구의 발전을 제품 배포와 긴밀히 연결하는 것을 목표로 합니다.

10% GPU로 LoRA 기반 조 단위 파라미터 RL

어떻게 이뤘을까요?

Mind Lab의 주요 업적 중 하나는 강화 학습을 조 단위 파라미터 규모로 시연하고, 이를 실용적이고 비용 효율적인 방법으로 수행한 것입니다. 2025년 12월, 그들은 1.04조 파라미터 Kimi K2 추론 모델에서 최초의 엔드 투 엔드 RL 파이프라인을 발표했으며, 이는 일반적으로 필요한 GPU 자원의 **약 10%**만으로 달성되었습니다[19]. 어떻게 가능했을까요? 팀은 **파라미터 효율적인 미세 조정(LoRA)**과 모델의 Mixture-of-Experts 구조를 통한 하이브리드 병렬화를 결합한 특수한 훈련 엔진을 구축했습니다[20][21].

모든 수조 개의 가중치를 조정하는 대신, 마인드 랩의 접근 방식은 Kimi K2의 선택된 레이어(밀집된 백본과 전문가 레이어 내)에 저순위 적응 행렬을 주입하고, RL 동안 그것들만 업데이트합니다[22]. 이는 훈련 가능한 매개변수의 수를 극적으로 줄여주며(예를 들어, 각 레이어당 수십 또는 수백의 LoRA 순위로 전체 행렬 대신) 결과적으로 메모리와 계산 사용량을 크게 줄입니다. 동시에, 이 크기의 모델을 훈련하기 위해서는 많은 GPU에 작업량을 효율적으로 분배해야 합니다. 팀은 하이브리드 병렬 전략을 사용했습니다: 텐서 병렬성, 파이프라인 병렬성, 전문가 병렬성(MoE 전문가용), 그리고 시퀀스 병렬성(긴 시퀀스 훈련용)을 조정하여 샤드된 LoRA 업데이트에 호환되도록 만들었습니다[23]. 실제로, 이는 기존의 대형 모델 훈련 프레임워크(NVIDIA의 Megatron과 ByteDance의 VolcEngine RL)를 활용하고, MoE에서 LoRA를 처리하도록 확장하며, 클러스터 내 64개의 GPU에 계산을 신중하게 분배하는 것을 의미했습니다[24]. 그 결과, 전체 Kimi K2 모델에서 안정적인 정책 내 RL 훈련이 가능해졌으며, 보상 모델이 추론 품질에 대한 피드백을 제공했습니다[22] – 이는 대부분의 팀에게 비용 때문에 불가능하다고 여겨졌던 것입니다.

동등하게 중요한 점은, 작동했다는 것입니다: LoRA로 미세 조정된 Kimi K2는 장기 추론 작업에서 큰 개선을 이루었으며, 학습 곡선이 매끄럽고 발산이 없었습니다[25]. 결정적으로, 적응된 모델은 최소한의 중점적인 가중치 변경 덕분에 기본 모델의 일반적인 기술을 유지하면서 새로운 작업별 행동을 획득했습니다[26]. 이는 기본 모델의 방대한 사전 지식이 덮어씌워지지 않고, 단지 보강되었음을 의미합니다 – 이는 LoRA 미세 조정의 핵심 이점입니다. 실제로, Mind Lab의 실험은 더 큰 모델이 RL에 더 강력한 기반을 제공한다는 것을 확인했습니다. 고정된 훈련 예산 내에서, 큰 모델과 작은 LoRA 어댑터는 완전한 조정으로 훈련된 작은 모델보다 도메인 내 작업과 새로운 작업으로의 전이 모두에서 더 나은 성과를 냈습니다[27]. 팀이 말하길, RL은 *"사전 제한"*되어 있습니다 – 기본 모델이 처음부터 고품질 경로를 생성할 수 없으면, RL은 증폭할 신호가 거의 없습니다[27]. Kimi K2와 같은 강력한 사전 학습된 사전은 RL이 집중할 풍부한 행동 세트를 제공하며, 작은 모델을 처음부터 훈련할 경우 새로운 행동을 창조해야 합니다. 이 통찰력은 기존의 지혜를 뒤집습니다: 강력한 사전과 LoRA 효율성을 가진 큰 모델에서 RL을 수행하는 것이 작은 모델에서 RL을 수행하는 것보다 더 컴퓨팅 효율적일 수 있습니다, 심지어 작은 모델이 단계당 더 저렴하더라도[28]. Mind Lab의 기여는 단순히 알고리즘뿐만 아니라 인프라 전략입니다 – 가장 큰 모델에서 연속 학습을 실현할 수 있는 청사진입니다. 그들은 그들의 방법을 오픈 소스 프로젝트(Megatron-Bridge, VERL)에 업스트림하여[29], 커뮤니티가 이 작업을 재현하고 발전시킬 수 있게 하여, 많은 그룹이 적은 하드웨어 예산으로도 조 단위 매개변수 에이전트를 미세 조정할 수 있도록 잠재적으로 가능합니다.

메모리 확산: 벡터 DB를 넘어 에이전트 메모리 재고

메모리 확산 라이브 데모

Mind Lab이 탐구하는 또 다른 영역은 AI 에이전트가 자신의 상호작용에 대한 장기 기억을 처리할 수 있는 방법입니다. 현재 많은 시스템은 과거 대화 조각을 검색하기 위해 벡터 데이터베이스를 추가하거나 기록을 압축하기 위해 요약 기술을 사용합니다. Mind Lab은 모델 네이티브 메모리 시스템인 Memory Diffusion을 제안합니다[30]. 이 아이디어는 에이전트의 대화나 경로의 전체 시퀀스를 외부에 저장하는 것이 아니라 모델의 컨텍스트 내에서 편집 가능한 메모리로 취급하는 것입니다. Memory Diffusion은 마스크-할당-리필 루프를 통해 고정 크기의 컨텍스트 창을 반복적으로 유지하는 방식으로 작동합니다[30]. 각 단계에서 모델은 어떤 토큰(과거 대화의 부분)을 유지할지(마스크)와 어떤 것을 버릴지를 결정한 후, 새로 들어오는 콘텐츠로 빈 공간을 리필합니다. 이 모든 과정은 컨텍스트 길이에 대한 엄격한 토큰 예산을 존중하면서 이루어집니다[30]. 본질적으로, 모델은 자체 컨텍스트를 관리하는 방법을 배우며, 상호작용이 커짐에 따라 덜 중요한 세부 사항을 압축하거나 잊고 중요한 사실을 유지합니다. 이는 지능적 망각에 비유될 수 있으며, 목표는 컨텍스트 길이 제한으로 인해 모든 것을 무기한 기억하는 것이 아니라 유용하게 기억하는 것입니다[30].

토큰 시퀀스 레벨에서 작동함으로써, Memory Diffusion은 외부 임베딩이나 유사성 검색의 필요성을 피하고, "메모리"는 모델의 작업 컨텍스트와 같은 표현 공간에 존재합니다. Mind Lab 보고서에 따르면, 이 접근 방식은 최첨단 장기 메모리 성능을 달성하여, 에이전트가 관련 정보를 잃지 않고 확장된 대화나 작업을 지속할 수 있음을 의미합니다. 이는 학습된 모델 내 메커니즘을 통해 이루어집니다[31]. 또한 문맥 크기에 비례하여 상수 시간으로 실행되며, 기록이 증가함에 따라 검색 비용이 폭발하지 않습니다. 이는 마스크/리필 작업을 통해 컨텍스트 길이가 고정되고 관리되기 때문입니다[31]. 실용적인 측면에서, Memory Diffusion을 사용하는 에이전트는 수천 번의 턴이 걸리는 대화를 할 수 있으며, 모든 세부 사항을 명시적으로 보관할 수는 없지만, 계속해서 어떤 것을 기억할지 결정할 것입니다. 중요한 사용자 선호도나 해결되지 않은 질문은 지속되지만, 훨씬 이전의 사소한 잡담은 제거될 수 있습니다. 이 접근 방식은 메모리를 모델의 인지의 일류 요소로 취급하며, 메모리가 수동적인 데이터 저장소가 아닌 시스템의 적극적이고 학습하는 부분이어야 한다는 Mind Lab의 관점과 일치합니다[30].

기술 블로그에서 더 읽어보세요

연구-제품 공동 설계: 지속적인 학습 루프

팅커의 인프라적 제공과 마인드 랩의 알고리즘 효율성이 자연스러운 공생 관계를 형성해요. 팅커는 마인드 랩의 하이브리드 LoRA RL을 Kimi K2와 Qwen3-VL에 직접 응용할 수 있도록 하여, 멀티모달 에이전트 루프를 촉진해요.

연구-제품 공동 설계에서, 마인드 랩의 핵심 원칙은 다음과 같이 나타나요:

  1. 피드백을 위한 계측: 팅커 제공 모델을 통해 배포된 에이전트가 사용자 상호작용, 도구 결과 및 수정사항에서 구조화된 에피소드를 생성해요.
  2. 온라인 RL 파이프라인: 하이브리드 병렬 처리를 통해 오프라인 배치 없이 라이브 신호에서 지속적으로 가치 함수와 정책을 업데이트해요.
  3. 멀티모달 적응: 비전 입력은 지각 작업에서 RL을 가능하게 하여, GUI 탐색, 문서 이해 또는 시각적 추론을 위한 세계 모델을 정교화해요.
  4. 안전성 및 안정성: 공존 롤아웃은 분포 변화를 최소화하고, 마인드 랩의 HTML 미학 예제처럼 스트리밍 보상은 보상 해킹을 방지해요.

전략적으로, 이 패러다임은 반복을 가속화해요: 제품은 실험적 테스트베드가 되어, 연구 가설을 정교화하는 고품질 데이터를 생성해요. 예를 들어, 팅커에서 얻은 몇 샷 비전 분류는 배포된 시각적 에이전트의 RL 목표를 씨앗으로 삼아, 지각 정책을 사용자 선호에 점진적으로 맞춰요.

전통적으로 AI 연구는 모델이나 알고리즘을 개발하고, 그 후에 별도로 제품 팀이 이를 배포하는 방법을 고민하며, 두 팀 간의 반복은 비교적 느리게 이루어지곤 했습니다. Mind Lab은 연구-제품 공동 설계라는 철학을 바탕으로 운영됩니다. 새로운 기술이 등장할 때마다 즉시 실제 에이전트 환경에서 테스트되며, 실제 사용자와의 상호작용은 연구를 개선하기 위한 데이터를 생성합니다[32].

"연구와 제품은 더 이상 별개의 경로가 아닙니다. 이들은 사용자 경험 → 데이터 → 강화 학습 훈련 → 배포 → 더 나은 UX → 풍부한 데이터 → 반복으로 이어지는 폐쇄 루프입니다."[33]. 실제로, Mind Lab이 강화 학습 알고리즘이나 메모리 시스템을 개선할 때, 이를 실제 사용자 대상의 에이전트(예: Macaron의 개인 AI 비서)로 통합하고 실제 사용자와의 성과를 관찰합니다. 사용 데이터 – 사용자가 묻는 질문, 에이전트가 실패하거나 성공하는 지점, 명시적 피드백 – 는 다음 모델 업데이트를 위한 훈련 신호(감독된 미세 조정 또는 강화 학습을 통해)로 사용됩니다. 이러한 긴밀한 루프는 학습을 크게 가속화합니다: 제품 자체가 실험입니다.

한 가지 의미는 스트리밍 보상 모델과 온라인 RLHF (Human Feedback를 통한 강화 학습)의 사용입니다. 인간의 선호 비교의 정적 데이터를 수집하고 한 번 보상 모델을 훈련하는 대신, Mind Lab의 프레임워크는 배포 중에 새로운 피드백이 들어올 때마다 보상 모델을 지속적으로 업데이트하는 것을 상상합니다. 예를 들어, 에이전트가 사용자에게 과제를 해결하고 때때로 엄지손가락을 내리거나 수정할 때, 이러한 신호를 보상 모델에 스트리밍하여 '좋은' 행동의 개념을 실시간으로 개선할 수 있습니다. 다음에 RL이 실행될 때(예정된 주기나 비동기적으로 실행될 수 있음), 업데이트된 보상 모델이 정책을 사용자 선호에 더 잘 맞도록 안내합니다. 이 스트리밍 RL 패러다임은 배포를 훈련의 확장으로 바꾸어 줍니다. 에이전트가 실제 세계에서 실행되는 시간이 길어질수록 더 많은 경험을 쌓고 더 나아집니다. Tinker가 제공하는 OpenAI 호환 인터페이스는 실제로 이 전략을 보완합니다. 이는 지속적으로 학습된 모델을 기존 제품 및 도구에 쉽게 연결할 수 있게 하여, 연구실이 제품에 새 모델 버전을 신속하게 푸시하고 결과를 관찰할 수 있으며, 매번 통합을 재구성할 필요가 없습니다.

Tinker 측에서는 플랫폼이 모델의 학습 중간에서 샘플링할 수 있는 능력[10]중간 평가와 세밀한 조정 결정을 가능하게 하여 이러한 반복 루프를 촉진할 수 있습니다. Mind Lab 측에서는 공동 설계 루프가 그들의 혁신(예: 트릴리언 규모의 강화 학습 또는 메모리 확산)이 실제 사용 사례에서 스트레스 테스트되도록 보장합니다. 이 접근 방식은 실질적인 문제를 조기에 드러내며(예: 지연 시간 처리 방법 또는 예기치 않은 사용자 입력 처리 방법) 최첨단 연구와 사용자 대상 AI 제품 간의 간격을 좁힙니다. 전략적 결과는 개선이 실제 세계의 필요에 의해 추진되고 실제 사용에 직접 검증된다는 것입니다. Mind Lab이 언급했듯이, 진정한 진보는 "사용자-제품 상호작용에서의 지속적인 학습"[33]에서 오며, 상황에 맞게 적응할 수 있는 에이전트는 최종적으로 배포 시 고정된 것보다 훨씬 나은 사용자 경험을 제공합니다.

에이전트 AI와 미래 공동 설계 시스템에 대한 시사점

종합하면, Tinker와 Mind Lab의 발전은 AI 시스템을 구축하는 방식에서 정적인 모델에서 환경과 공동 설계된 적응형 에이전트로의 깊은 변화를 강조합니다. 몇 가지 주요 시사점이 나타납니다:

  • 기초 모델에서 기초 에이전트로: 툴 사용과 추론이 내장된 Kimi K2 같은 에이전트 모델의 도입과 지속적인 미세 조정을 위한 기술은 대형 언어 모델이 단순한 지식이 아닌 행동을 위한 플랫폼으로 진화하고 있음을 시사해요. 단순히 텍스트를 모방하는 일회성 학습 모델 대신, 계획하고 행동하며 피드백을 통합할 수 있는 에이전트를 얻게 돼요. 이는 AI 모델과 AI 제품 사이의 경계를 흐리게 하며, 모델이 점점 더 사용자가 상호작용하는 에이전트가 되어 스스로 업데이트하여 더 나은 서비스를 제공할 수 있게 해요. 이러한 에이전트를 구축하려면 **모델 중심 연구(새로운 아키텍처, 학습 방법)**와 **제품 중심 사고(사용자 경험, 배포 제약)**를 단일 개발 주기에서 통합해야 해요.
  • 툴 보강 추론의 표준화: Tinker의 OpenAI 호환 인터페이스와 툴 사용을 위해 명시적으로 구축된 모델을 통해 AI 에이전트가 외부 툴, API 또는 데이터베이스를 추론 과정에 원활하게 호출하는 미래를 예견할 수 있어요. Kimi K2의 설계와 Mind Lab의 에이전트 실험은 복잡한 작업을 해결하려면 AI가 툴을 참조하거나 환경을 시뮬레이션해야 한다는 점을 강조해요[34][35]. 미래 시스템은 모델의 학습 중심에 툴 API를 통합할 가능성이 있으며(Kimi의 대규모 에이전트 데이터 합성이 그랬듯이[36]), 즉시 사용할 수 있는 툴 사용 능력을 만들어낼 거예요. 전략적으로, 이는 AI 제품이 단일 모델 이상이 될 것이며, 모델이 언제 어떻게 다른 서비스를 호출할지 아는 두뇌로서 작용하는 툴 오케스트레이션 플랫폼이 될 것임을 의미해요. 친숙한 API를 통한 Tinker 모델의 통합 용이성은 개발자가 이러한 툴 사용 AI 워크플로를 실제로 만들 수 있는 장벽을 낮춰요.
  • 상태 유지 상호작용과 개인화된 AI: Memory Diffusion과 같은 메모리 혁신은 AI가 상호작용에 대한 장기 상태를 유지할 수 있도록 해요. 각 세션이나 쿼리를 독립적으로 처리하는 대신, 미래 에이전트는 이전 상호작용, 선호도 및 컨텍스트를 원칙적이고 제한된 방식으로 기억할 거예요. 이는 매번 초기화되지 않고 진정으로 대화 상대와 무슨 일이 있었는지를 배우는 개인화되고 컨텍스트 인식이 있는 AI 어시스턴트를 가능하게 해요. 중요한 것은 Mind Lab의 접근 방식이 무한한 컨텍스트 윈도우 없이도 가능하다는 점을 보여줘요; 배운 메모리 관리로 인해 에이전트는 무엇을 기억해야 할지 더 스마트해질 수 있어요. 사용자에게 이는 더 유동적인 경험을 의미해요: 과거 대화를 기억하는 개인 AI는 단절된 사용 시리즈가 아니라 지속적인 대화나 일관된 어시스턴트처럼 느껴질 거예요. 또한, 무엇이 기억되거나 잊혀져야 하는지에 대한 새로운 디자인 질문을 제기해요: 인간과 같은 망각과 강조를 통합하는 메모리 확산과 같은 기술이 답이 될 가능성이 높아요.
  • 하이브리드 인프라가 경쟁 우위로: 이러한 프로젝트가 깔아놓은 기술적 기반 – 예: 하이브리드 병렬 학습, LoRA-on-MoE, 분산 RL –은 AI 개발 팀에게 획기적인 변화를 가져올 것이에요. 이러한 방법을 채택하는 그룹은 상대적으로 적은 컴퓨팅으로 가장 큰 모델을 미세 조정할 수 있으며, 이는 특화된 고성능 AI 에이전트를 구축할 수 있는 능력을 민주화할 수 있어요. 대형 기술 기업만이 수조 개의 매개변수 모델을 배포할 수 있는 것이 아니라, 어떤 연구소나 스타트업도 Kimi K2 같은 오픈 모델을 활용하여 소규모 GPU 클러스터에서 LoRA를 통해 적응시킬 수 있어요[37][21]. 이는 경쟁의 장을 평평하게 하고, 대형 모델을 틈새 도메인에서 실험하는 것을 장려해요(비용이 덜 부담되기 때문이에요). 우리는 의학적 추론에 집중한 에이전트, 법적 연구에 집중한 에이전트, 창의적 디자인에 집중한 에이전트 등 맞춤화된 수조 규모의 에이전트의 폭발적인 증가를 볼 수 있을 거예요 – 모두 효율적인 미세 조정 프레임워크 덕분이에요. 오픈 소스 통합(Megatron 등)은 이러한 혁신이 빠르게 퍼지도록 더욱 보장해줘요. 또한, 하이브리드 병렬 접근 방식은 주어진 하드웨어 예산에 대해 더 작은 모델을 수용하는 대신, 스마트한 스케줄링과 병렬화를 통해 더 효과적인 학습을 압축할 수 있어요. 이는 더 많은 모달리티와 더 긴 컨텍스트를 통합하려는 모델을 추진하면서 컴퓨팅 요구가 더욱 증가할 것이기 때문에 중요해요.
  • 지속적인 학습과 인간-AI 상호작용: 마지막으로, 폐쇄형 학습 시스템의 개념은 AI 진화에서 사용자 역할을 전환시켜요. 모든 사용자 상호작용은 잠재적인 학습 예제가 되고, 모든 배포는 실험이 돼요. 실질적으로, 이는 AI 서비스가 전날의 데이터를 학습하여 하룻밤 사이에 극적으로 개선될 수 있다는 것을 의미해요 – 마치 소프트웨어 업데이트가 롤아웃되는 것처럼요. 사용자는 AI를 오늘 수정하면 내일 같은 실수를 반복하지 않을 것이라고 기대하기 시작할 거예요. 이는 선순환을 설정해요: 더 나은 제품이 더 많은 사용을 끌어들여 더 많은 데이터를 학습하며, 이는 다시 제품을 개선해요. 그러나 이는 평가와 안전의 공동 설계를 신중하게 요구해요 – 에이전트가 자신의 상호작용에서 학습하고 있다면, 잘못된 행동을 강화하는 것을 피하고 올바른 교훈을 배우도록 견고한 보상 모델과 가드레일이 필요해요. Mind Lab의 인간 선호 보상과 스스로 비판을 RL에 통합하는 연구는 이에 대한 초기 템플릿이에요[35]. 장기적으로, 이러한 연구-제품 공동 설계는 표준 관행이 될 수 있어요: 연구 논문이 “우리가 모델을 미세 조정하고 X를 달성했다”로 끝나는 대신, 성공 기준은 “우리가 사용자에게 적응형 에이전트를 배포했고 시간이 지남에 따라 성능/유용성을 Y% 지속적으로 개선했다”가 될 거예요.

적응형 마음을 향하여: 결론적 비전

정적인 확장 법칙이 정체되는 가운데, Tinker's 접근 가능한 조 단위 맞춤화와 Mind Lab의 효율적인 경험적 강화학습이 변혁적 시대를 예고합니다. 제품 루프에 적응성을 내장함으로써, 우리는 부서지기 쉬운 뇌를 넘어, 환경과 공생하며 성장하는 회복력 있는 마음을 향해 나아갑니다. 이러한 공진화적 경로는 AI가 단순히 유능한 것을 넘어, 인간의 필요와 현실 세계의 복잡성에 더욱 적응하게 될 것임을 약속합니다.


[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: 일반 제공 및 비전 입력 - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 우리는 어떻게 10%의 GPU로 1조 개의 파라미터를 가진 추론 RL을 구축하나요?

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Mind Lab 소개 — Macaron AI의 연구 부서

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content

Boxu는 에모리 대학교에서 정량 경제학 학사 학위를 받았습니다. Macaron에 합류하기 전, Boxu는 미국에서 사모펀드 및 벤처 캐피탈 분야에서 대부분의 경력을 쌓았습니다. 현재 그는 Macaron AI의 비서실장 겸 마케팅 부사장으로, 재무, 물류 및 운영을 관리하고 마케팅을 총괄하고 있습니다.

지원하기 Macaron 의 첫 친구들