
Autor: Boxu LI
No cenário em evolução da inteligência artificial, onde o pré-treinamento em escalas extremas gerou capacidades estáticas formidáveis, a fronteira agora se desloca da construção de modelos estáticos cada vez maiores para a criação de sistemas agentivos – agentes de IA que podem raciocinar profundamente, usar ferramentas, ver e lembrar, e aprender continuamente com a experiência[1].
A plataforma Tinker do Thinking Machines Lab, com seu recente anúncio de disponibilidade geral em 12 de dezembro de 2025, representa um salto infraestrutural crucial, democratizando o acesso ao ajuste fino e à extensão multimodal de modelos com trilhões de parâmetros. Simultaneamente, o Mind Lab— a divisão de pesquisa da Macaron AI—articula uma estrutura filosófica e técnica para "inteligência experiencial", onde os modelos passam de repositórios congelados de conhecimento para processos dinâmicos que se refinam através de feedback do mundo real. Esta convergência oferece oportunidades profundas para refinar o co-design de pesquisa e produto, fechando o ciclo entre inovação algorítmica e adaptação implantada.
Principais Inovações nas Atualizações do Tinker
Neste post, mergulharemos no novo modelo de raciocínio Kimi K2 da Tinker, na interface compatível com OpenAI e nos modelos de visão Qwen3-VL, depois exploraremos a filosofia do Mind Lab sobre inteligência experiencial, suas inovações em aprendizado por reforço (RL) de trilhões de parâmetros, abordagem de difusão de memória e as implicações estratégicas para construir a próxima geração de sistemas de IA.
Tinker é uma plataforma de treinamento de IA projetada para permitir que pesquisadores ajustem e implementem modelos de ponta sem se preocuparem com a infraestrutura[2][3]. Em dezembro de 2025, o Tinker anunciou várias atualizações importantes que fortalecem as capacidades de raciocínio, uso de ferramentas e compreensão visual dos modelos de IA[4]:
[15] Comparação entre o Qwen3-VL-235B ajustado (modelo de visão-linguagem) e o DINOv2 (referência apenas de visão) em tarefas de classificação de imagens com exemplos rotulados limitados. O Qwen3-VL alcança maior precisão, especialmente no regime de poucos dados (extrema esquerda), graças à sua compreensão visual informada pela linguagem.
Mesmo com apenas um exemplo por classe, o modelo Qwen3-VL 235B alcançou precisão razoável, superando significativamente o DINOv2 neste regime extremo de poucos dados[15]. À medida que o número de exemplos aumentou, ambos os modelos melhoraram, mas o Qwen3-VL manteve uma vantagem, demonstrando uma generalização mais forte em poucos exemplos[16]. A vantagem vem do conhecimento linguístico e de mundo embutido no modelo – por exemplo, o Qwen3-VL já tem um conceito do que é um "girassol" ou "golden retriever", por meio de seu pré-treinamento multimodal[16]. Isso significa que ele pode reconhecer ou categorizar imagens novas com poucos exemplos novos. Em termos práticos, os usuários do Tinker podem alcançar alta precisão em tarefas de visão com conjuntos de dados muito pequenos, aproveitando esses grandes modelos de visão-linguagem. Essa capacidade de visão eficiente em dados é crucial para cenários do mundo real onde os dados rotulados são escassos. Também sugere o poder do raciocínio aumentado por ferramentas: um modelo que “vê” pode aproveitar tanto as pistas visuais quanto o contexto linguístico, tornando-se um agente mais versátil (por exemplo, lendo um diagrama e explicando-o, ou usando uma imagem como parte de uma cadeia de raciocínio). No geral, a adição do Qwen3-VL ao Tinker amplia o alcance da plataforma do texto puro para o domínio visual, permitindo fluxos de trabalho de raciocínio multimodal sob a mesma API de treinamento unificada.
Na frente de pesquisa, o Mind Lab – um laboratório de pesquisa de fronteira afiliado ao Macaron AI – está enfrentando o desafio de tornar os agentes de IA verdadeiramente adaptáveis e experienciais. O ethos do Mind Lab é que “a verdadeira inteligência vem da experiência real, não apenas de um pré-treinamento maior”[17]. Em outras palavras, simplesmente ampliar modelos em conjuntos de dados estáticos não é suficiente; o próximo salto em IA virá de sistemas que aprendem continuamente com interações, assim como humanos acumulando experiência. O Mind Lab enquadra essa visão como Inteligência Experiencial – movendo-se de “cérebros” estáticos para “mentes” adaptáveis que podem formar modelos internos do mundo, atualizar seu conhecimento através de feedback, ter objetivos ou valores explícitos e até refletir sobre suas próprias ações[18]. Esta é uma resposta direta às limitações dos LLMs atuais, que são frequentemente poderosos mas congelados após o pré-treinamento[18]. Ao introduzir mecanismos para adaptação genuína – como aprendizado contínuo por reforço e memória dinâmica – o Mind Lab visa criar agentes que evoluem com o uso.
Dois pilares centrais do trabalho da Mind Lab são: (1) Ajuste fino de RL eficiente de modelos massivos para instilar novos comportamentos, e (2) Sistemas de memória avançados que permitem que agentes retenham e utilizem conhecimento a longo prazo. Ambos são voltados para tornar a IA mais agente (decidindo e melhorando autonomamente) e para estreitar o acoplamento entre os avanços da pesquisa e a implantação do produto.
Uma das principais conquistas da Mind Lab é demonstrar aprendizado por reforço em escala de trilhões de parâmetros – e fazer isso de maneira prática e econômica. Em dezembro de 2025, eles anunciaram o primeiro pipeline de RL de ponta a ponta no modelo de raciocínio Kimi K2 de 1,04T de parâmetros, alcançado com apenas ~10% dos recursos de GPU que esse treinamento normalmente exigiria[19]. Como isso foi possível? A equipe construiu um motor de treinamento especializado que combina ajuste fino eficiente em parâmetros (LoRA) com paralelismo híbrido na estrutura Mixture-of-Experts do modelo[20][21].
Em vez de ajustar todos os trilhões de pesos, a abordagem do Mind Lab insere matrizes de adaptação de baixo rank em camadas selecionadas do Kimi K2 (tanto na estrutura densa quanto nas camadas de especialistas) e atualiza apenas essas durante o RL[22]. Isso reduz drasticamente o número de parâmetros treináveis (por exemplo, um rank de LoRA de algumas dezenas ou centenas por camada, em vez de matrizes completas) e, portanto, diminui o uso de memória e computação em uma ordem de magnitude. Ao mesmo tempo, treinar um modelo desse tamanho requer distribuir eficientemente a carga de trabalho por muitos GPUs. A equipe empregou uma estratégia híbrida-paralela: um uso coordenado de paralelismo de tensor, paralelismo de pipeline, paralelismo de especialistas (para os especialistas MoE) e paralelismo de sequência (para treinamento de sequência longa), todos compatíveis com atualizações de LoRA fragmentadas[23]. Na prática, isso significou aproveitar frameworks de treinamento de grandes modelos existentes (Megatron da NVIDIA e VolcEngine RL da ByteDance), aprimorando-os para lidar com LoRA em MoE e equilibrando cuidadosamente a computação em 64 GPUs em um cluster[24]. O resultado foi um treinamento RL estável on-policy (semelhante a um algoritmo estilo PPO) no modelo completo Kimi K2 com um modelo de recompensa fornecendo feedback sobre a qualidade do raciocínio[22] – algo anteriormente considerado inviável para a maioria das equipes devido ao custo.
Igualmente importante, funcionou: o Kimi K2 com ajuste fino LoRA alcançou melhorias significativas em tarefas de raciocínio de longo prazo, com curvas de aprendizagem suaves e sem divergência[25]. Crucialmente, o modelo adaptado reteve as habilidades gerais do modelo base (graças a mudanças de peso mínimas e focadas) enquanto adquiriu novos comportamentos específicos de tarefa[26]. Isso significa que o vasto conhecimento prévio do modelo base não foi sobrescrito, apenas ampliado – um benefício chave do ajuste fino LoRA. De fato, os experimentos do Mind Lab confirmaram que modelos maiores fornecem uma base mais forte para RL. Com um orçamento de treinamento fixo, um modelo grande mais pequenos adaptadores LoRA superaram um modelo menor treinado com ajuste completo, tanto em tarefas no domínio quanto em transferência para novas[27]. Como a equipe diz, RL é “limitado pelo prévio” – se o modelo base não pode gerar trajetórias de alta qualidade desde o início, RL tem pouco sinal para amplificar[27]. Um prévio poderoso pré-treinado como o Kimi K2 dá ao RL um conjunto rico de comportamentos para aperfeiçoar, enquanto treinar um modelo pequeno do zero tem que inventar esses comportamentos novamente. Este insight inverte a sabedoria convencional: pode ser mais eficiente em termos de computação fazer RL em um modelo grande (com um prévio forte e eficiência LoRA) do que fazer RL em um modelo menor, mesmo que o modelo menor seja mais barato por etapa[28]. A contribuição do Mind Lab aqui não é apenas um algoritmo, mas uma estratégia de infraestrutura – um plano para tornar o aprendizado contínuo viável nos maiores modelos. Eles integraram seus métodos em projetos de código aberto (Megatron-Bridge, VERL)[29], para que a comunidade possa reproduzir e desenvolver este trabalho, potencialmente permitindo que muitos grupos ajustem agentes com trilhões de parâmetros com orçamentos modestos de hardware.

Demonstração ao vivo da Difusão de Memória
Outra fronteira que o Mind Lab está explorando é como um agente de IA pode lidar com memórias de longo prazo de suas interações. Muitos sistemas atuais adicionam um banco de dados vetorial para recuperar trechos de conversas passadas ou usam técnicas de resumo para comprimir o histórico. O Mind Lab propõe um sistema de memória mais integrado, “nativo do modelo”, chamado Memory Diffusion. A ideia é tratar toda a sequência de diálogo ou trajetória de um agente como memória editável dentro do contexto do modelo, em vez de algo armazenado externamente. O Memory Diffusion funciona mantendo iterativamente uma janela de contexto de tamanho fixo através de um loop de mascarar–alocar–reabastecer. Em cada etapa, o modelo decide quais tokens (partes da conversa passada) manter (mascarar) e quais descartar, depois reabastece o espaço liberado com novo conteúdo que chega – tudo isso respeitando um orçamento estrito de tokens para o comprimento do contexto. Essencialmente, o modelo está aprendendo a gerenciar seu próprio contexto, comprimindo ou esquecendo detalhes menos relevantes e retendo fatos importantes à medida que a interação cresce. Isso é análogo ao esquecimento inteligente, onde o objetivo não é lembrar de tudo indefinidamente (o que não é viável devido aos limites de comprimento de contexto), mas lembrar de forma útil sob restrições reais.
Ao operar no nível de sequência de tokens, a Difusão de Memória evita a necessidade de embeddings externos ou busca de similaridade; a “memória” vive no mesmo espaço representacional que o contexto de trabalho do modelo. O Mind Lab relata que essa abordagem alcança desempenho de memória de longo prazo de última geração, o que significa que o agente pode manter conversas ou tarefas prolongadas sem perder informações relevantes, tudo através de mecanismos aprendidos no modelo[31]. Ele também opera em tempo constante em relação ao tamanho do contexto – sem explosão de custo de recuperação à medida que o histórico cresce, já que o comprimento do contexto é fixo e gerido através das operações de máscara/recarga[31]. Em termos práticos, um agente com Difusão de Memória poderia participar de uma conversa com milhares de interações e, embora não possa manter todos os detalhes explicitamente, ele continuamente decide o que manter em mente. Preferências importantes do usuário ou perguntas não resolvidas persistirão, enquanto conversas triviais de muito tempo atrás podem ser removidas. Essa abordagem trata a memória como um componente de primeira classe da cognição do modelo, alinhando-se à visão do Mind Lab de que a memória deve ser uma parte ativa e de aprendizado do sistema, em vez de um armazenamento passivo de dados[30].
Leia mais no nosso blog técnico
As vantagens infraestruturais do Tinker e as eficiências algorítmicas do Mind Lab formam uma simbiose natural. O Tinker permite a aplicação direta do híbrido LoRA RL do Mind Lab ao Kimi K2 e Qwen3-VL, facilitando loops agênticos multimodais.
No co-design de pesquisa-produto—princípio central do Mind Lab—isso se manifesta como:
Estratégicamente, este paradigma acelera a iteração: produtos tornam-se bancadas de teste experimentais, produzindo dados de alta fidelidade que refinam hipóteses de pesquisa. Por exemplo, classificações de visão few-shot obtidas do Tinker podem semear objetivos de RL em agentes visuais implantados, alinhando progressivamente políticas perceptivas com as preferências do usuário.
Tradicionalmente, a pesquisa em IA produzia um modelo ou algoritmo, e então uma equipe de produto separada poderia descobrir como implantá-lo, com iteração relativamente lenta entre os dois. O Mind Lab, por outro lado, opera com a filosofia de co-design de pesquisa e produto: toda nova técnica é rapidamente testada em um ambiente de agente ao vivo, e as interações reais dos usuários geram dados para refinar a pesquisa[32].
"Pesquisa e produto não são mais trilhas separadas. Eles são um ciclo de feedback fechado: experiência do usuário → dados → treinamento de RL → implantação → melhor UX → dados mais ricos → repetir.”[33]. Na prática, isso significa que quando o Mind Lab melhora seu algoritmo de RL ou sistema de memória, eles o integram em um agente voltado para o usuário (por exemplo, o assistente pessoal de IA do Macaron) e observam como ele se comporta com usuários reais. Os dados de uso – quais perguntas os usuários fazem, onde o agente falha ou tem sucesso, feedback explícito – são então alimentados como sinal de treinamento (através de ajuste fino supervisionado ou aprendizado por reforço) para a próxima atualização do modelo. Esse ciclo fechado acelera muito o aprendizado: o produto é o experimento.
Uma implicação é o uso de modelos de recompensa em streaming e RLHF online (Aprendizado por Reforço com Feedback Humano). Em vez de coletar um conjunto de dados estático de comparações de preferências humanas e treinar um modelo de recompensa uma vez, a estrutura do Mind Lab prevê atualizar continuamente o modelo de recompensa conforme novos feedbacks chegam durante a implantação. Por exemplo, se um agente está resolvendo tarefas para usuários e ocasionalmente recebe um sinal negativo ou uma correção, esses sinais podem ser transmitidos para o modelo de recompensa para refinar sua noção de comportamento "bom" em tempo real. Na próxima vez que o aprendizado por reforço for executado (o que pode ser em uma cadência programada ou até mesmo de forma assíncrona), o modelo de recompensa atualizado orienta a política para se alinhar melhor com as preferências do usuário. Este paradigma de RL em streaming transforma a implantação em uma extensão do treinamento – quanto mais tempo o agente opera no mundo real, mais experiência ele acumula e melhor ele se torna. A interface compatível com OpenAI fornecida pela Tinker realmente complementa essa estratégia: ela permite que esses modelos continuamente aprendidos sejam facilmente integrados em produtos e ferramentas existentes, o que significa que um laboratório de pesquisa pode rapidamente lançar novas versões de modelos em um produto e observar os resultados, sem precisar reconstruir a integração a cada vez.
Do lado do Tinker, a capacidade da plataforma de amostrar de um modelo durante o treinamento[10] pode facilitar tais loops iterativos, possibilitando avaliações intermediárias e decisões de ajuste detalhadas. Do lado da Mind Lab, o loop de co-design garante que suas inovações (como RL em escala de trilhões ou difusão de memória) sejam testadas em casos de uso reais. Essa abordagem revela desafios práticos cedo (por exemplo, como lidar com latência ou entradas inesperadas do usuário) e fecha a lacuna entre pesquisa de ponta e produtos de IA voltados para o usuário. O retorno estratégico é que as melhorias são impulsionadas por necessidades do mundo real e validadas diretamente em comparação com o uso no mundo real. Como observa a Mind Lab, o progresso genuíno vem do “aprendizado contínuo das interações usuário-produto”[33], e um agente que pode se adaptar in situ entregará, em última análise, uma experiência de usuário muito melhor do que um que é fixo na implantação.
Tomados em conjunto, os avanços do Tinker e da Mind Lab destacam uma mudança profunda em como construímos sistemas de IA – de modelos estáticos para agentes adaptativos co-desenhados com seus ambientes. Emergiram várias implicações chave:
À medida que as leis de escalonamento estático atingem seu limite, a síntese exemplificada pela personalização acessível em escala trilionária do Tinker e o eficiente RL experiencial do Mind Lab anunciam uma era transformadora. Ao incorporar a adaptação no ciclo do produto, avançamos além de cérebros frágeis em direção a mentes resilientes—sistemas que não apenas raciocinam e percebem em níveis de ponta, mas crescem simbioticamente com seus ambientes. Essa trajetória coevolutiva promete uma IA que não é apenas capaz, mas que se torna continuamente mais sintonizada com as necessidades humanas e as complexidades do mundo real.
[1] [34] [35] [36] [2507.20534] Kimi K2: Inteligência Agente Aberta
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Thinking Machines Lab
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Disponibilidade Geral e Entrada de Visão - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Como Construímos o Raciocínio de RL com Trilhões de Parâmetros usando 10% de GPUs
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
[18] [19] [29] [31] [32] Apresentando o Mind Lab — O braço de pesquisa da Macaron AI