De Modelos Estáticos a Agentes Adaptativos: Inovações no Tinker e Mind Lab

Autor: Boxu LI

No cenário em evolução da inteligência artificial, onde o pré-treinamento em escalas extremas gerou capacidades estáticas formidáveis, a fronteira agora se desloca da construção de modelos estáticos cada vez maiores para a criação de sistemas agentivos – agentes de IA que podem raciocinar profundamente, usar ferramentas, ver e lembrar, e aprender continuamente com a experiência[1].

A plataforma Tinker do Thinking Machines Lab, com seu recente anúncio de disponibilidade geral em 12 de dezembro de 2025, representa um salto infraestrutural crucial, democratizando o acesso ao ajuste fino e à extensão multimodal de modelos com trilhões de parâmetros. Simultaneamente, o Mind Lab— a divisão de pesquisa da Macaron AI—articula uma estrutura filosófica e técnica para "inteligência experiencial", onde os modelos passam de repositórios congelados de conhecimento para processos dinâmicos que se refinam através de feedback do mundo real. Esta convergência oferece oportunidades profundas para refinar o co-design de pesquisa e produto, fechando o ciclo entre inovação algorítmica e adaptação implantada.

Principais Inovações nas Atualizações do Tinker

  • A plataforma Tinker da Thinking Machines Lab alcança disponibilidade geral, apoiando o ajuste fino do modelo MoE Kimi K2 Thinking de trilhões de parâmetros da Moonshot AI, inferência compatível com OpenAI e entradas multimodais através da série Qwen3-VL da Alibaba.
  • Estes permitem a personalização eficiente de modelos de raciocínio de fronteira e visão-linguagem, com demonstrações mostrando desempenho superior em classificação de imagens com poucos exemplos.
  • O Mind Lab (braço de pesquisa da Macaron AI) avança com RL escalável baseado em LoRA em modelos MoE de escala trilionária similares, enfatizando a adaptação experiencial.

Neste post, mergulharemos no novo modelo de raciocínio Kimi K2 da Tinker, na interface compatível com OpenAI e nos modelos de visão Qwen3-VL, depois exploraremos a filosofia do Mind Lab sobre inteligência experiencial, suas inovações em aprendizado por reforço (RL) de trilhões de parâmetros, abordagem de difusão de memória e as implicações estratégicas para construir a próxima geração de sistemas de IA.

As Últimas Inovações da Tinker: Raciocínio, Ferramentas e Visão

Tinker é uma plataforma de treinamento de IA projetada para permitir que pesquisadores ajustem e implementem modelos de ponta sem se preocuparem com a infraestrutura[2][3]. Em dezembro de 2025, o Tinker anunciou várias atualizações importantes que fortalecem as capacidades de raciocínio, uso de ferramentas e compreensão visual dos modelos de IA[4]:

  • Modelo de Pensamento Kimi K2: Os usuários agora podem ajustar o Kimi K2 Thinking, um colossal modelo de 1 trilhão de parâmetros e o maior na lista da Tinker[5]. Kimi K2 é um transformador Mixture-of-Experts (MoE) projetado para raciocínio em cadeias longas de pensamento e uso agente de ferramentas[6]. Apesar de sua escala, apenas um subconjunto (~32B) de seus parâmetros está ativo por vez, permitindo que ele alcance desempenho de raciocínio de ponta enquanto mantém a inferência eficiente[7]. Este modelo aberto – descrito como “inteligência agente aberta” – rivaliza ou supera muitos modelos fechados em benchmarks de raciocínio complexo[7]. Ao apoiar o Kimi K2 no Tinker, a Thinking Machines permite que pesquisadores aproveitem um motor de raciocínio avançado para tarefas que exigem lógica em múltiplas etapas, planejamento ou chamadas de ferramentas externas. Importante, o Tinker ajusta esses modelos usando LoRA (Low-Rank Adaptation), treinando pequenas matrizes adaptadoras em vez de atualizar todos os trilhões de pesos[8]. Essa abordagem reduz significativamente a memória e o processamento necessários para personalização. De fato, estudos internos descobriram que com a configuração certa, o LoRA pode igualar o desempenho de aprendizado do ajuste completo enquanto utiliza muito menos recursos[9]. Na prática, isso significa que os usuários podem adaptar um modelo gigante como o Kimi K2 para novas tarefas ou domínios sem custo proibitivo – um passo crucial para fluxos de trabalho de raciocínio mais eficientes.
  • Inferência Compatível com API OpenAI: Para acelerar a integração pesquisa-produto, o Tinker introduziu uma interface de inferência que é compatível com a API da OpenAI para conclusões[10]. Essencialmente, pode-se consultar um modelo hospedado no Tinker usando as mesmas chamadas de API que a plataforma da OpenAI usa, especificando um caminho de modelo com um URI especial tinker://. Por exemplo, os desenvolvedores podem chamar a API de conclusão do modelo Tinker com uma sintaxe semelhante à da OpenAI (modelo, prompt, max_tokens, etc.) e obter resultados como se estivessem chamando openai.Completion.create[10]. Essa compatibilidade plug-and-play significa que qualquer ferramenta ou aplicação construída em torno da API da OpenAI pode integrar perfeitamente os modelos do Tinker[10]. Isso reduz a fricção para adotar modelos abertos avançados em produtos reais: você poderia ajustar o Kimi K2 no Tinker e depois inseri-lo em um agente de cadeia de pensamento ou estrutura de chatbot existente com mínimas alterações de código. Além disso, a estrutura de API do Tinker permite até mesmo amostrar de um modelo enquanto ainda está em treinamento[10] – permitindo avaliação interativa ou ciclos de treinamento aumentados por ferramentas onde um modelo pode ser testado e usado em paralelo com seu processo de ajuste fino. Esta atualização suporta fluxos de trabalho de desenvolvimento de agentes mais eficientes, permitindo que pesquisadores integrem e testem continuamente melhorias de modelos em cenários realistas.
  • Modelos de Visão–Linguagem Qwen3-VL: Outra adição importante ao Tinker é o suporte para modelos multimodais de visão-linguagem. A plataforma adicionou dois modelos habilitados para visão, Qwen3-VL-30B e Qwen3-VL-235B, que podem aceitar entradas de imagem juntamente com texto[11]. Esses modelos (30 bilhões e 235 bilhões de parâmetros respectivamente, ambos arquiteturas MoE) são ajustados para seguir instruções que incluem imagens, por exemplo, respondendo perguntas sobre um diagrama ou interpretando uma foto. Com chamadas de API simples, os usuários agora podem alimentar uma imagem (como um ImageChunk) intercalada com texto no modelo e obter uma resposta em linguagem[12]. Isso desbloqueia uma variedade de aplicações informadas por visão – desde análise de capturas de tela e gráficos até assistentes multimodais que veem e falam. Notavelmente, os modelos Qwen3-VL foram projetados com capacidades de visão eficientes em termos de dados em mente. Para ilustrar isso, a Thinking Machines ajustou o modelo 235B Qwen3-VL em algumas tarefas clássicas de classificação de imagens (Caltech101, Oxford Flowers, etc.), usando adaptadores LoRA para eficiência[13]. Eles compararam seu desempenho com uma forte linha de base apenas de visão (modelo DINOv2 ViT com uma cabeça de classificador), em várias quantidades de dados de treinamento por classe[14].

[15] Comparação entre o Qwen3-VL-235B ajustado (modelo de visão-linguagem) e o DINOv2 (referência apenas de visão) em tarefas de classificação de imagens com exemplos rotulados limitados. O Qwen3-VL alcança maior precisão, especialmente no regime de poucos dados (extrema esquerda), graças à sua compreensão visual informada pela linguagem.

Mesmo com apenas um exemplo por classe, o modelo Qwen3-VL 235B alcançou precisão razoável, superando significativamente o DINOv2 neste regime extremo de poucos dados[15]. À medida que o número de exemplos aumentou, ambos os modelos melhoraram, mas o Qwen3-VL manteve uma vantagem, demonstrando uma generalização mais forte em poucos exemplos[16]. A vantagem vem do conhecimento linguístico e de mundo embutido no modelo – por exemplo, o Qwen3-VL já tem um conceito do que é um "girassol" ou "golden retriever", por meio de seu pré-treinamento multimodal[16]. Isso significa que ele pode reconhecer ou categorizar imagens novas com poucos exemplos novos. Em termos práticos, os usuários do Tinker podem alcançar alta precisão em tarefas de visão com conjuntos de dados muito pequenos, aproveitando esses grandes modelos de visão-linguagem. Essa capacidade de visão eficiente em dados é crucial para cenários do mundo real onde os dados rotulados são escassos. Também sugere o poder do raciocínio aumentado por ferramentas: um modelo que “vê” pode aproveitar tanto as pistas visuais quanto o contexto linguístico, tornando-se um agente mais versátil (por exemplo, lendo um diagrama e explicando-o, ou usando uma imagem como parte de uma cadeia de raciocínio). No geral, a adição do Qwen3-VL ao Tinker amplia o alcance da plataforma do texto puro para o domínio visual, permitindo fluxos de trabalho de raciocínio multimodal sob a mesma API de treinamento unificada.

Sistemas Adaptativos do Mind Lab: Inteligência Experiencial em Ação

Na frente de pesquisa, o Mind Lab – um laboratório de pesquisa de fronteira afiliado ao Macaron AI – está enfrentando o desafio de tornar os agentes de IA verdadeiramente adaptáveis e experienciais. O ethos do Mind Lab é que “a verdadeira inteligência vem da experiência real, não apenas de um pré-treinamento maior”[17]. Em outras palavras, simplesmente ampliar modelos em conjuntos de dados estáticos não é suficiente; o próximo salto em IA virá de sistemas que aprendem continuamente com interações, assim como humanos acumulando experiência. O Mind Lab enquadra essa visão como Inteligência Experiencial – movendo-se de “cérebros” estáticos para “mentes” adaptáveis que podem formar modelos internos do mundo, atualizar seu conhecimento através de feedback, ter objetivos ou valores explícitos e até refletir sobre suas próprias ações[18]. Esta é uma resposta direta às limitações dos LLMs atuais, que são frequentemente poderosos mas congelados após o pré-treinamento[18]. Ao introduzir mecanismos para adaptação genuína – como aprendizado contínuo por reforço e memória dinâmica – o Mind Lab visa criar agentes que evoluem com o uso.

Dois pilares centrais do trabalho da Mind Lab são: (1) Ajuste fino de RL eficiente de modelos massivos para instilar novos comportamentos, e (2) Sistemas de memória avançados que permitem que agentes retenham e utilizem conhecimento a longo prazo. Ambos são voltados para tornar a IA mais agente (decidindo e melhorando autonomamente) e para estreitar o acoplamento entre os avanços da pesquisa e a implantação do produto.

RL de Trilhão de Parâmetros Baseado em LoRA com 10% de GPUs

Como Conseguimos isso?

Uma das principais conquistas da Mind Lab é demonstrar aprendizado por reforço em escala de trilhões de parâmetros – e fazer isso de maneira prática e econômica. Em dezembro de 2025, eles anunciaram o primeiro pipeline de RL de ponta a ponta no modelo de raciocínio Kimi K2 de 1,04T de parâmetros, alcançado com apenas ~10% dos recursos de GPU que esse treinamento normalmente exigiria[19]. Como isso foi possível? A equipe construiu um motor de treinamento especializado que combina ajuste fino eficiente em parâmetros (LoRA) com paralelismo híbrido na estrutura Mixture-of-Experts do modelo[20][21].

Em vez de ajustar todos os trilhões de pesos, a abordagem do Mind Lab insere matrizes de adaptação de baixo rank em camadas selecionadas do Kimi K2 (tanto na estrutura densa quanto nas camadas de especialistas) e atualiza apenas essas durante o RL[22]. Isso reduz drasticamente o número de parâmetros treináveis (por exemplo, um rank de LoRA de algumas dezenas ou centenas por camada, em vez de matrizes completas) e, portanto, diminui o uso de memória e computação em uma ordem de magnitude. Ao mesmo tempo, treinar um modelo desse tamanho requer distribuir eficientemente a carga de trabalho por muitos GPUs. A equipe empregou uma estratégia híbrida-paralela: um uso coordenado de paralelismo de tensor, paralelismo de pipeline, paralelismo de especialistas (para os especialistas MoE) e paralelismo de sequência (para treinamento de sequência longa), todos compatíveis com atualizações de LoRA fragmentadas[23]. Na prática, isso significou aproveitar frameworks de treinamento de grandes modelos existentes (Megatron da NVIDIA e VolcEngine RL da ByteDance), aprimorando-os para lidar com LoRA em MoE e equilibrando cuidadosamente a computação em 64 GPUs em um cluster[24]. O resultado foi um treinamento RL estável on-policy (semelhante a um algoritmo estilo PPO) no modelo completo Kimi K2 com um modelo de recompensa fornecendo feedback sobre a qualidade do raciocínio[22] – algo anteriormente considerado inviável para a maioria das equipes devido ao custo.

Igualmente importante, funcionou: o Kimi K2 com ajuste fino LoRA alcançou melhorias significativas em tarefas de raciocínio de longo prazo, com curvas de aprendizagem suaves e sem divergência[25]. Crucialmente, o modelo adaptado reteve as habilidades gerais do modelo base (graças a mudanças de peso mínimas e focadas) enquanto adquiriu novos comportamentos específicos de tarefa[26]. Isso significa que o vasto conhecimento prévio do modelo base não foi sobrescrito, apenas ampliado – um benefício chave do ajuste fino LoRA. De fato, os experimentos do Mind Lab confirmaram que modelos maiores fornecem uma base mais forte para RL. Com um orçamento de treinamento fixo, um modelo grande mais pequenos adaptadores LoRA superaram um modelo menor treinado com ajuste completo, tanto em tarefas no domínio quanto em transferência para novas[27]. Como a equipe diz, RL é “limitado pelo prévio” – se o modelo base não pode gerar trajetórias de alta qualidade desde o início, RL tem pouco sinal para amplificar[27]. Um prévio poderoso pré-treinado como o Kimi K2 dá ao RL um conjunto rico de comportamentos para aperfeiçoar, enquanto treinar um modelo pequeno do zero tem que inventar esses comportamentos novamente. Este insight inverte a sabedoria convencional: pode ser mais eficiente em termos de computação fazer RL em um modelo grande (com um prévio forte e eficiência LoRA) do que fazer RL em um modelo menor, mesmo que o modelo menor seja mais barato por etapa[28]. A contribuição do Mind Lab aqui não é apenas um algoritmo, mas uma estratégia de infraestrutura – um plano para tornar o aprendizado contínuo viável nos maiores modelos. Eles integraram seus métodos em projetos de código aberto (Megatron-Bridge, VERL)[29], para que a comunidade possa reproduzir e desenvolver este trabalho, potencialmente permitindo que muitos grupos ajustem agentes com trilhões de parâmetros com orçamentos modestos de hardware.

Difusão de Memória: Repensando a Memória do Agente Além dos Bancos de Dados Vetoriais

Demonstração ao vivo da Difusão de Memória

Outra fronteira que o Mind Lab está explorando é como um agente de IA pode lidar com memórias de longo prazo de suas interações. Muitos sistemas atuais adicionam um banco de dados vetorial para recuperar trechos de conversas passadas ou usam técnicas de resumo para comprimir o histórico. O Mind Lab propõe um sistema de memória mais integrado, “nativo do modelo”, chamado Memory Diffusion. A ideia é tratar toda a sequência de diálogo ou trajetória de um agente como memória editável dentro do contexto do modelo, em vez de algo armazenado externamente. O Memory Diffusion funciona mantendo iterativamente uma janela de contexto de tamanho fixo através de um loop de mascarar–alocar–reabastecer. Em cada etapa, o modelo decide quais tokens (partes da conversa passada) manter (mascarar) e quais descartar, depois reabastece o espaço liberado com novo conteúdo que chega – tudo isso respeitando um orçamento estrito de tokens para o comprimento do contexto. Essencialmente, o modelo está aprendendo a gerenciar seu próprio contexto, comprimindo ou esquecendo detalhes menos relevantes e retendo fatos importantes à medida que a interação cresce. Isso é análogo ao esquecimento inteligente, onde o objetivo não é lembrar de tudo indefinidamente (o que não é viável devido aos limites de comprimento de contexto), mas lembrar de forma útil sob restrições reais.

Ao operar no nível de sequência de tokens, a Difusão de Memória evita a necessidade de embeddings externos ou busca de similaridade; a “memória” vive no mesmo espaço representacional que o contexto de trabalho do modelo. O Mind Lab relata que essa abordagem alcança desempenho de memória de longo prazo de última geração, o que significa que o agente pode manter conversas ou tarefas prolongadas sem perder informações relevantes, tudo através de mecanismos aprendidos no modelo[31]. Ele também opera em tempo constante em relação ao tamanho do contexto – sem explosão de custo de recuperação à medida que o histórico cresce, já que o comprimento do contexto é fixo e gerido através das operações de máscara/recarga[31]. Em termos práticos, um agente com Difusão de Memória poderia participar de uma conversa com milhares de interações e, embora não possa manter todos os detalhes explicitamente, ele continuamente decide o que manter em mente. Preferências importantes do usuário ou perguntas não resolvidas persistirão, enquanto conversas triviais de muito tempo atrás podem ser removidas. Essa abordagem trata a memória como um componente de primeira classe da cognição do modelo, alinhando-se à visão do Mind Lab de que a memória deve ser uma parte ativa e de aprendizado do sistema, em vez de um armazenamento passivo de dados[30].

Leia mais no nosso blog técnico

Co-design de Pesquisa–Produto: Um Ciclo Contínuo de Aprendizado

As vantagens infraestruturais do Tinker e as eficiências algorítmicas do Mind Lab formam uma simbiose natural. O Tinker permite a aplicação direta do híbrido LoRA RL do Mind Lab ao Kimi K2 e Qwen3-VL, facilitando loops agênticos multimodais.

No co-design de pesquisa-produto—princípio central do Mind Lab—isso se manifesta como:

  1. Instrumentação para Feedback: Agentes implantados (por exemplo, via modelos servidos pelo Tinker) geram episódios estruturados a partir de interações do usuário, resultados de ferramentas e correções.
  2. Pipelines de RL Online: O paralelismo híbrido suporta atualizações contínuas em sinais ao vivo, evoluindo funções de valor e políticas sem lotes offline.
  3. Adaptação Multimodal: Entradas visuais permitem RL em tarefas perceptivas, refinando modelos de mundo para navegação em GUI, compreensão de documentos ou raciocínio visual.
  4. Segurança e Estabilidade: Desdobramentos colocalizados minimizam a mudança de distribuição; recompensas em streaming (como no exemplo de estética HTML do Mind Lab) evitam a manipulação de recompensas.

Estratégicamente, este paradigma acelera a iteração: produtos tornam-se bancadas de teste experimentais, produzindo dados de alta fidelidade que refinam hipóteses de pesquisa. Por exemplo, classificações de visão few-shot obtidas do Tinker podem semear objetivos de RL em agentes visuais implantados, alinhando progressivamente políticas perceptivas com as preferências do usuário.

Tradicionalmente, a pesquisa em IA produzia um modelo ou algoritmo, e então uma equipe de produto separada poderia descobrir como implantá-lo, com iteração relativamente lenta entre os dois. O Mind Lab, por outro lado, opera com a filosofia de co-design de pesquisa e produto: toda nova técnica é rapidamente testada em um ambiente de agente ao vivo, e as interações reais dos usuários geram dados para refinar a pesquisa[32].

"Pesquisa e produto não são mais trilhas separadas. Eles são um ciclo de feedback fechado: experiência do usuário → dados → treinamento de RL → implantação → melhor UX → dados mais ricos → repetir.”[33]. Na prática, isso significa que quando o Mind Lab melhora seu algoritmo de RL ou sistema de memória, eles o integram em um agente voltado para o usuário (por exemplo, o assistente pessoal de IA do Macaron) e observam como ele se comporta com usuários reais. Os dados de uso – quais perguntas os usuários fazem, onde o agente falha ou tem sucesso, feedback explícito – são então alimentados como sinal de treinamento (através de ajuste fino supervisionado ou aprendizado por reforço) para a próxima atualização do modelo. Esse ciclo fechado acelera muito o aprendizado: o produto é o experimento.

Uma implicação é o uso de modelos de recompensa em streaming e RLHF online (Aprendizado por Reforço com Feedback Humano). Em vez de coletar um conjunto de dados estático de comparações de preferências humanas e treinar um modelo de recompensa uma vez, a estrutura do Mind Lab prevê atualizar continuamente o modelo de recompensa conforme novos feedbacks chegam durante a implantação. Por exemplo, se um agente está resolvendo tarefas para usuários e ocasionalmente recebe um sinal negativo ou uma correção, esses sinais podem ser transmitidos para o modelo de recompensa para refinar sua noção de comportamento "bom" em tempo real. Na próxima vez que o aprendizado por reforço for executado (o que pode ser em uma cadência programada ou até mesmo de forma assíncrona), o modelo de recompensa atualizado orienta a política para se alinhar melhor com as preferências do usuário. Este paradigma de RL em streaming transforma a implantação em uma extensão do treinamento – quanto mais tempo o agente opera no mundo real, mais experiência ele acumula e melhor ele se torna. A interface compatível com OpenAI fornecida pela Tinker realmente complementa essa estratégia: ela permite que esses modelos continuamente aprendidos sejam facilmente integrados em produtos e ferramentas existentes, o que significa que um laboratório de pesquisa pode rapidamente lançar novas versões de modelos em um produto e observar os resultados, sem precisar reconstruir a integração a cada vez.

Do lado do Tinker, a capacidade da plataforma de amostrar de um modelo durante o treinamento[10] pode facilitar tais loops iterativos, possibilitando avaliações intermediárias e decisões de ajuste detalhadas. Do lado da Mind Lab, o loop de co-design garante que suas inovações (como RL em escala de trilhões ou difusão de memória) sejam testadas em casos de uso reais. Essa abordagem revela desafios práticos cedo (por exemplo, como lidar com latência ou entradas inesperadas do usuário) e fecha a lacuna entre pesquisa de ponta e produtos de IA voltados para o usuário. O retorno estratégico é que as melhorias são impulsionadas por necessidades do mundo real e validadas diretamente em comparação com o uso no mundo real. Como observa a Mind Lab, o progresso genuíno vem do “aprendizado contínuo das interações usuário-produto”[33], e um agente que pode se adaptar in situ entregará, em última análise, uma experiência de usuário muito melhor do que um que é fixo na implantação.

Implicações para a IA Agente e Sistemas Co-Desenhados Futuros

Tomados em conjunto, os avanços do Tinker e da Mind Lab destacam uma mudança profunda em como construímos sistemas de IA – de modelos estáticos para agentes adaptativos co-desenhados com seus ambientes. Emergiram várias implicações chave:

  • Modelos Fundamentais para Agentes Fundamentais: A introdução de modelos agentivos como o Kimi K2 (com uso de ferramentas e raciocínio integrado) e técnicas para ajustá-los continuamente sugere que os modelos de linguagem grandes estão evoluindo para plataformas de comportamento, não apenas conhecimento. Em vez de modelos treinados uma única vez que apenas imitam texto, obtemos agentes que podem planejar, agir e incorporar feedback. Isso borra a linha entre um modelo de IA e um produto de IA: o modelo é cada vez mais o agente com o qual você interage, e ele pode se atualizar para servi-lo melhor. Construir tais agentes exige unir pesquisa centrada em modelos (novas arquiteturas, métodos de treinamento) com pensamento centrado no produto (experiência do usuário, restrições de implantação) em um único ciclo de desenvolvimento.
  • Raciocínio Aumentado por Ferramentas como Norma: Com a interface compatível com OpenAI do Tinker e modelos explicitamente construídos para uso de ferramentas, podemos prever agentes de IA invocando perfeitamente ferramentas externas, APIs ou bancos de dados como parte de seu processo de raciocínio. O design do Kimi K2 e os experimentos agentivos do Mind Lab enfatizam que resolver tarefas complexas muitas vezes requer que uma IA consulte ferramentas ou simule ambientes[34][35]. Sistemas futuros provavelmente integrarão APIs de ferramentas no núcleo do treinamento do modelo (como a síntese de dados agentivos em larga escala do Kimi fez[36]), resultando em capacidades de uso de ferramentas prontas para uso. Estrategicamente, isso significa que produtos de IA serão mais do que um modelo monolítico – serão plataformas de orquestração de ferramentas, onde o modelo serve como um cérebro que sabe quando e como chamar outros serviços. A facilidade de integrar modelos Tinker via APIs familiares reduz a barreira para desenvolvedores criarem tais fluxos de trabalho de IA que usam ferramentas na prática.
  • Interação com Estado e IA Personalizada: Inovações de memória como a Memory Diffusion apontam para uma IA que pode manter estado de longo prazo sobre interações. Em vez de tratar cada sessão ou consulta isoladamente, futuros agentes carregarão uma memória de interações, preferências e contextos anteriores de maneira criteriosa e limitada. Isso permitirá assistentes de IA muito mais personalizados e sensíveis ao contexto – que não resetam a cada vez, mas realmente aprendem quem estão interagindo e o que tem acontecido. Importante, a abordagem do Mind Lab mostra que isso pode ser feito sem janelas de contexto infinitas; através do gerenciamento de memória aprendido, os agentes podem se tornar mais inteligentes sobre o que lembrar. Para os usuários, isso significa uma experiência mais fluida: uma IA pessoal que lembra conversas passadas parecerá mais como um diálogo contínuo ou um assistente consistente, em vez de uma série de usos desconectados. Isso também levanta novas questões de design: como garantir que as coisas certas sejam lembradas ou esquecidas? A resposta provavelmente reside em técnicas como a difusão de memória que incorporam o esquecimento e ênfase semelhantes aos humanos.
  • Infraestrutura Híbrida como Vantagem Competitiva: A base técnica estabelecida por esses projetos – por exemplo, treinamento paralelo híbrido, LoRA-on-MoE, RL distribuído – será um divisor de águas para equipes de desenvolvimento de IA. Grupos que adotarem esses métodos podem ajustar os maiores modelos com computação relativamente modesta, o que pode democratizar a capacidade de construir agentes de IA especializados de alto desempenho. Em vez de apenas grandes empresas de tecnologia poderem implantar modelos de trilhões de parâmetros, qualquer laboratório ou startup poderia aproveitar um modelo aberto como o Kimi K2 e adaptá-lo via LoRA em um cluster de GPU menor[37][21]. Isso nivela o campo de jogo e também incentiva a experimentação com grandes modelos em nichos (já que o custo é menos proibitivo). Podemos ver uma explosão de agentes personalizados em escala de trilhões – alguns focados em raciocínio médico, outros em pesquisa jurídica, outros em design criativo – todos viabilizados por estruturas de ajuste fino eficientes. As integrações de código aberto (Megatron, etc.) garantem ainda mais que essas inovações se espalhem rapidamente. Além disso, uma abordagem paralela híbrida significa que para qualquer orçamento de hardware, pode-se obter um treinamento mais eficaz por meio de agendamento inteligente e paralelização, em vez de apenas aceitar um modelo menor. Isso é crítico à medida que pressionamos os modelos para incorporarem mais modalidades e contextos mais longos, o que aumentará ainda mais as demandas computacionais.
  • Aprendizado Contínuo e Interação Humano-IA: Finalmente, a noção de um sistema de aprendizado em circuito fechado transforma o papel do usuário na evolução da IA. Cada interação do usuário se torna um exemplo potencial de treinamento, e cada implantação é um experimento. Em termos práticos, isso pode levar a serviços de IA que melhoram dramaticamente da noite para o dia à medida que se re-treinam com os dados do dia anterior – muito parecido com a forma como as atualizações de software são lançadas. Os usuários podem começar a esperar que, se corrigirem uma IA hoje, ela não repetirá o erro amanhã. Isso configura um ciclo virtuoso: melhores produtos atraem mais uso, gerando mais dados para aprender, o que, por sua vez, melhora o produto. No entanto, isso também exige co-design cuidadoso de avaliação e segurança – se um agente está aprendendo com suas próprias interações, precisamos de modelos de recompensa robustos e salvaguardas para garantir que ele aprenda as lições certas (evitando reforçar comportamentos indesejáveis). O trabalho do Mind Lab em incorporar recompensas de preferência humana e autocrítica no RL é um modelo inicial para isso[35]. A longo prazo, esse co-design pesquisa-produto pode se tornar prática padrão: em vez de um artigo de pesquisa terminar com "ajustamos um modelo e alcançamos X", o critério de sucesso será "implantamos um agente adaptativo para usuários e ele melhorou sustentavelmente seu desempenho/utilidade em Y% ao longo do tempo".

Rumo a Mentes Adaptativas: Uma Visão Conclusiva

À medida que as leis de escalonamento estático atingem seu limite, a síntese exemplificada pela personalização acessível em escala trilionária do Tinker e o eficiente RL experiencial do Mind Lab anunciam uma era transformadora. Ao incorporar a adaptação no ciclo do produto, avançamos além de cérebros frágeis em direção a mentes resilientes—sistemas que não apenas raciocinam e percebem em níveis de ponta, mas crescem simbioticamente com seus ambientes. Essa trajetória coevolutiva promete uma IA que não é apenas capaz, mas que se torna continuamente mais sintonizada com as necessidades humanas e as complexidades do mundo real.


[1] [34] [35] [36] [2507.20534] Kimi K2: Inteligência Agente Aberta

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Disponibilidade Geral e Entrada de Visão - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Como Construímos o Raciocínio de RL com Trilhões de Parâmetros usando 10% de GPUs

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Apresentando o Mind Lab — O braço de pesquisa da Macaron AI

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron