Da Escala à Inteligência Experiencial: A Visão de Ilya Sutskever e a Abordagem do Macaron

Autor: Boxu Li

O Fim da Era da “Escala” e um Retorno à Pesquisa

Em uma conversa recente com Dwarkesh Patel, Ilya Sutskever – cofundador da OpenAI e agora chefe da startup Safe Superintelligence (SSI) – refletiu sobre o estado da IA e para onde ela está indo. Sutskever argumenta que a indústria de IA está passando da era de "apenas faça maior" e voltando para uma era de pesquisa fundamental[1]. Aproximadamente entre 2012–2020, o progresso do aprendizado profundo foi impulsionado por novas ideias (a "era da pesquisa"), seguido pelo foco de 2020–2025 em ampliar dados e parâmetros (a "era da escala")[1]. Mas agora, simplesmente aumentar o tamanho do modelo ou do conjunto de dados está trazendo retornos decrescentes. Como Sutskever coloca de forma direta, "se você apenas aumentar em 100 vezes a escala, [não] tudo seria transformado... é de volta à era da pesquisa novamente, só que com grandes computadores."[2][3] Em outras palavras, os avanços futuros virão não do aumento forçado da escala, mas de novas receitas de treinamento e algoritmos mais inteligentes.

Um problema central que motiva essa mudança é o que Sutskever chama de lacuna de generalização. Os modelos grandes de hoje conseguem se sair bem em benchmarks, mas ainda tropeçam em tarefas práticas – um paradoxo que se tornou cada vez mais evidente. “Esses modelos de alguma forma simplesmente generalizam dramaticamente pior do que as pessoas. É super óbvio. Isso parece ser algo muito fundamental,” observa Sutskever[4]. Modelos que obtêm notas máximas em competições de codificação ou exames de linguagem podem ainda cometer erros bizarros – repetindo o mesmo conserto de bug várias vezes ou falhando em decisões simples de senso comum – que nenhum humano competente cometeria[4][5]. Isso destaca uma fragilidade: redes neurais não entendem verdadeiramente ou se adaptam de maneira tão robusta quanto os humanos, apesar de suas impressionantes habilidades específicas. Como resume uma explicação da palestra de Sutskever, mesmo que tenhamos construído modelos que se saem bem em avaliações, sua confiabilidade no mundo real continua sendo “uma fragilidade evidenciada pelo... alto desempenho em avaliações contrastado com erros no mundo real.”[6]

Por que os modelos atuais falham na generalização? Sutskever sugere que isso é, em parte, um artefato do nosso paradigma de treinamento. Na era do pré-treinamento em larga escala, simplesmente alimentamos o modelo com tudo (textos em escala de internet) e esperamos que a amplitude dos dados proporcionasse capacidades amplas. E proporcionou – até certo ponto. Mas após o pré-treinamento, as empresas ajustam os modelos com aprendizado por reforço (RL) em benchmarks específicos ou instruções de usuários. Sutskever suspeita que essa etapa de RL muitas vezes especializa excessivamente os modelos para se saírem bem nos testes, em vez de realmente melhorar sua compreensão[7]. Em sua conversa, ele faz uma analogia vívida: um “estudante” (análogo a um modelo de IA) passa 10.000 horas praticando problemas de programação competitiva e se torna um prodígio em concursos de código, enquanto outro estudante pratica de forma mais modesta e foca em uma intuição ampla de ciência da computação[8][9]. O primeiro pode ganhar competições, mas o segundo se torna um engenheiro mais versátil no mundo real. Os modelos de hoje são como o especialista excessivamente preparado – eles se destacam nas condições estreitas para as quais foram ajustados, mas carecem do “fator X” que os humanos têm para adaptar habilidades a novos problemas complexos[10][11]. Em resumo, nossas IAs ainda não alcançaram a robusta e fluida generalização que nós, humanos, adquirimos ao longo de uma vida de experiências.

Por que os Humanos Aprendem Melhor: Eficiência de Amostra e Aprendizado Contínuo

Um tema importante na discussão de Sutskever é a eficiência amostral do aprendizado humano. Os humanos precisam de pouquíssimos dados para aprender tarefas complexas. Por exemplo, Yann LeCun destacou que um adolescente pode aprender a dirigir um carro com talvez 10 horas de prática – um conjunto de dados incrivelmente pequeno pelos padrões de IA[12]. Crianças pequenas aprendem a reconhecer carros (e milhares de outros conceitos) apenas com a exposição do dia a dia[12]. Em contraste, os modelos de IA atuais muitas vezes exigem conjuntos de treinamento enormes e ainda não conseguem igualar a flexibilidade humana. Sutskever observa que a evolução nos pré-carregou com alguns vieses indutivos úteis – por exemplo, milhões de anos de visão e locomoção moldaram nossos cérebros – mas isso sozinho não é a história completa[13][12]. Mesmo em domínios não aprimorados pela evolução (como leitura, matemática ou programação), os humanos rapidamente superam os algoritmos de hoje[14][15]. Isso sugere que “o que quer que seja que torna as pessoas boas em aprender” vai além do conhecimento embutido – temos um algoritmo de aprendizado fundamentalmente mais eficiente[14][15].

Qual pode ser esse algoritmo? Uma pista, argumenta Sutskever, é que os humanos aprendem continuamente e de forma interativa, não em um único lote gigante. Não ingerimos terabytes de texto e então congelamos nossos cérebros; em vez disso, aprendemos com a experiência contínua, atualizando constantemente nosso conhecimento. Ele destaca que um ser humano aos 15 anos tem uma ingestão total de dados muito menor do que o corpus de um grande modelo de linguagem, mas, aos 15, alcançamos uma compreensão mais profunda e cometemos muito menos erros óbvios[16][17]. A diferença é que os humanos continuam aprendendo ao longo da vida – não consideramos nossa “fase de treinamento” concluída na adolescência. “Um ser humano não é uma AGI... em vez disso, dependemos do aprendizado contínuo”, diz Sutskever, destacando que mesmo uma IA superinteligente pode precisar ser implantada mais como um prodigioso de 15 anos do que como um oráculo onisciente[18][19]. Tal IA teria uma base forte, mas “falta uma enorme quantidade de conhecimento” inicialmente – ela então aprenderia no trabalho em vários papéis, assim como um jovem brilhante sai ao mundo para se formar como médico ou engenheiro[19][20]. De fato, a visão de Sutskever de uma superinteligência segura não é explicitamente um modelo estático que “sabe como fazer todo trabalho”, mas um sistema que “pode aprender a fazer cada trabalho” e continua melhorando[20][21]. Em outras palavras, o verdadeiro sucesso da IA pode significar criar mestres do aprendizado, não apenas mestres de qualquer tarefa fixa.

Outro aspecto do aprendizado humano são nossos mecanismos de feedback embutidos. Humanos têm emoções e intuição que agem como um sinal de recompensa interno, nos guiando à medida que aprendemos novas habilidades. Sutskever relata um caso impressionante: um homem que perdeu a capacidade de sentir emoção (devido a danos cerebrais) tornou-se catastroficamente ruim em tomar decisões, tendo dificuldades até para escolher quais meias vestir[22][23]. Sem pistas emocionais, ele não tinha senso interno do que era importante. Isso sugere que nossos cérebros aproveitam um tipo de função de valor – uma estimativa contínua de quão bem as coisas estão indo – para aprender eficientemente e tomar decisões[24][25]. Em termos de aprendizado por reforço, não esperamos até o final de uma experiência para obter uma recompensa; geramos recompensas intrínsecas em etapas intermediárias (prazer, frustração, curiosidade, etc.), o que acelera enormemente o aprendizado. Sutskever argumenta que os algoritmos de RL atuais carecem dessa riqueza – muitas vezes esperam por uma pontuação final e, portanto, são extremamente ineficientes em tarefas de longo prazo[26][27]. “Se você está fazendo algo que dura muito tempo... não haverá aprendizado algum até [o final],” ele explica sobre RL ingênuo[28]. A solução é dar aos agentes de IA uma melhor noção de progresso – uma função de valor para encurtar os longos atrasos de feedback[29][30]. Incorporar esse tipo de feedback interno poderia tornar o treinamento muito mais eficiente. Sutskever até compara isso ao funcionamento das emoções para os humanos[31], chamando isso de uma direção promissora para “usar seu processamento de forma mais produtiva” do que tentativa e erro bruto[30]. Em suma, uma combinação de aprendizado contínuo e autossupervisão mais rica (sinais de valor) pode ser a chave para fechar a lacuna de generalização.

Percepção chave: Os modelos de IA atuais precisam de muito mais dados do que os humanos e ainda não são tão adaptáveis. Os humanos aprendem de forma eficiente ao reunir continuamente experiências e ao usar feedback interno (nossa função de valor "emocional") para guiar o aprendizado. Construir uma IA que aprenda de maneira interativa e incremental semelhante – e que possa avaliar seu próprio progresso – poderia melhorar dramaticamente a generalização[32][4].

Além do Pré-Treinamento: Rumo à Inteligência Experiencial

Essas percepções ressoam profundamente com nossa filosofia na Macaron AI. Muitas vezes, a resumimos em uma linha: A verdadeira inteligência aprende com a experiência real. Em vez de apostar apenas em modelos maiores ou conjuntos de dados offline mais extensos, a pesquisa da Macaron foca no aprendizado experiencial – treinando a IA através de interações ativas, feedback e memória de longo prazo, muito parecido com um humano adquirindo habilidades ao longo do tempo. Esta abordagem, que chamamos de Inteligência Experiencial, trata de modelos cujas capacidades crescem a partir da qualidade e diversidade das experiências que eles aprendem, não apenas da quantidade de dados que ingerem. É uma saída consciente da era de escalonamento cego. Como o próprio Sutskever enfatizou, simplesmente acumular mais dados ou parâmetros resulta em retornos decrescentes[2]; o próximo salto adiante virá de algoritmos que possam aprender mais com menos aproveitando as experiências certas.

Concretamente, a divisão de pesquisa Mind Lab da Macaron tem sido pioneira em técnicas para permitir aprendizado contínuo guiado por feedback em grandes modelos. Não descartamos nosso modelo base e pré-treinamos um novo do zero para cada atualização. Em vez disso, ampliamos modelos base fortes com pós-treinamento iterativo: aprendizado por reforço em tarefas reais, feedback humano no loop e integração de memória de longo prazo. Por exemplo, nossa equipe recentemente se tornou a primeira no mundo a realizar ajuste fino de alto desempenho em RL em um modelo open-source de 1 trilhão de parâmetros – usando adaptadores LoRA eficientes em termos de parâmetros – consumindo apenas ~10% do orçamento usual de GPU. Este foi um avanço na viabilidade de pós-treinamento em larga escala. Em essência, mostramos que dar a um modelo colossal novas experiências (e aprender com elas) pode ser feito de forma muito mais eficiente do que métodos ingênuos. O resultado? Em vez de apenas diminuir um pouco a perplexidade em dados estáticos, ensinamos novas habilidades ao modelo por meio de interação – e fizemos isso de maneira viável e econômica. (Notavelmente, disponibilizamos as técnicas por trás disso em código aberto e as contribuímos para frameworks de treinamento populares como o Megatron da NVIDIA e o VEGA da ByteDance, para que a comunidade em geral possa desenvolvê-las.)

Memória: Aprendendo a Esquecer Sabiamente

Outro pilar da abordagem do Macaron é a memória — não no sentido trivial de uma janela de histórico de chat, mas como um componente aprendido do modelo que acumula e organiza conhecimento ao longo do tempo. Os humanos não tratam todas as informações da mesma forma; nós lembramos de eventos importantes e prontamente esquecemos o resto. Essa capacidade de esquecer sabiamente é crucial para lidar com dependências de longo prazo sem sobrecarga. Inspirados por isso, nossos pesquisadores desenvolveram um sistema de memória inovador chamado Memory Diffusion. Diferente do cache ou recuperação forçada, o Memory Diffusion ensina o modelo como a informação deve evoluir ao longo de uma conversa ou histórico de uso. O modelo aprende a “difundir” detalhes irrelevantes e destacar os fatos relevantes conforme o contexto cresce. Empiricamente, esse método superou as bases de memória clássicas (como contexto de comprimento fixo ou recuperação heurística) na manutenção da coerência em longos horizontes. Mais intuitivamente, ele dá ao modelo uma espécie de memória de trabalho que prioriza o que importa — assim como seu cérebro rapidamente esquece os outdoors que você passou no caminho, mas retém para onde está indo e por quê. Ao permitir que o modelo aprenda quais sinais manter e quais deixar ir, acabamos com um sistema que pode levar adiante aprendizados importantes de uma tarefa para a próxima, permitindo um aprendizado contínuo. Este mecanismo de memória tornou-se uma peça-chave da arquitetura do agente do Macaron, junto com nossos avanços em raciocínio e uso de ferramentas. É outro exemplo de como favorecemos inteligência arquitetônica em vez de escala bruta: ao invés de apenas expandir uma janela de contexto para 1 milhão de tokens (o que é ineficiente), damos ao modelo uma forma de comprimir e relembrar o conhecimento de sua própria experiência de maneira inteligente.

Ciclos de Feedback do Mundo Real

Crucialmente, a pesquisa do Macaron não ocorre isoladamente do nosso produto. Acreditamos em um ciclo pesquisa↔produto estreito: melhorias no laboratório são diretamente validadas pela experiência do usuário, e insights do produto informam novas pesquisas. Por exemplo, o aplicativo de IA pessoal do Macaron registra ativamente feedbacks anonimizados sobre onde as respostas da IA falham ou quando os usuários parecem insatisfeitos. Esses sinais alimentam nosso treinamento de aprendizado por reforço como um sinal de recompensa adicional. Descobrimos que treinar com feedback real dos usuários frequentemente resulta em ganhos maiores de capacidade do que simplesmente adicionar mais textos da internet ao pré-treinamento. Isso está alinhado com a observação de Sutskever de que o que você treina pode importar mais do que quanto — uma pequena quantidade de experiência direcionada pode ensinar ao modelo algo que bilhões de tokens estáticos não poderiam[7]. Ao fechar o ciclo entre implantação e pesquisa, garantimos que nossa IA realmente melhore nas tarefas que as pessoas valorizam. Nos termos de Sutskever, estamos dando aos nossos modelos o "fator X" que vem de experimentar o mundo, não apenas memorizá-lo.

Convergência: Um Novo Paradigma para IA

É encorajador ver um consenso crescente entre os líderes de IA de que o aprendizado contínuo e experiencial é o caminho a seguir. A visão de Sutskever de uma superinteligência que aprende como um humano – de forma constante e adaptativa – é precisamente o caminho que a Macaron tem seguido. Não estamos sozinhos nessa mudança. A recente estratégia Pathways do Google, por exemplo, também defende treinar um modelo em várias tarefas e modalidades para que ele possa aprender novas habilidades ao longo do tempo, indo além dos modelos de propósito único. E pesquisadores como Jason Wei e Jeff Dean discutiram a necessidade de arquiteturas que possam acumular conhecimento de forma incremental e eficiente, em vez de depender exclusivamente de enormes execuções de treinamento únicas. Isso representa um movimento mais amplo da indústria em direção ao que pode ser chamado de “IA centrada no aprendizado” (em oposição à IA centrada no modelo de hoje). Nesse novo paradigma, a questão se torna: Quão rapidamente uma IA pode adquirir uma nova habilidade ou se adaptar a uma nova situação? – em vez de quantos parâmetros ela tem ou quanta informação foi usada para treiná-la previamente. Por essa medida, os humanos ainda mantêm a coroa. Mas a diferença está diminuindo.

Na Macaron AI, nossa aposta é que a Inteligência Experiencial – IA que aprende com experiências reais – desbloqueará a próxima onda de desempenho e confiabilidade. Já estamos vendo provas: nossos modelos treinados com aprendizado por reforço e feedback humano não apenas estão se saindo melhor em benchmarks, mas, mais importante, eles parecem mais alinhados com as necessidades dos usuários na prática. Eles cometem menos erros absurdos e se recuperam de falhas de forma mais elegante, porque seu treinamento os ensinou a perceber e corrigir erros (como um humano faria). Nossos mecanismos de memória também lhes dão continuidade que os transformadores puros não têm, permitindo que uma conversa ou tarefa continue ao longo de meses sem reiniciar. Todas essas vantagens decorrem de tratar a inteligência como um processo, não como um artefato estático. Como Sutskever mencionou, uma IA implantada pode passar por um “período de aprendizado por tentativa e erro” durante a implantação – e isso é uma característica, não um defeito, desde que seja controlado e alinhado.

Alinhamento, é claro, é fundamental quando falamos sobre aprendizado autônomo de IA. Curiosamente, Sutskever sugeriu que pode ser até mais fácil alinhar uma IA que realmente aprende e entende ao longo do tempo – potencialmente uma que valoriza a vida senciente e pode modelar o mundo e os outros de forma empática – do que alinhar um supergênio estático que foi treinado a portas fechadas[33]. Se uma IA cresce interagindo com humanos, há uma oportunidade de incutir valores humanos ao longo de seu desenvolvimento (e observar e corrigir erros). Isso ecoa nossa visão de que transparência e implantação gradual são essenciais para uma IA segura. A plataforma do Macaron, ao engajar diretamente os usuários e aprender com eles, fornece um ambiente natural para essa abordagem incremental. Intencionalmente, lançamos novas capacidades de aprendizado em etapas, monitorando o comportamento e coletando feedback, em vez de liberar um modelo caixa-preta treinado em um vácuo. Em suma, o aprendizado experiencial não apenas torna a IA mais inteligente – ele também pode torná-la mais segura e mais alinhada com os humanos.

Conclusão: Abraçando a Inteligência Experiencial

Tanto a perspectiva visionária de Ilya Sutskever quanto a jornada de desenvolvimento do Macaron apontam para a mesma conclusão: o próximo avanço da IA será um mestre aprender, não apenas um memorista maior. Uma IA que pode aprender com a experiência, internalizar feedback, lembrar e se adaptar a longo prazo – essencialmente, uma IA que pode crescer – é aquela que pode generalizar para a complexidade do mundo real. Isso representa uma mudança profunda de mentalidade em relação aos anos anteriores: não se trata apenas de quanto conhecimento o modelo possui inicialmente, mas de quão efetivamente ele pode adquirir novos conhecimentos. O “adolescente superinteligente de 15 anos” imaginado por Sutskever encapsula essa ideia. No Macaron, estamos trabalhando para construir esse tipo de IA que aprende continuamente, lado a lado com nossa comunidade de usuários.

As implicações da aprendizagem contínua e experiencial em IA são vastas. Tecnicamente, isso significa maior eficiência de amostra – fazer mais com menos – e modelos que podem se adaptar rapidamente a qualquer domínio ou distribuição. Economicamente, promete trabalhadores de IA que podem ser requalificados instantaneamente, acelerando imensamente a inovação e produtividade (Sutskever prevê potencialmente rápido crescimento uma vez que tal IA se prolifere[34][35]). E para a sociedade, isso significa sistemas de IA mais compreensíveis, porque veremos eles aprenderem e podemos moldar seu desenvolvimento, em vez de recebermos um enigma totalmente formado.

Alcançar isso não será fácil. Exige avanços em algoritmos, sistemas e nossa compreensão teórica da aprendizagem. No entanto, as peças estão se juntando: de funções de valor e RL avançado a arquiteturas de memória permanente e treinamento com humanos no loop. À medida que integramos essas peças, nos aproximamos de uma IA que realmente pensa e aprende rapidamente. Este é o ethos que impulsiona a pesquisa da Macaron, e se alinha de perto com a visão articulada por líderes como Sutskever. A era do escalonamento nos ensinou muito, mas a era da Inteligência Experiencial está agora surgindo. Nesta nova era, a fronteira não é apenas modelos maiores – são aprendizes mais inteligentes, mais adaptáveis, mais semelhantes aos humanos. E é exatamente isso que estamos nos esforçando para construir.

Fontes:

· Entrevista de Ilya Sutskever com Dwarkesh Patel (novembro de 2025) – Dwarkesh Podcast: “Mudando da Era da Escala para a Era da Pesquisa.” Destaques disponíveis no blog de Dwarkesh[1][4][18][19].

· Resumo dos principais pontos de Sutskever pelo Best of AI digest[36].

· Observação de LeCun sobre a eficiência da condução humana (referenciada por Sutskever)[12].

· Macaron AI Mind Lab – Relatórios internos de pesquisa sobre Inteligência Experiencial e Memória (2025).

· Contribuições de código aberto da Macaron AI em treinamento RL em larga escala (integração Megatron-Bridge & VEGA, 2025).

[1] [2] [3] [4] [5] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [32] [34] [35] Ilya Sutskever – Estamos passando da era de escalonamento para a era de pesquisa

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] Forças Motrizes em IA: Escalando até 2025 e Além (Jason Wei, OpenAI) por Melhores artigos de IA explicados

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron