
Autor: Boxu Li
Após uma década dominada pelo pré-treinamento em larga escala, a comunidade de IA está entrando no que alguns chamam de “segunda metade” do desenvolvimento da IA[1][2]. Na primeira metade, o progresso foi impulsionado por novas arquiteturas de modelos e métodos de treinamento que incansavelmente alcançaram benchmarks[3] – de convnets e LSTMs a Transformers – todos otimizados via aprendizado supervisionado ou auto-supervisionado em conjuntos de dados estáticos. Mas hoje, modelos de ponta como o GPT-4 essencialmente saturaram muitos benchmarks, e simplesmente aumentar dados e parâmetros oferece retornos decrescentes[2]. Essa mudança provocou uma reavaliação de como alcançamos mais inteligência e utilidade da IA.
Um consenso emergente é que o Reinforcement Learning (RL) terá um papel desproporcional nesta próxima fase. O RL há muito é considerado o “objetivo final” da IA – uma estrutura poderosa o suficiente para eventualmente vencer em tarefas arbitrárias otimizando recompensas de longo prazo[4]. De fato, é difícil imaginar sistemas sobre-humanos como AlphaGo ou AlphaStar sem o RL em seu núcleo[4]. Agora, com grandes modelos pré-treinados como base, muitos pesquisadores argumentam que “o pré-treinamento acabou” – os avanços futuros virão de pós-treinamento desses modelos em ambientes interativos via RL. Como colocou um ensaio recente, uma vez que temos modelos pré-treinados massivos (os “pré-requisitos”) e ambientes adequados, “o algoritmo de RL pode ser a parte mais trivial” de construir agentes avançados[5]. Em outras palavras, já assamos o bolo com o pré-treinamento; o reinforcement learning é a chave para cobri-lo com raciocínio e agência.
Shunyu Yao, em The Second Half, articula este ethos. Ele observa que a IA moderna já fornece uma “receita de trabalho” – pré-treinamento de grandes modelos de linguagem + escalonamento + raciocínio – que pode resolver muitas tarefas sem novos algoritmos [2][6]. Assim, o jogo mudou: simplesmente inventar outra arquitetura não trará os avanços que trazia antes. Em vez disso, devemos focar em avaliação e ambientes – essencialmente, em tarefas que forcem a IA a realmente pensar e agir, não apenas prever o próximo token [7][8]. E isso inevitavelmente significa usar RL. Yao chama o RL de “o endgame da IA” e argumenta que agora que temos os ingredientes certos (poderosos pré-treinamentos, além de ambientes mais ricos com linguagem e ferramentas), “a receita está mudando completamente o jogo” nesta segunda metade [1]. Devemos esperar uma mudança de benchmarks estáticos para tarefas interativas, e de avaliações únicas para aprendizado contínuo no mundo real. Em resumo, o aprendizado por reforço está se tornando central para como avançamos a IA daqui para frente.
Por que o foco renovado em RL? Simplificando, o aprendizado por reforço permite capacidades que o aprendizado supervisionado sozinho não pode facilmente alcançar. Os Grandes Modelos de Linguagem (LLMs) são um exemplo disso. Um transformador como o GPT-4, pré-treinado em textos da internet, adquire uma quantidade tremenda de conhecimento e reconhecimento de padrões linguísticos – ainda assim, por si só, ele carece de verdadeira agência. O pré-treinamento ensina “como falar”, mas não necessariamente quais decisões tomar em um ambiente interativo. Em contraste, o RL pode ensinar uma IA quais objetivos perseguir e como tomar ações para alcançá-los, maximizando recompensas que refletem esses objetivos. Essa mudança de prever passivamente para experimentar ativamente e receber feedback é crucial para raciocínio, planejamento e alinhamento.
Trabalhos recentes sobre agentes baseados em LLM demonstram como o RL desbloqueia novos níveis de desempenho. Por exemplo, o modelo de código aberto Kimi K2 foi ajustado de ponta a ponta com aprendizado por reforço, que 「ensina o modelo a planejar, reagir e autocorrigir-se através de cadeias longas de raciocínio em vez de depender apenas do pós-treinamento supervisionado」[9]. Através do RL, o K2 adquiriu padrões de raciocínio autônomo – ele aprende a verificar fatos, iterar sobre hipóteses e permanecer cauteloso mesmo quando uma questão parece fácil[10]. O resultado é um modelo que não apenas regurgita dados de treinamento, mas descobre ativamente como resolver problemas novos. Da mesma forma, o projeto K2 enfatiza a confiabilidade: o agente prefere verificar respostas antes de finalizá-las, refletindo uma tendência treinada por RL de maximizar a correção em detrimento da velocidade[11]. Em essência, o aprendizado por reforço imbuído no modelo cria um “ciclo agente” interno de planejamento e reflexão, movendo-o além dos limites da previsão do próximo token.
Também vemos esse padrão em outros sistemas avançados. A própria melhoria do ChatGPT do GPT-3 ocorreu em grande parte por meio do Aprendizado por Reforço com Feedback Humano (RLHF). Após o pré-treinamento do modelo em texto, a OpenAI o ajustou com feedback humano e modelos de recompensa, o que melhorou dramaticamente sua utilidade e adesão às instruções. John Schulman – um dos principais pesquisadores do ChatGPT – descreve esse processo: testadores humanos forneceram um sinal de recompensa que tornou o modelo muito melhor em manter conversas coerentes, permanecer no foco e evitar saídas indesejadas[12]. Em outras palavras, RLHF alinhou o modelo com as preferências humanas e normas de conversação. Esta técnica se tornou um padrão de fato para transformar LLMs brutos em assistentes úteis. Como observa um artigo da WIRED, o aprendizado por reforço é agora um método “cada vez mais popular” para ajustar modelos dando-lhes recompensas baseadas em feedback para otimizar[13]. Seja para fazer um chatbot seguir instruções ou para imbuir um grande modelo com habilidades de resolução de problemas, o RL é a ferramenta de escolha uma vez que o pré-treinamento fez tudo o que podia.
A importância do RL vai além do simples ajuste fino para a polidez; trata-se de ensinar modelos a tomar decisões. Um recente blog técnico do Macaron AI’s Mind Labs resumiu isso: “À medida que os LLMs evoluem além do pré-treinamento em direção ao aprendizado experiencial, o Aprendizado por Reforço emergiu como a chave para desbloquear capacidades avançadas de raciocínio.”[14] Em vez de tratar o RL como uma reflexão tardia, projetos de ponta o tratam como um “pilar de design de primeira classe para comportamento agêncico, não apenas um passo final de polimento”[15]. Em termos práticos, isso significa treinar sistemas de IA colocando-os em ambientes simulados ou reais onde devem agir, receber feedback e melhorar – seja um agente LLM navegando em ferramentas ou um robô aprendendo a se locomover. Aprendizado experiencial através de RL é como a IA adquirirá habilidades que não podem ser capturadas em conjuntos de dados estáticos.
É revelador que novos laboratórios de IA estejam se formando em torno dessa filosofia. Thinking Machines Lab, uma startup fundada por ex-líderes da OpenAI, acaba de ser lançada com uma avaliação inicial massiva de $2 bilhões para construir ferramentas para ajustar modelos de ponta via RL e outras técnicas. Seu produto principal, “Tinker”, visa automatizar o ajuste com RL de grandes modelos, apostando que capacitar muitas pessoas a “extrair novas habilidades de grandes modelos aproveitando o aprendizado por reforço” será a próxima grande novidade em IA[16][17]. Da mesma forma, a Macaron AI (uma nova iniciativa de pesquisa) está desenvolvendo otimizadores RL personalizados e infraestrutura para escalar RL para modelos com trilhões de parâmetros[18][19]. Esforços como esses destacam uma tendência mais ampla: a comunidade de IA vê uma enorme oportunidade no RL para levar os modelos a novas fronteiras – seja tornando-os mais capazes de usar ferramentas e raciocinar (como com os agentes Kimi K2 e Macaron) ou mais alinhados e personalizados (como com ChatGPT e Tinker). Em suma, o RL agora é visto como uma tecnologia chave para realizar todo o potencial dos modelos de base construídos na última década.

Talvez a razão mais convincente para a crescente proeminência do RL seja seu sucesso em resolver problemas além do sandbox de conjuntos de dados estáticos – muitas vezes alcançando feitos que estavam fora de alcance por muito tempo. Os marcos nos jogos foram a primeira prova dramática: AlphaGo, AlphaZero do DeepMind e Five da OpenAI conquistaram o Go, xadrez e até jogos de vídeo complexos através do aprendizado por reforço profundo. Esses sistemas demonstraram que, dado uma recompensa bem definida (como vencer um jogo), os agentes de RL podem superar campeões humanos por meio de prática e otimização intensiva[4]. Notavelmente, a vitória do OpenAI Five sobre a equipe campeã mundial de Dota-2 em 2019 foi alcançada treinando puramente via RL de auto-jogo em uma escala sem precedentes – mostrando o “poder surpreendente” dos algoritmos de RL atuais quando é fornecida experiência suficiente[20]. Esse projeto destacou tanto o potencial quanto os desafios do RL: exigiu simulação massiva (equivalente a centenas de anos de jogo) e engenharia engenhosa para funcionar, mas funcionou, produzindo trabalho em equipe e estratégias além do que qualquer IA baseada em regras poderia fazer.
Crucialmente, o RL não está mais confinado a jogos. Uma conquista marcante em 2022 viu o DeepMind usar RL profundo para controlar um plasma de fusão nuclear em tempo real, algo anteriormente impossível com controladores manuais. Treinando em um simulador e depois implantando em um reator tokamak, seu agente aprendeu a manipular bobinas magnéticas para conter o plasma, conseguindo aprender a estabilizar uma reação de fusão autonomamente[21]. Isso demonstrou como o RL pode lidar com problemas de controle dinâmico e de alta dimensão em física – abrindo novos caminhos para a pesquisa científica que depende de decisões sequenciais precisas[21].
Outro domínio onde o RL está mostrando seu valor no mundo real é a interação multiagente e teoria dos jogos. Um exemplo marcante é o CICERO da Meta, a primeira IA a alcançar desempenho em nível humano no jogo Diplomacia, que exige negociação e formação de alianças entre vários jogadores. O CICERO combina um LLM para linguagem com um módulo de planejamento treinado em RL; ele deve elaborar estratégias, modelar as intenções de outros jogadores e dialogar de forma persuasiva. O resultado foi um avanço – o CICERO conseguiu cooperar e competir efetivamente com humanos, mesmo na presença de mentiras e blefes. Como observadores notaram, é “a primeira IA a alcançar desempenho em nível humano no Diplomacia, um jogo de estratégia que requer confiança, negociação e cooperação com múltiplos jogadores.”[22] Isso vai além das táticas de jogos de tabuleiro; sugere que agentes de RL podem lidar com estratégia social e ambientes dinâmicos teóricos dos jogos. Tais capacidades são essenciais para IA que um dia poderá navegar em economias, negociações ou decisões organizacionais complexas.
Finalmente, e talvez de forma mais dramática, o RL está aventurando-se completamente fora da Terra. No ano passado, pesquisadores alcançaram o que só pode ser descrito como ficção científica tornada real: satélites e robôs autônomos em órbita controlados por aprendizado por reforço. Em um experimento do Laboratório de Pesquisa Naval dos EUA na Estação Espacial Internacional, um algoritmo de RL (treinado em simulação) assumiu o controle de um robô voador Astrobee e executou com sucesso manobras autônomas em microgravidade[23][24]. A equipe do NRL destacou que este é “o primeiro controle robótico autônomo no espaço usando algoritmos de aprendizado por reforço”, e isso aumenta a confiança de que o RL pode lidar com as condições implacáveis das operações espaciais[23]. Mais recentemente, em 30 de outubro de 2025, uma equipe da Universidade de Würzburg alcançou um primeiro teste em órbita mundial: seu pequeno satélite InnoCube executou uma manobra de alinhamento de atitude totalmente sob o controle de um agente RL a bordo[25][26]. Como o pesquisador principal colocou, “conseguimos a primeira prova prática mundial de que um controlador de atitude de satélite treinado usando Deep Reinforcement Learning pode operar com sucesso em órbita.”[26] Este é um momento divisor de águas – o RL passou de simulações e laboratórios para controlar sistemas físicos no espaço. O controlador de IA aprendeu em um simulador de alta fidelidade e foi carregado no satélite, onde realizou tarefas de orientação precisas sem intervenção humana[27][28]. O processo usual de meses de ajuste manual do algoritmo de controle de um satélite foi substituído por um agente RL que pode se adaptar rapidamente[29]. Esses sucessos na robótica espacial destacam a capacidade do RL de produzir políticas que se adaptam e generalizam sob incertezas do mundo real – um passo fundamental em direção a veículos, drones e robôs mais autônomos aqui na Terra também.
Todos esses exemplos destacam um ponto crucial: o aprendizado por reforço está amadurecendo justamente quando mais precisamos dele. À medida que a IA avança para a “segunda metade”, onde o desafio não é apenas prever mas executar, o aprendizado por reforço oferece a estrutura para experimentação, adaptação e otimização de longo prazo. Diferentemente do aprendizado supervisionado, que está ligado a dados passados, o aprendizado por reforço permite que os sistemas aprendam com suas próprias experiências e melhorem por meio de tentativa e erro. Isso é essencial para qualquer IA que precise operar em situações não estruturadas e novas – seja um assistente resolvendo uma nova consulta de usuário ou um robô lidando com obstáculos inesperados.
Existem também implicações mais profundas sobre como medimos o progresso em IA. Não podemos mais depender apenas de benchmarks estáticos para avaliar a inteligência de um modelo. Em vez disso, os pesquisadores estão propondo novos métodos de avaliação que espelham o mundo real: tarefas contínuas, interações com humanos no loop e cenários não-i.i.d.[8][30]. Ao combinar tais ambientes ricos com treinamento RL, forçamos nossos modelos a desenvolver comportamentos mais robustos e generalizáveis. Nas palavras de Yao, a segunda metade será sobre criar agentes que quebrem o ciclo de benchmarks e realmente entreguem utilidade no mundo real[31][32]. A enxurrada de investimentos em laboratórios centrados em RL e a rápida adoção de RLHF na indústria refletem o reconhecimento de que agora é o momento de dar esse salto.
Dito isso, adotar o RL não vem sem desafios. O treinamento de RL pode ser instável e exigir muitos recursos (o treinamento custoso do OpenAI Five é um exemplo disso[20]). Muitas vezes, demanda simulações rápidas ou ambientes onde os erros são baratos – algo nem sempre disponível em domínios de alto risco. No entanto, também estão sendo feitos progressos nessas áreas. Novos algoritmos e frameworks (como as otimizações All-Sync RL com DAPO do Macaron) estão melhorando dramaticamente a eficiência do treinamento de RL em larga escala[19][33]. Técnicas como transferência sim2real, modelagem de recompensas e estratégias de exploração mais seguras estão ajudando os sistemas de RL a serem implementados sem falhas catastróficas[34][35]. Importante, a comunidade está aprendendo a misturar o RL com outros paradigmas – por exemplo, usando modelos de linguagem como críticos ou planejadores, usando demonstrações humanas para guiar o RL (um tipo de aprendizado por imitação híbrido), e mais. Essas abordagens híbridas frequentemente obtêm o melhor dos dois mundos: o conhecimento do pré-treinamento e a tomada de decisão do aprendizado por reforço.
Em conclusão, focar no aprendizado por reforço agora não é uma questão de moda por si só – é um reconhecimento de onde estão as necessidades e oportunidades. Estamos em um ponto em que nossos sistemas de IA têm vastas capacidades latentes (graças ao pré-treinamento), e a maneira de ativar essas capacidades é através do aprendizado direcionado por objetivos. Seja alinhando o comportamento da IA com os valores humanos, dotando robôs de verdadeira autonomia ou impulsionando a IA a resolver novos problemas científicos e de engenharia, o aprendizado por reforço fornece as ferramentas para refinar iterativamente e melhorar a IA através de feedback. Estamos testemunhando a transição de uma era de aprendizado passivo para uma de aprendizado ativo e execução. Como diz o ditado, “o que nos trouxe até aqui não nos levará adiante.” O trabalho pesado do aprendizado de representação pode ser amplamente realizado por modelos gigantes, mas transformar esses modelos em agentes úteis, adaptáveis e confiáveis – esse é o trabalho do aprendizado por reforço. Investindo agora em pesquisa e aplicações de aprendizado por reforço, estamos essencialmente enfrentando os problemas difíceis de frente: criando IA que pode pensar em etapas, explorar alternativas, se recuperar de erros e, finalmente, dominar tarefas abertas. Na grande trajetória da IA, essa mudança é tão significativa quanto a revolução do aprendizado profundo dos anos 2010. A segunda metade apenas começou, e o aprendizado por reforço está pronto para ser sua força motriz.
Referências:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] A Segunda Metade – Shunyu Yao – 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Apresentando o Kimi K2 Thinking | Blog
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] Exclusivo: O Laboratório Secreto de IA de Mira Murati Lança Seu Primeiro Produto | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] MIND LABS | Escalando RL Sincronizado Total com DAPO e LoRA
[18] Uma Análise Macaron: Modelo Kimi K2 “Thinking”: Avançando a IA Agente Aberta - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five derrota campeões mundiais de Dota 2 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] Acelerando a ciência da fusão através do controle de plasma aprendido - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: IA na Diplomacia e Relações | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] O Aprendizado por Reforço está Causando Impacto no Espaço > Laboratório de Pesquisa Naval dos EUA > Notícias da NRL
[25] [26] [27] [28] [29] Estreia Mundial no Espaço: IA de Würzburg Controla Satélite -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/