
Autor: Boxu Li
Después de una década dominada por el preentrenamiento a gran escala, la comunidad de IA está entrando en lo que algunos llaman la “segunda mitad” del desarrollo de IA[1][2]. En la primera mitad, el progreso fue impulsado por nuevas arquitecturas de modelos y métodos de entrenamiento que subían constantemente en los benchmarks[3], desde convnets y LSTMs hasta Transformers, todos optimizados mediante aprendizaje supervisado o auto-supervisado en conjuntos de datos estáticos. Pero hoy en día, modelos de frontera como GPT-4 han saturado esencialmente muchos benchmarks, y simplemente aumentar los datos y los parámetros produce rendimientos decrecientes[2]. Este cambio ha provocado un reexamen de cómo logramos una mayor inteligencia y utilidad de la IA.
Un consenso emergente es que el aprendizaje por refuerzo (RL) desempeñará un papel desproporcionado en esta próxima fase. Durante mucho tiempo, el RL ha sido considerado el “juego final” de la IA: un marco lo suficientemente poderoso como para ganar eventualmente en tareas arbitrarias optimizando recompensas a largo plazo[4]. De hecho, es difícil imaginar sistemas sobrehumanos como AlphaGo o AlphaStar sin RL en su núcleo[4]. Ahora, con grandes modelos preentrenados como base, muchos investigadores argumentan que “el preentrenamiento ha terminado”: los futuros avances vendrán de posentrenar estos modelos en entornos interactivos a través del RL. Como lo expresó un ensayo reciente, una vez que tengamos modelos preentrenados masivos (los “a priori”) y entornos adecuados, “el algoritmo de RL podría ser la parte más trivial” de construir agentes avanzados[5]. En otras palabras, hemos horneado el pastel con el preentrenamiento; el aprendizaje por refuerzo es la clave para decorarlo con razonamiento y agencia.
Shunyu Yao, en The Second Half, articula este ethos. Señala que la IA moderna ya proporciona una “receta de trabajo”: pre-entrenamiento de modelos de lenguaje grandes + escalado + razonamiento, que puede resolver muchas tareas sin nuevos algoritmos[2][6]. Así, el juego ha cambiado: simplemente inventar otra arquitectura no producirá los saltos que solía hacer. En cambio, debemos centrarnos en evaluación y entornos – esencialmente, en tareas que obliguen a la IA a realmente pensar y actuar, no solo predecir el siguiente token[7][8]. Y eso inevitablemente significa usar el RL. Yao llama al RL “el final del juego de la IA” y argumenta que ahora que tenemos los ingredientes correctos (prioridades poderosas del pre-entrenamiento, más entornos más ricos con lenguaje y herramientas), “la receta está cambiando completamente el juego” en esta segunda mitad[1]. Deberíamos esperar un giro de los puntos de referencia estáticos a tareas interactivas, y de evaluaciones de una sola vez a un aprendizaje continuo en el mundo real. En resumen, el aprendizaje por refuerzo se está volviendo central en cómo avanzamos la IA de aquí en adelante.
¿Por qué el renovado enfoque en RL? En pocas palabras, el aprendizaje por refuerzo permite capacidades que el aprendizaje supervisado por sí solo no puede alcanzar fácilmente. Los Modelos de Lenguaje a Gran Escala (LLMs) son un buen ejemplo. Un transformador como GPT-4, preentrenado con textos de internet, aprende una cantidad tremenda de conocimiento y reconocimiento de patrones lingüísticos, pero por sí solo aún carece de verdadera agencia. El preentrenamiento enseña “cómo hablar”, pero no necesariamente qué decisiones tomar en un entorno interactivo. En cambio, RL puede enseñar a una IA qué objetivos perseguir y cómo tomar acciones para lograrlos, maximizando las recompensas que reflejan esos objetivos. Este cambio de predecir pasivamente a experimentar activamente y recibir retroalimentación es crucial para razonamiento, planificación y alineación.
El trabajo reciente sobre agentes basados en LLM demuestra cómo el RL desbloquea nuevos niveles de rendimiento. Por ejemplo, el modelo de código abierto Kimi K2 fue ajustado de extremo a extremo con aprendizaje por refuerzo, lo cual “enseña al modelo a planificar, reaccionar y autocorregirse a través de largas cadenas de razonamiento en lugar de depender únicamente del post-entrenamiento supervisado”[9]. A través del RL, K2 adquirió patrones de razonamiento autónomos: aprende a verificar hechos, iterar sobre hipótesis y mantenerse cauteloso incluso cuando una pregunta parece fácil[10]. El resultado es un modelo que no solo regurgita datos de entrenamiento, sino que resuelve activamente cómo abordar problemas nuevos. De manera similar, el proyecto K2 enfatiza la fiabilidad: el agente prefiere verificar las respuestas antes de finalizarlas, reflejando una tendencia entrenada con RL para maximizar la corrección sobre la velocidad[11]. En esencia, el aprendizaje por refuerzo impregnó al modelo con un bucle interno “agente” de planificación y reflexión, llevándolo más allá de los límites de la predicción del siguiente token.
También vemos este patrón en otros sistemas avanzados. La propia mejora de ChatGPT desde GPT-3 se logró en gran parte a través del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Después de preentrenar el modelo con texto, OpenAI lo afinó con retroalimentación humana y modelos de recompensa, lo que mejoró drásticamente su utilidad y adherencia a las instrucciones. John Schulman, un investigador principal en ChatGPT, describe ese proceso: los evaluadores humanos proporcionaron una señal de recompensa que hizo que el modelo fuera mucho mejor en mantener conversaciones coherentes, permanecer en el tema y evitar resultados no deseados[12]. En otras palabras, RLHF alineó el modelo con las preferencias humanas y las normas conversacionales. Esta técnica se ha convertido en un estándar de facto para convertir los modelos de lenguaje grandes en asistentes útiles. Como señala un artículo de WIRED, el aprendizaje por refuerzo es ahora un método “cada vez más popular” para afinar modelos dándoles recompensas basadas en retroalimentación para optimizar[13]. Ya sea para hacer que un chatbot siga instrucciones o para dotar a un gran modelo de habilidades para resolver problemas, el aprendizaje por refuerzo es la herramienta elegida una vez que el preentrenamiento ha hecho todo lo que puede.
La importancia del RL va más allá de simplemente ajustar para la cortesía; se trata de enseñar a los modelos a tomar decisiones. Un reciente blog técnico de Macaron AI’s Mind Labs resumió esto: “A medida que los LLM evolucionan más allá del pre-entrenamiento hacia el aprendizaje experiencial, el Aprendizaje por Refuerzo ha surgido como la clave para desbloquear capacidades de razonamiento avanzadas.” [14] En lugar de tratar el RL como un pensamiento posterior, los proyectos de vanguardia lo tratan como un “pilar de diseño de primera clase para el comportamiento agente, no solo como un paso final de pulido” [15]. En términos prácticos, eso significa entrenar sistemas de IA colocándolos en entornos simulados o reales donde deben actuar, recibir retroalimentación y mejorar, ya sea un agente LLM navegando herramientas o un robot aprendiendo a navegar. El aprendizaje experiencial a través del RL es cómo la IA adquirirá habilidades que no pueden capturarse en conjuntos de datos estáticos.
Es revelador que nuevos laboratorios de IA se estén formando alrededor de esta filosofía. Thinking Machines Lab, una startup fundada por exlíderes de OpenAI, acaba de lanzarse con una enorme valoración inicial de $2 mil millones para crear herramientas para ajustar modelos de frontera mediante RL y otras técnicas. Su producto estrella “Tinker” tiene como objetivo automatizar el ajuste fino de modelos grandes mediante RL, apostando a que empoderar a muchas personas para “sacar nuevas habilidades de los modelos grandes aprovechando el aprendizaje por refuerzo” será la próxima gran novedad en IA[16][17]. Asimismo, Macaron AI (una nueva iniciativa de investigación) está diseñando optimizadores RL personalizados e infraestructura para escalar RL a modelos de un billón de parámetros[18][19]. Esfuerzos como estos destacan una tendencia más amplia: la comunidad de IA ve una gran oportunidad en el RL para llevar los modelos a nuevas fronteras, ya sea haciéndolos más capaces de usar herramientas y razonar (como con Kimi K2 y los agentes de Macaron) o más alineados y personalizados (como con ChatGPT y Tinker). En resumen, el RL ahora se considera una tecnología clave para realizar el potencial completo de los modelos de base construidos en la última década.

Quizás la razón más convincente para el creciente protagonismo del aprendizaje por refuerzo (RL) es su éxito en abordar problemas más allá del ámbito de los conjuntos de datos estáticos, logrando a menudo hazañas que antes eran inalcanzables. Los hitos en juegos fueron la primera prueba dramática: AlphaGo, AlphaZero de DeepMind y Five de OpenAI conquistaron el Go, el ajedrez e incluso videojuegos complejos mediante el aprendizaje por refuerzo profundo. Estos sistemas demostraron que, dado un premio bien definido (como ganar un juego), los agentes de RL pueden superar a los campeones humanos a través de pura práctica y optimización[4]. Notablemente, la victoria de OpenAI Five sobre el equipo campeón mundial de Dota-2 en 2019 se logró mediante el entrenamiento exclusivamente a través de RL de auto-juego a una escala sin precedentes, mostrando el “poder sorprendente” de los algoritmos RL actuales cuando se proporciona suficiente experiencia[20]. Ese proyecto destacó tanto el potencial del RL como sus desafíos: requirió simulación masiva (equivalente a cientos de años de juego) e ingeniería ingeniosa para funcionar, pero funcionó, produciendo trabajo en equipo y estrategias más allá de lo que cualquier IA basada en reglas podría hacer.
Lo crucial es que RL ya no está confinado a los juegos. Un logro histórico en 2022 vio a DeepMind usar RL profundo para controlar un plasma de fusión nuclear en tiempo real, algo previamente imposible con controladores manuales. Al entrenarse en un simulador y luego desplegarse en un reactor tokamak, su agente aprendió a manipular bobinas magnéticas para contener el plasma, logrando exitosamente aprender a estabilizar una reacción de fusión de manera autónoma[21]. Esto demostró cómo RL puede manejar problemas de control dinámico y de alta dimensión en física – abriendo nuevas vías para la investigación científica que depende de la toma de decisiones secuenciales precisas[21].
Otro dominio donde el RL está demostrando su valía en el mundo real es la interacción multiagente y la teoría de juegos. Un ejemplo notable es CICERO de Meta, la primera IA en lograr un rendimiento a nivel humano en el juego Diplomacy, que requiere negociación y formación de alianzas entre múltiples jugadores. CICERO combina un LLM para el lenguaje con un módulo de planificación entrenado con RL; debe idear estrategias, modelar las intenciones de otros jugadores y dialogar de manera persuasiva. El resultado fue un avance: CICERO logró cooperar y competir eficazmente con humanos, incluso en presencia de mentiras y faroles. Como señalaron los observadores, es “la primera IA en lograr un rendimiento a nivel humano en Diplomacy, un juego de estrategia que requiere confianza, negociación y cooperación con múltiples jugadores.”[22] Esto va más allá de las tácticas de juegos de mesa; sugiere que los agentes de RL pueden manejar estrategias sociales y entornos dinámicos de teoría de juegos. Tales capacidades son esenciales para una IA que algún día podría navegar por economías, negociaciones o decisiones organizacionales complejas.
Finalmente, y quizás de manera más dramática, el aprendizaje por refuerzo (RL) está aventurándose completamente fuera de la Tierra. En el último año, los investigadores han logrado lo que solo puede describirse como ciencia ficción hecha realidad: satélites y robots autónomos en órbita controlados por aprendizaje por refuerzo. En un experimento del Laboratorio de Investigación Naval de EE. UU. en la Estación Espacial Internacional, un algoritmo de RL (entrenado en simulación) tomó el control de un robot Astrobee de vuelo libre y realizó con éxito maniobras autónomas en microgravedad[23][24]. El equipo de NRL señaló que este es “el primer control robótico autónomo en el espacio usando algoritmos de aprendizaje por refuerzo”, y esto genera confianza en que RL puede manejar las implacables condiciones de las operaciones espaciales[23]. Más recientemente, el 30 de octubre de 2025, un equipo de la Universidad de Würzburg logró una primicia mundial en una demostración en órbita: su pequeño satélite InnoCube ejecutó una maniobra de alineación de actitud completamente bajo el control de un agente RL a bordo[25][26]. Como lo expresó el investigador principal, “hemos logrado la primera prueba práctica del mundo de que un controlador de actitud de satélite entrenado mediante Aprendizaje Profundo por Refuerzo puede operar con éxito en órbita.”[26] Este es un momento decisivo: RL ha pasado de simulaciones y laboratorios a controlar sistemas físicos en el espacio. El controlador de IA aprendió en un simulador de alta fidelidad y se cargó en el satélite, donde realizó tareas de orientación precisa sin intervención humana[27][28]. El proceso usual de varios meses de ajustar manualmente el algoritmo de control de un satélite fue reemplazado por un agente RL que puede adaptarse sobre la marcha[29]. Estos éxitos en robótica espacial destacan la capacidad de RL para producir políticas que se adaptan y generalizan bajo incertidumbre del mundo real, un paso clave hacia vehículos, drones y robots más autónomos aquí en la Tierra también.
Todos estos ejemplos destacan un punto crucial: El aprendizaje por refuerzo está alcanzando su madurez justo cuando más lo necesitamos. A medida que la IA avanza hacia la “segunda mitad”, donde el desafío no es solo predecir sino actuar, el aprendizaje por refuerzo proporciona el marco para experimentación, adaptación y optimización a largo plazo. A diferencia del aprendizaje supervisado, que está ligado a datos pasados, el aprendizaje por refuerzo permite que los sistemas aprendan de su propia experiencia y mejoren mediante prueba y error. Esto es esencial para cualquier IA que deba operar en situaciones no estructuradas y novedosas, ya sea un asistente resolviendo una nueva consulta de usuario o un robot enfrentándose a obstáculos inesperados.
También hay implicaciones más profundas sobre cómo medimos el progreso en la IA. Ya no podemos depender únicamente de los puntos de referencia estáticos para evaluar la inteligencia de un modelo. En su lugar, los investigadores están proponiendo nuevos esquemas de evaluación que reflejan el mundo real: tareas continuas, interacciones humano-en-el-bucle y escenarios no i.i.d.[8][30]. Al combinar tales entornos ricos con el entrenamiento en RL, forzamos a nuestros modelos a desarrollar comportamientos más robustos y generalizables. En palabras de Yao, la segunda mitad se tratará de crear agentes que rompan el ciclo del punto de referencia y realmente ofrezcan utilidad en el mundo real[31][32]. La avalancha de inversiones en laboratorios centrados en RL y la rápida adopción de RLHF en la industria reflejan un reconocimiento de que ahora es el momento de dar este salto.
Dicho esto, adoptar el aprendizaje por refuerzo (RL) no está exento de desafíos. El entrenamiento de RL puede ser inestable y consumir muchos recursos (el costoso entrenamiento de OpenAI Five es un ejemplo de ello[20]). A menudo requiere simulaciones rápidas o entornos donde los errores son baratos, algo que no siempre está disponible en dominios de alto riesgo. Sin embargo, también se están haciendo progresos en estos frentes. Nuevos algoritmos y marcos (como las optimizaciones All-Sync RL con DAPO de Macaron) están mejorando drásticamente la eficiencia del entrenamiento de RL a gran escala[19][33]. Técnicas como la transferencia sim2real, el modelado de recompensas y las estrategias de exploración más seguras están ayudando a los sistemas de RL a dar el salto a implementaciones reales sin fallos catastróficos[34][35]. Es importante destacar que la comunidad está aprendiendo a combinar el RL con otros paradigmas – por ejemplo, utilizando modelos de lenguaje como críticos o planificadores, usando demostraciones humanas para guiar el RL (una especie de aprendizaje por imitación híbrido) y más. Estos enfoques híbridos a menudo logran lo mejor de ambos mundos: el conocimiento del preentrenamiento y la toma de decisiones del aprendizaje por refuerzo.
En conclusión, centrarse en el aprendizaje por refuerzo ahora no es una cuestión de moda por sí misma, sino un reconocimiento de dónde están las necesidades y oportunidades. Nos encontramos en un punto donde nuestros sistemas de IA tienen vastas capacidades latentes (gracias al preentrenamiento), y la forma de activar esas capacidades es a través del aprendizaje dirigido por objetivos. Ya sea alineando el comportamiento de la IA con los valores humanos, dotando a los robots de verdadera autonomía o impulsando a la IA a resolver nuevos problemas científicos e ingenieriles, el aprendizaje por refuerzo proporciona las herramientas para refinar iterativamente y mejorar la IA mediante retroalimentación. Estamos presenciando la transición de una era de aprendizaje pasivo a una de aprendizaje activo y acción. Como dice el refrán, “lo que nos trajo aquí no nos llevará allí.” El arduo trabajo del aprendizaje de representación podría estar en gran parte hecho por modelos gigantes, pero convertir esos modelos en agentes útiles, adaptables y confiables es el trabajo del aprendizaje por refuerzo. Al invertir en investigación y aplicaciones de aprendizaje por refuerzo ahora, estamos esencialmente abordando los problemas difíciles de frente: hacer que la IA pueda pensar en pasos, explorar alternativas, recuperarse de errores y, en última instancia, dominar tareas abiertas. En la gran trayectoria de la IA, este cambio es tan significativo como la revolución del aprendizaje profundo de la década de 2010. La segunda mitad apenas ha comenzado, y el aprendizaje por refuerzo está listo para ser su fuerza impulsora.
Referencias:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] La Segunda Mitad – Shunyu Yao – 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Presentando Kimi K2 Thinking | Blog
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] Exclusiva: El laboratorio de IA encubierto de Mira Murati lanza su primer producto | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] MIND LABS | Escalando All-Sync RL con DAPO y LoRA
[18] Un análisis de Macaron: Modelo Kimi K2 “Thinking”: Avanzando la IA Agente Abierta - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five derrota a los campeones mundiales de Dota 2 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] Acelerando la ciencia de la fusión a través del control del plasma aprendido - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: IA en Diplomacia y Relaciones | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] El aprendizaje por refuerzo está causando sensación en el espacio > Laboratorio de Investigación Naval de EE.UU. > Noticias del NRL
[25] [26] [27] [28] [29] Estreno mundial en el espacio: la IA de Würzburg controla el satélite -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/