De la Escalabilidad a la Inteligencia Experiencial: La Visión de Ilya Sutskever y el Enfoque de Macaron

Autor: Boxu Li

El Fin de la Era de la “Escalabilidad” y un Regreso a la Investigación

En una conversación reciente con Dwarkesh Patel, Ilya Sutskever – cofundador de OpenAI y ahora jefe de la startup Safe Superintelligence (SSI) – reflexionó sobre el estado de la IA y hacia dónde se dirige. Sutskever sostiene que la industria de la IA está superando la era de "simplemente hacerlo más grande" y regresando a una etapa de investigación fundamental. Aproximadamente entre 2012 y 2020, el progreso del aprendizaje profundo fue impulsado por nuevas ideas (la "era de la investigación"), seguido por el enfoque de 2020-2025 en escalar datos y parámetros (la "era del escalado"). Pero ahora, simplemente aumentar el tamaño del modelo o del conjunto de datos está generando rendimientos decrecientes. Como Sutskever lo expresa sin rodeos, "si simplemente multiplicas por 100 la escala, [no] todo se transformaría... es volver a la era de la investigación, solo que con grandes computadoras." En otras palabras, los futuros avances no vendrán del escalado a fuerza bruta, sino de nuevas recetas de entrenamiento y algoritmos más inteligentes.

Un problema central que motiva este cambio es lo que Sutskever llama la brecha de generalización. Los modelos grandes actuales pueden sobresalir en pruebas de referencia y, sin embargo, tropezar en tareas prácticas, un paradoja cada vez más evidente. “Estos modelos de alguna manera simplemente generalizan dramáticamente peor que las personas. Es muy obvio. Parece algo muy fundamental”, señala Sutskever[4]. Los modelos que obtienen las mejores calificaciones en competencias de codificación o exámenes de lenguaje aún pueden cometer errores extraños, repitiendo la misma corrección de errores una y otra vez, o fallando en decisiones de sentido común simples, algo que ningún humano competente haría[4][5]. Esto destaca una fragilidad: las redes neuronales no comprenden verdaderamente ni se adaptan con la misma robustez que los humanos, a pesar de sus impresionantes habilidades limitadas. Como explica un resumen de la charla de Sutskever, aunque hemos construido modelos que se desempeñan bien en evaluaciones, su fiabilidad en el mundo real sigue siendo “una fragilidad evidenciada por ... alto rendimiento en evaluaciones contrastado con errores en el mundo real.”[6]

¿Por qué los modelos actuales fallan en la generalización? Sutskever sugiere que es en parte un artefacto de nuestro paradigma de entrenamiento. En la era del pre-entrenamiento a gran escala, simplemente alimentamos al modelo con todo (texto a escala de internet) y esperamos que la amplitud de datos generara capacidades amplias. Lo hizo, hasta cierto punto. Pero después del pre-entrenamiento, las empresas ajustan los modelos con aprendizaje por refuerzo (RL) en puntos de referencia específicos o instrucciones de usuario. Sutskever sospecha que esta etapa de RL a menudo sobrespecializa los modelos para hacer bien las pruebas en lugar de mejorar genuinamente su comprensión[7]. En su conversación, ofrece una analogía vívida: un “estudiante” (análogo a un modelo de IA) pasa 10,000 horas practicando problemas de programación competitiva y se convierte en un experto en concursos de codificación, mientras que otro estudiante practica de manera más modesta y se enfoca en una intuición más amplia de la informática[8][9]. El primero podría ganar competencias, pero el segundo termina siendo un ingeniero más versátil en el mundo real. Los modelos actuales son como el especialista sobrepreparado: sobresalen en las condiciones estrechas para las que fueron afinados, pero carecen del “factor X” que tienen los humanos para adaptar habilidades a problemas nuevos y desordenados[10][11]. En resumen, nuestras IA aún no han logrado la robusta y fluida generalización que los humanos adquirimos a través de una vida de experiencias.

Por qué los humanos aprenden mejor: eficiencia de muestra y aprendizaje continuo

Un tema importante en la discusión de Sutskever es la eficiencia de muestra del aprendizaje humano. Los humanos necesitan sorprendentemente pocos datos para aprender tareas complejas. Por ejemplo, Yann LeCun ha señalado que un adolescente puede aprender a conducir un coche con quizás 10 horas de práctica, un conjunto de datos increíblemente pequeño según los estándares de la IA[12]. Los niños pequeños aprenden a reconocer coches (y miles de otros conceptos) simplemente con la exposición diaria[12]. En contraste, los modelos de IA actuales a menudo requieren conjuntos de entrenamiento enormes y aún no pueden igualar la flexibilidad humana. Sutskever señala que la evolución nos preprograma con algunos sesgos inductivos útiles, por ejemplo, millones de años de visión y locomoción han moldeado nuestros cerebros, pero eso por sí solo no es toda la historia[13][12]. Incluso en dominios no afinados por la evolución (como la lectura, las matemáticas o la programación), los humanos superan rápidamente a los algoritmos actuales[14][15]. Esto sugiere que “sea lo que sea que hace que las personas sean buenas aprendiendo” va más allá del conocimiento innato: tenemos un algoritmo de aprendizaje fundamentalmente más eficiente[14][15].

¿Cuál podría ser ese algoritmo? Una pista, argumenta Sutskever, es que los humanos aprenden continuamente e interactivamente, no de una sola vez. No ingerimos terabytes de texto y luego congelamos nuestros cerebros; en su lugar, aprendemos de la experiencia continua, actualizando constantemente nuestro conocimiento. Señala que una persona de 15 años tiene un ingreso total de datos mucho menor que el corpus de un modelo de lenguaje grande, y sin embargo, a los 15 logramos una comprensión más profunda y cometemos muchos menos errores evidentes[16][17]. La diferencia es que los humanos siguen aprendiendo a lo largo de la vida; no consideramos que nuestra “fase de entrenamiento” termine en la adolescencia. “Un ser humano no es una AGI… en su lugar, confiamos en el aprendizaje continuo,” dice Sutskever, destacando que incluso una IA superinteligente podría necesitar ser desplegada más como un prodigio de 15 años que como un oráculo que todo lo sabe[18][19]. Tal IA tendría una base sólida pero “carece de una enorme cantidad de conocimiento” inicialmente, y luego aprendería sobre la marcha en varios roles, tal como un joven brillante sale al mundo para formarse como médico o ingeniero[19][20]. De hecho, la visión de Sutskever de una superinteligencia segura es explícitamente no un modelo estático que “sabe cómo hacer cada trabajo”, sino un sistema que “puede aprender a hacer cada trabajo” y sigue mejorando[20][21]. En otras palabras, el verdadero éxito de la IA puede significar crear maestros del aprendizaje, no solo maestros de cualquier tarea fija.

Otro aspecto del aprendizaje humano son nuestros mecanismos de retroalimentación internos. Los humanos tienen emociones e intuición que actúan como una señal de recompensa interna, guiándonos mientras aprendemos nuevas habilidades. Sutskever relata un caso impactante: un hombre que perdió la capacidad de sentir emociones (debido a un daño cerebral) se volvió catastróficamente malo en la toma de decisiones, luchando incluso para elegir qué calcetines ponerse[22][23]. Sin señales emocionales, no tenía un sentido interno de lo que importaba. Esto sugiere que nuestros cerebros utilizan una especie de función de valor – una estimación continua de cómo van las cosas – para aprender eficientemente y tomar decisiones[24][25]. En términos de aprendizaje por refuerzo, no esperamos hasta el final de una experiencia para recibir una recompensa; generamos recompensas intrínsecas en pasos intermedios (placer, frustración, curiosidad, etc.), lo que acelera enormemente el aprendizaje. Sutskever argumenta que los algoritmos de RL actuales carecen de esta riqueza: a menudo esperan una puntuación final y, por lo tanto, son extremadamente ineficientes en tareas de horizonte largo[26][27]. “Si estás haciendo algo que dura mucho tiempo… no aprenderá nada hasta [el final],” explica sobre el RL ingenuo[28]. La solución es dar a los agentes de IA un mejor sentido del progreso – una función de valor para acortar los largos retrasos en la retroalimentación[29][30]. Incorporar tal retroalimentación interna podría hacer que el entrenamiento sea mucho más eficiente. Sutskever incluso lo compara con cómo funcionan las emociones para los humanos[31], llamándolo una dirección prometedora para “usar tu computación de manera más productiva” que el ensayo y error a fuerza bruta[30]. En resumen, una combinación de aprendizaje continuo y una auto-supervisión más rica (señales de valor) podría ser la clave para cerrar la brecha de generalización.

Idea clave: Los modelos de IA actuales necesitan mucho más datos que los humanos y aún no son tan adaptables. Los humanos aprenden de manera eficiente al reunir continuamente experiencias y utilizar retroalimentación interna (nuestra función de valor “emocional”) para guiar el aprendizaje. Construir una IA que aprenda de manera similar, interactiva e incremental, y que pueda juzgar su propio progreso, podría mejorar drásticamente la generalización[32][4].

Más allá del preentrenamiento: hacia la inteligencia experiencial

Estos insights resuenan profundamente con nuestra filosofía en Macaron AI. A menudo lo destilamos en una línea: La inteligencia real aprende de la experiencia real. En lugar de apostar únicamente por modelos más grandes o conjuntos de datos offline más extensos, la investigación de Macaron se centra en el aprendizaje experiencial – entrenar la IA a través de interacciones activas, retroalimentación y memoria a largo plazo, muy parecido a cómo un humano adquiere habilidades con el tiempo. Este enfoque, que llamamos Inteligencia Experiencial, se trata de modelos cuyas capacidades crecen a partir de la calidad y diversidad de experiencias de las que aprenden, y no solo de la cantidad de datos que ingieren. Es un alejamiento consciente de la era de la escalada ciega. Como el mismo Sutskever enfatizó, simplemente acumular más datos o parámetros resulta en rendimientos decrecientes[2]; el próximo gran avance vendrá de algoritmos que puedan aprender más con menos al aprovechar las experiencias adecuadas.

Concretamente, la división de investigación Mind Lab de Macaron ha estado a la vanguardia de las técnicas para habilitar el aprendizaje continuo y basado en retroalimentación en modelos grandes. No desechamos nuestro modelo base y preentrenamos uno nuevo desde cero para cada actualización. En su lugar, extendemos los modelos base robustos con post-entrenamiento iterativo: aprendizaje por refuerzo en tareas reales, retroalimentación humana en el proceso y la integración de memoria a largo plazo. Por ejemplo, nuestro equipo se convirtió recientemente en el primero en el mundo en ejecutar un ajuste fino de alto rendimiento de RL en un modelo de 1 billón de parámetros de código abierto, utilizando adaptadores eficientes de parámetros LoRA, consumiendo solo el ~10% del presupuesto habitual de GPU. Esto fue un avance en hacer factible el post-entrenamiento a gran escala. En esencia, demostramos que darle a un modelo colosal nuevas experiencias (y aprender de ellas) se puede hacer de manera mucho más eficiente que con métodos ingenuos. ¿El resultado? En lugar de simplemente lograr una leve reducción en la perplejidad sobre datos estáticos, enseñamos al modelo nuevas habilidades a través de la interacción, y lo hicimos de una manera manejable y rentable. (Notablemente, hemos hecho de código abierto las técnicas detrás de esto y las hemos contribuido a marcos de entrenamiento populares como Megatron de NVIDIA y VEGA de ByteDance, para que la comunidad en general pueda construir sobre ellas.)

Memoria: Aprender a Olvidar Sabiamente

Otro pilar del enfoque de Macaron es la memoria: no en el sentido trivial de una ventana de historial de chat, sino como un componente aprendido del modelo que acumula y selecciona conocimientos con el tiempo. Los humanos no tratamos cada entrada por igual; recordamos eventos importantes y olvidamos fácilmente el resto. Esta habilidad para olvidar sabiamente es crucial para manejar dependencias a largo plazo sin sobrecarga. Inspirados por esto, nuestros investigadores desarrollaron un nuevo sistema de memoria llamado Memory Diffusion. A diferencia de la caché o recuperación de fuerza bruta, Memory Diffusion enseña al modelo cómo la información debe evolucionar durante una conversación larga o un historial de uso. El modelo aprende a "difundir" los detalles irrelevantes y a afinar los hechos relevantes a medida que el contexto crece. Empíricamente, este método ha superado a las bases de memoria clásicas (como el contexto de longitud fija o la recuperación heurística) en el mantenimiento de la coherencia a largo plazo. De manera más intuitiva, le da al modelo una especie de memoria de trabajo que prioriza lo que importa, al igual que tu cerebro olvida rápidamente las vallas publicitarias que pasaste en tu camino, pero retiene hacia dónde te diriges y por qué. Al permitir que el modelo aprenda qué señales conservar y cuáles dejar ir, terminamos con un sistema que puede llevar aprendizajes importantes de una tarea a otra, permitiendo un aprendizaje más continuo. Este mecanismo de memoria se ha convertido en una pieza clave de la arquitectura del agente de Macaron, junto con nuestros avances en razonamiento y uso de herramientas. Es otro ejemplo de cómo favorecemos la inteligencia arquitectónica sobre la escala bruta: en lugar de simplemente expandir una ventana de contexto a 1 millón de tokens (lo cual es ineficiente), le damos al modelo una forma de comprimir y recordar inteligentemente el conocimiento de su propia experiencia.

Bucles de Retroalimentación del Mundo Real

Crucialmente, la investigación de Macaron no ocurre de forma aislada de nuestro producto. Creemos en un estrecho bucle de investigación↔producto: las mejoras en el laboratorio son directamente validadas por la experiencia del usuario, y las ideas del producto informan nueva investigación. Por ejemplo, la aplicación de IA personal de Macaron registra activamente comentarios anonimizados sobre dónde las respuestas de la IA no cumplen o cuando los usuarios parecen insatisfechos. Estas señales alimentan nuestro entrenamiento de aprendizaje por refuerzo como una señal de recompensa adicional. Hemos descubierto que entrenar con comentarios reales de los usuarios a menudo produce mayores mejoras en las capacidades que simplemente agregar más texto de Internet al preentrenamiento. Esto se alinea con la observación de Sutskever de que en qué entrenas puede importar más que cuánto: una pequeña cantidad de experiencia específica puede enseñar a un modelo algo que miles de millones de tokens estáticos no podrían[7]. Al cerrar el bucle entre el despliegue y la investigación, aseguramos que nuestra IA realmente mejore en las tareas que le importan a la gente. En términos de Sutskever, estamos dando a nuestros modelos el “factor decisivo” que proviene de experimentar el mundo, no solo de memorizarlo.

Convergencia: Un Nuevo Paradigma para la IA

Es alentador ver un consenso creciente entre los líderes de IA de que el aprendizaje continuo y experiencial es el camino a seguir. La visión de Sutskever de una superinteligencia que aprende como un humano – de manera constante y adaptativa – es precisamente el camino que Macaron ha estado siguiendo. No estamos solos en este cambio. La reciente estrategia Pathways de Google, por ejemplo, también aboga por entrenar un modelo en muchas tareas y modalidades para que pueda aprender nuevas habilidades con el tiempo, superando los modelos de propósito único. Y los investigadores como Jason Wei y Jeff Dean han discutido la necesidad de arquitecturas que puedan acumular conocimiento de manera incremental y eficiente, en lugar de depender únicamente de enormes ejecuciones de entrenamiento de una sola vez. Esto representa un impulso más amplio en la industria hacia lo que podría llamarse “IA centrada en el aprendizaje” (en oposición a la IA centrada en modelos de hoy). En este nuevo paradigma, la pregunta se convierte en: ¿Qué tan rápido puede una IA adquirir una nueva habilidad o adaptarse a una nueva situación? – en lugar de cuántos parámetros tiene o cuántos datos se usaron para preentrenarla. En esa medida, los humanos todavía tienen la corona. Pero la brecha se está cerrando.

En Macaron AI, apostamos a que la Inteligencia Experiencial – IA que aprende de la experiencia real – desbloqueará la próxima ola de rendimiento y fiabilidad. Ya estamos viendo puntos de prueba: nuestros modelos entrenados con aprendizaje por refuerzo y retroalimentación humana no solo están teniendo un mejor desempeño en los benchmarks, sino que, lo que es más importante, se sienten más alineados con las necesidades de los usuarios en la práctica. Cometen menos errores insólitos y se recuperan de los errores de manera más elegante, porque su entrenamiento les ha enseñado a notar y corregir errores (muy parecido a como lo haría un humano). Nuestros mecanismos de memoria, de manera similar, les brindan la continuidad que los transformadores puros carecen, permitiendo que una conversación o tarea se extienda durante meses sin reiniciarse. Todas estas ventajas provienen de tratar la inteligencia como un proceso, no como un artefacto estático. Como lo expresó Sutskever, una IA desplegada podría pasar por un “período de prueba y error de aprendizaje” durante el despliegue – y eso es una característica, no un error, siempre que esté controlado y alineado.

La alineación, por supuesto, es primordial cuando hablamos de que la IA aprende por sí sola. Curiosamente, Sutskever sugirió que podría ser incluso más fácil alinear una IA que realmente aprende y entiende con el tiempo – potencialmente una que valora la vida sintiente y puede modelar el mundo y a otros de manera empática – que alinear un supergenio estático que fue entrenado a puerta cerrada[33]. Si una IA crece interactuando con humanos, hay una oportunidad de inculcar valores humanos a lo largo de su desarrollo (y observar y corregir errores). Esto resuena con nuestra visión de que la transparencia y el despliegue gradual son clave para una IA segura. La plataforma de Macaron, al involucrar directamente a los usuarios y aprender de ellos, proporciona un entorno natural para este enfoque incremental. Desplegamos intencionadamente nuevas capacidades de aprendizaje en etapas, monitoreando el comportamiento y recopilando comentarios, en lugar de liberar un modelo de caja negra entrenado en un vacío. En resumen, el aprendizaje experiencial no solo hace a la IA más inteligente – también puede hacerla más segura y alineada con los humanos.

Conclusión: Abrazando la Inteligencia Experiencial

Tanto la perspectiva visionaria de Ilya Sutskever como el viaje de desarrollo de Macaron apuntan a la misma conclusión: el próximo gran avance en IA será un maestro aprendizo**, no solo un memorión más grande**. Una IA que pueda aprender de la experiencia, internalizar la retroalimentación, recordar y adaptarse a largo plazo – esencialmente, una IA que pueda crecer – es aquella que puede generalizarse al desorden del mundo real. Esto representa un cambio profundo de mentalidad con respecto a años anteriores: no se trata solo de cuánta información tiene el modelo al comenzar, sino de cuán efectivamente puede adquirir nuevos conocimientos. El "adolescente superinteligente de 15 años" imaginado por Sutskever encapsula esta idea[18][19]. En Macaron, estamos trabajando para construir ese tipo de IA que aprende continuamente junto a nuestra comunidad de usuarios.

Las implicaciones de la IA de aprendizaje experiencial y continuo son enormes. Técnicamente, significa mayor eficiencia de muestra – hacer más con menos – y modelos que pueden adaptarse rápidamente a cualquier dominio o distribución. Económicamente, promete trabajadores de IA que pueden ser reentrenados sobre la marcha, acelerando enormemente la innovación y la productividad (Sutskever predice un crecimiento potencialmente rápido una vez que tal IA se generalice[34][35]). Y para la sociedad, significa sistemas de IA más comprensibles, porque veremos cómo aprenden y podremos moldear su desarrollo, en lugar de recibir un enigma completamente formado.

Lograr esto no será fácil. Requiere avances en algoritmos, sistemas y nuestra comprensión teórica del aprendizaje. Sin embargo, las piezas están uniéndose: desde funciones de valor y RL avanzado hasta arquitecturas de memoria de larga duración y entrenamiento con humanos en el loop. A medida que integramos estas piezas, nos acercamos a una IA que realmente piensa y aprende sobre la marcha. Este es el espíritu que impulsa la investigación de Macaron y se alinea estrechamente con la visión articulada por líderes como Sutskever. La era de la escalabilidad nos enseñó mucho, pero la era de la Inteligencia Experiencial está amaneciendo. En esta nueva era, la frontera no son solo modelos más grandes, sino aprendices más inteligentes, más adaptables y más humanos. Y eso es exactamente lo que estamos esforzándonos por construir.

Fuentes:

· Entrevista de Ilya Sutskever con Dwarkesh Patel (noviembre de 2025) – Podcast de Dwarkesh: “Pasando de la Era de la Escalabilidad a la Era de la Investigación.” Destacados disponibles en el blog de Dwarkesh[1][4][18][19].

· Resumen de los puntos clave de Sutskever por el digest Best of AI[36].

· Observación de LeCun sobre la eficiencia de la conducción humana (referenciada por Sutskever)[12].

· Macaron AI Mind Lab – Informes internos de investigación sobre Inteligencia Experiencial y Memoria (2025).

· Contribuciones de código abierto de Macaron AI en entrenamiento de RL a gran escala (integración Megatron-Bridge y VEGA, 2025).

[1] [2] [3] [4] [5] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [32] [34] [35] Ilya Sutskever – Estamos pasando de la era de la escalabilidad a la era de la investigación

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] Fuerzas impulsoras en IA: Escalando hacia 2025 y más allá (Jason Wei, OpenAI) por Best AI papers explained

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron