
Autor: Boxu LI
En el paisaje en evolución de la inteligencia artificial, donde el preentrenamiento a escalas extremas ha producido capacidades estáticas formidables, la frontera ahora se desplaza de construir modelos estáticos cada vez más grandes a crear sistemas agénticos: agentes de IA que pueden razonar profundamente, usar herramientas, ver y recordar, y aprender continuamente de la experiencia[1].
La plataforma Tinker de Thinking Machines Lab, con su reciente anuncio de disponibilidad general el 12 de diciembre de 2025, representa un salto infraestructural crucial, democratizando el acceso al ajuste fino y la extensión multimodal de modelos de un billón de parámetros. Conjuntamente, Mind Lab— la división de investigación de Macaron AI—articula un marco filosófico y técnico para la "inteligencia experiencial", en el que los modelos pasan de ser repositorios congelados de conocimiento a procesos dinámicos que se refinan a sí mismos mediante retroalimentación del mundo real. Esta convergencia ofrece oportunidades profundas para refinar el co-diseño de investigación y producto, cerrando el ciclo entre la innovación algorítmica y la adaptación implementada.
Innovaciones Clave en las Actualizaciones de Tinker
En esta publicación, profundizaremos en el nuevo modelo de razonamiento Kimi K2 de Tinker, la interfaz compatible con OpenAI y los modelos de visión Qwen3-VL, luego exploraremos la filosofía de inteligencia experiencial de Mind Lab, sus avances en aprendizaje por refuerzo (RL) con billones de parámetros, el enfoque de difusión de memoria y las implicaciones estratégicas para construir la próxima generación de sistemas de IA.
Tinker es una plataforma de entrenamiento de IA diseñada para permitir a los investigadores ajustar y desplegar modelos de vanguardia sin preocuparse por la infraestructura[2][3]. En diciembre de 2025, Tinker anunció varias actualizaciones importantes que refuerzan las capacidades de razonamiento, el uso de herramientas y la comprensión visual de los modelos de IA[4]:
[15] Comparación de Qwen3-VL-235B ajustado (modelo de visión-lenguaje) vs. DINOv2 (base solo de visión) en tareas de clasificación de imágenes con ejemplos etiquetados limitados. Qwen3-VL logra mayor precisión, especialmente en el régimen de datos bajos (extremo izquierdo), gracias a su comprensión visual informada por el lenguaje.
Incluso con solo un ejemplo por clase, el modelo 235B Qwen3-VL alcanzó una precisión razonable, superando significativamente a DINOv2 en este régimen extremo de pocos datos[15]. A medida que aumentaba el número de ejemplos, ambos modelos mejoraron, pero Qwen3-VL mantuvo una ventaja, demostrando una generalización más sólida en pocos disparos[16]. La ventaja proviene del conocimiento de lenguaje y del mundo incorporado en el modelo; por ejemplo, Qwen3-VL ya tiene un concepto de cómo es o se describe un "girasol" o un "golden retriever", gracias a su preentrenamiento multimodal[16]. Esto significa que puede reconocer o categorizar imágenes nuevas con un número mínimo de ejemplos nuevos. En términos prácticos, los usuarios de Tinker pueden lograr alta precisión en tareas de visión con conjuntos de datos muy pequeños aprovechando estos grandes modelos de visión-lenguaje. Esta capacidad de visión eficiente en datos es crucial para escenarios del mundo real donde los datos etiquetados son escasos. También sugiere el poder del razonamiento aumentado por herramientas: un modelo que "ve" puede aprovechar tanto las pistas visuales como el contexto lingüístico, convirtiéndolo en un agente más versátil (por ejemplo, leer un diagrama y explicarlo, o usar una imagen como parte de una cadena de razonamiento). En general, la adición de Qwen3-VL a Tinker extiende el alcance de la plataforma del texto puro al dominio visual, permitiendo flujos de trabajo de razonamiento multimodal bajo la misma API de entrenamiento unificada.
En el ámbito de la investigación, Mind Lab – un laboratorio de investigación de frontera afiliado a Macaron AI – está abordando el desafío de hacer que los agentes de IA sean verdaderamente adaptativos y experienciales. La filosofía de Mind Lab es que “la verdadera inteligencia proviene de la experiencia real, no solo de un mayor pre-entrenamiento”[17]. En otras palabras, simplemente ampliar los modelos en conjuntos de datos estáticos no es suficiente; el próximo salto en la IA vendrá de sistemas que aprendan continuamente de las interacciones, al igual que los humanos acumulan experiencia. Mind Lab enmarca esta visión como Inteligencia Experiencial – pasando de “cerebros” estáticos a “mentes” adaptativas que pueden formar modelos internos del mundo, actualizar su conocimiento a través de retroalimentación, tener objetivos o valores explícitos, e incluso reflexionar sobre sus propias acciones[18]. Esto es una respuesta directa a las limitaciones de los modelos LLM actuales, que a menudo son poderosos pero congelados después del pre-entrenamiento[18]. Al introducir mecanismos para la adaptación genuina – como el aprendizaje por refuerzo continuo y la memoria dinámica – Mind Lab tiene como objetivo crear agentes que evolucionen con el uso.
Dos pilares fundamentales del trabajo de Mind Lab son: (1) El ajuste fino eficiente de RL en modelos masivos para inculcar nuevos comportamientos, y (2) Sistemas de memoria avanzados que permiten a los agentes retener y utilizar conocimientos a largo plazo. Ambos están orientados a hacer que la IA sea más agente (decidiendo y mejorando de manera autónoma) y a acoplar estrechamente los avances de investigación con el despliegue de productos.
Uno de los logros destacados de Mind Lab es demostrar el aprendizaje por refuerzo a escala de un billón de parámetros – y hacerlo de manera práctica y rentable. En diciembre de 2025 anunciaron el primer pipeline de RL de extremo a extremo en el modelo de razonamiento Kimi K2 de 1.04T parámetros, logrado con solo ~10% de los recursos de GPU que normalmente requeriría dicho entrenamiento[19]. ¿Cómo fue esto posible? El equipo construyó un motor de entrenamiento especializado que combina ajuste fino de parámetros eficiente (LoRA) con paralelismo híbrido a través de la estructura de Mixture-of-Experts del modelo[20][21].
En lugar de ajustar todos los billones de pesos, el enfoque de Mind Lab inyecta matrices de adaptación de bajo rango en capas seleccionadas de Kimi K2 (tanto en la columna vertebral densa como dentro de las capas de expertos) y actualiza solo esas durante RL[22]. Esto reduce drásticamente el número de parámetros entrenables (por ejemplo, un rango LoRA de unas pocas decenas o cientos por capa, en lugar de matrices completas) y, por lo tanto, disminuye el uso de memoria y cómputo en un orden de magnitud. Al mismo tiempo, entrenar un modelo de este tamaño requiere distribuir la carga de trabajo de manera eficiente a través de muchas GPUs. El equipo empleó una estrategia de paralelismo híbrido: un uso coordinado de paralelismo de tensor, paralelismo de tubería, paralelismo de expertos (para los expertos MoE) y paralelismo de secuencia (para el entrenamiento de secuencias largas), todo ello compatible con actualizaciones de LoRA fragmentadas[23]. En la práctica, esto significó aprovechar los marcos de entrenamiento de modelos grandes existentes (Megatron de NVIDIA y VolcEngine RL de ByteDance), aumentándolos para manejar LoRA en MoE, y equilibrar cuidadosamente el cálculo a través de 64 GPUs en un clúster[24]. El resultado fue un entrenamiento RL en política estable (similar a un algoritmo estilo PPO) en el modelo completo Kimi K2 con un modelo de recompensa proporcionando retroalimentación sobre la calidad del razonamiento[22], algo que anteriormente se consideraba inviable para la mayoría de los equipos debido al costo.
Igualmente importante, funcionó: el Kimi K2 afinado con LoRA logró mejoras significativas en tareas de razonamiento a largo plazo, con curvas de aprendizaje suaves y sin divergencia[25]. Es crucial que el modelo adaptado retuviera las habilidades generales del modelo base (gracias a cambios de peso mínimos y enfocados) mientras adquiría nuevos comportamientos específicos de la tarea[26]. Esto significa que el vasto conocimiento previo del modelo base no fue sobrescrito, solo se amplió, un beneficio clave de la afinación con LoRA. De hecho, los experimentos de Mind Lab confirmaron que los modelos más grandes proporcionan una base más sólida para RL. Bajo un presupuesto de entrenamiento fijo, un modelo grande más adaptadores pequeños de LoRA superó a un modelo más pequeño entrenado con ajuste completo, tanto en tareas dentro del dominio como en la transferencia a nuevas[27]. Como lo expresa el equipo, RL está “limitado por el previo” – si el modelo base no puede generar trayectorias de alta calidad desde el principio, RL tiene poca señal que amplificar[27]. Un potente previo preentrenado como Kimi K2 le da a RL un conjunto rico de comportamientos en los que centrarse, mientras que entrenar un modelo pequeño desde cero tiene que inventar esos comportamientos de nuevo. Este conocimiento desafía la sabiduría convencional: puede ser más eficiente en computación hacer RL en un modelo grande (con un fuerte previo y eficiencia LoRA) que hacer RL en un modelo más pequeño, incluso si el modelo más pequeño es más barato por paso[28]. La contribución de Mind Lab aquí no es solo un algoritmo, sino una estrategia de infraestructura – un plan para hacer viable el aprendizaje continuo en los modelos más grandes. Han incorporado sus métodos en proyectos de código abierto (Megatron-Bridge, VERL)[29], para que la comunidad pueda reproducir y construir sobre este trabajo, potencialmente permitiendo a muchos grupos afinar agentes de un billón de parámetros con presupuestos de hardware modestos.

Demostración en vivo de Difusión de Memoria
Otra frontera que Mind Lab está explorando es cómo un agente de IA puede manejar recuerdos a largo plazo de sus interacciones. Muchos sistemas actuales añaden una base de datos vectorial para recuperar fragmentos de conversaciones pasadas o utilizan técnicas de resumen para comprimir la historia. Mind Lab propone un sistema de memoria más integrado y “nativo del modelo” llamado Memory Diffusion[30]. La idea es tratar toda la secuencia del diálogo o trayectoria de un agente como memoria editable dentro del contexto del modelo, en lugar de algo almacenado externamente. Memory Diffusion funciona manteniendo iterativamente una ventana de contexto de tamaño fijo mediante un bucle de máscara–asignación–relleno[30]. En cada paso, el modelo decide qué tokens (piezas de conversaciones pasadas) conservar (máscara) y cuáles descartar, luego rellena el espacio liberado con contenido nuevo entrante, todo mientras respeta un presupuesto estricto de tokens para la longitud del contexto[30]. Esencialmente, el modelo está aprendiendo a gestionar su propio contexto, comprimiendo u olvidando detalles menos relevantes y reteniendo hechos importantes a medida que la interacción crece. Esto es análogo al olvido inteligente, donde el objetivo no es recordar todo indefinidamente (lo cual no es factible dado los límites de la longitud del contexto), sino recordar de manera útil bajo restricciones reales[30].
Al operar a nivel de secuencia de tokens, la difusión de memoria evita la necesidad de incrustaciones externas o búsquedas de similitud; la "memoria" vive en el mismo espacio representacional que el contexto de trabajo del modelo. Mind Lab informa que este enfoque logra un rendimiento de memoria a largo plazo de vanguardia, lo que significa que el agente puede llevar a cabo conversaciones o tareas extendidas sin perder información pertinente, todo a través de mecanismos de aprendizaje dentro del modelo[31]. También funciona en tiempo constante relativo al tamaño del contexto: no hay una explosión del costo de recuperación a medida que crece el historial, ya que la longitud del contexto es fija y se gestiona a través de las operaciones de máscara/recarga[31]. En términos prácticos, un agente con difusión de memoria podría involucrarse en una conversación que dure miles de turnos, y aunque no puede recordar explícitamente cada detalle, decidirá continuamente qué debe tener presente. Las preferencias importantes del usuario o las preguntas sin resolver persistirán, mientras que las conversaciones triviales de mucho antes podrían ser eliminadas. Este enfoque trata la memoria como un componente de primera clase de la cognición del modelo, alineándose con la visión de Mind Lab de que la memoria debería ser una parte activa y de aprendizaje del sistema, en lugar de un almacén de datos pasivo[30].
Lee más en nuestro blog técnico
Las capacidades infraestructurales de Tinker y las eficiencias algorítmicas de Mind Lab forman una simbiosis natural. Tinker permite la aplicación directa del LoRA RL híbrido de Mind Lab a Kimi K2 y Qwen3-VL, facilitando bucles agénticos multimodales.
En el co-diseño de investigación y producto—el principio central de Mind Lab—esto se manifiesta como:
Estratégicamente, este paradigma acelera la iteración: los productos se convierten en bancos de pruebas experimentales, generando datos de alta fidelidad que refinan las hipótesis de investigación. Por ejemplo, las ganancias de clasificación de visión con pocos ejemplos de Tinker pueden sembrar objetivos de RL en agentes visuales desplegados, alineando progresivamente las políticas perceptuales con las preferencias del usuario.
Tradicionalmente, la investigación en IA produciría un modelo o algoritmo, y luego un equipo de producto podría averiguar cómo implementarlo, con una iteración relativamente lenta entre los dos. En cambio, Mind Lab opera bajo una filosofía de co-diseño de investigación y producto: cada nueva técnica se prueba rápidamente en un entorno de agente en vivo, y las interacciones reales de los usuarios generan datos para refinar la investigación[32].
“Investigación y producto ya no son pistas separadas. Son un bucle de retroalimentación cerrado: experiencia del usuario → datos → entrenamiento RL → implementación → mejor UX → datos más ricos → repetir.”[33]. En la práctica, esto significa que cuando Mind Lab mejora su algoritmo RL o sistema de memoria, lo integran en un agente dirigido al usuario real (por ejemplo, el asistente personal de IA de Macaron) y observan cómo se desempeña con usuarios reales. Los datos de uso, qué preguntas hacen los usuarios, dónde falla o tiene éxito el agente, retroalimentación explícita, se retroalimentan como señal de entrenamiento (a través de ajuste fino supervisado o aprendizaje por refuerzo) para la próxima actualización del modelo. Este bucle cerrado acelera enormemente el aprendizaje: el producto es el experimento.
Una implicación es el uso de modelos de recompensa en streaming y RLHF en línea (Aprendizaje por Refuerzo a partir de la Retroalimentación Humana). En lugar de recopilar un conjunto de datos estático de comparaciones de preferencias humanas y entrenar un modelo de recompensa una sola vez, el marco de trabajo de Mind Lab prevé actualizar continuamente el modelo de recompensa a medida que llegan nuevos comentarios durante el despliegue. Por ejemplo, si un agente está resolviendo tareas para los usuarios y ocasionalmente recibe un pulgar hacia abajo o una corrección, esas señales pueden transmitirse al modelo de recompensa para refinar su noción de comportamiento "bueno" al instante. La próxima vez que se ejecute RL (lo cual podría ser en un ritmo programado o incluso de manera asincrónica), el modelo de recompensa actualizado guía la política para alinearse mejor con las preferencias del usuario. Este paradigma de RL en streaming convierte el despliegue en una extensión del entrenamiento: cuanto más tiempo corre el agente en el mundo real, más experiencia acumula y mejor se vuelve. La interfaz compatible con OpenAI proporcionada por Tinker complementa esta estrategia: permite que estos modelos aprendidos continuamente se integren fácilmente en productos y herramientas existentes, lo que significa que un laboratorio de investigación puede lanzar rápidamente nuevas versiones de modelos a un producto y observar los resultados, sin necesidad de reconstruir la integración cada vez.
Desde el lado de Tinker, la capacidad de la plataforma para muestrear de un modelo a mitad del entrenamiento podría facilitar tales bucles iterativos al permitir evaluaciones intermedias y decisiones de ajuste detalladas. Del lado de Mind Lab, el bucle de co-diseño garantiza que sus innovaciones (como RL a escala de trillones o difusión de memoria) sean puestas a prueba en casos de uso reales. Este enfoque revela desafíos prácticos temprano (por ejemplo, cómo manejar la latencia o entradas de usuarios inesperadas) y cierra la brecha entre la investigación de vanguardia y los productos de IA orientados al usuario. El beneficio estratégico es que las mejoras son impulsadas por necesidades del mundo real y validadas directamente en contra del uso en el mundo real. Como señala Mind Lab, el progreso genuino proviene de “aprendizajes continuos de las interacciones usuario-producto”, y un agente que pueda adaptarse in situ ofrecerá en última instancia una experiencia de usuario mucho mejor que uno que esté fijo en el momento del despliegue.
En conjunto, los avances de Tinker y Mind Lab destacan un cambio profundo en cómo construimos sistemas de IA – de modelos estáticos a agentes adaptativos co-diseñados con sus entornos. Surgen varias implicaciones clave:
A medida que las leyes de escalado estático alcanzan su límite, la síntesis ejemplificada por la personalización accesible a escala de Tinker y el eficiente aprendizaje por refuerzo experiencial de Mind Lab anuncia una era transformadora. Al integrar la adaptación en el ciclo del producto, avanzamos más allá de cerebros frágiles hacia mentes resilientes: sistemas que no solo razonan y perciben a niveles de frontera, sino que crecen de manera simbiótica con sus entornos. Esta trayectoria coevolutiva promete una IA que no solo es capaz, sino que se vuelve continuamente más sintonizada con las necesidades humanas y las complejidades del mundo real.
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Laboratorio de Thinking Machines
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Disponibilidad General e Ingreso de Visión - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Cómo construimos razonamiento RL de un billón de parámetros con el 10% de GPUs
[17] [30] [33] Macaron IA | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
Presentamos Mind Lab: el brazo de investigación de Macaron AI