Autor: Boxu Li 

Macaron AI no es solo una herramienta de productividad, es una plataforma que convierte nuestras conversaciones en mini-aplicaciones que gestionan calendarios, planifican viajes y exploran pasatiempos. Bajo su amigable superficie se encuentra un sofisticado sistema de aprendizaje por refuerzo (RL) y un motor de memoria que recuerda lo importante y olvida lo que no lo es[1]. Mientras Macaron se prepara para integrar Claude Sonnet 4.5 y DeepSeek V3.2‑Exp, junto con el Claude Agent SDK/Code 2.0, este blog explora cómo estos nuevos modelos y herramientas pueden elevar la calidad de la producción de Macaron, acortar la creación de mini-aplicaciones y reducir errores. Combinamos conocimientos técnicos de las actualizaciones de desarrolladores de Anthropic, investigaciones de DeepSeek y los propios blogs de ingeniería de Macaron para construir una imagen clara de lo que está por venir.

1 El motor interno de Macaron: RL, memoria y ética

Antes de comparar modelos, es útil entender qué hace único a Macaron. Macaron utiliza un sistema RL de múltiples capas para convertir las conversaciones cotidianas en tareas y código. El sistema descompone el problema en varios módulos: gestión de conversaciones, selección de memoria, síntesis de código y retroalimentación del simulador, y aplica aprendizaje por refuerzo jerárquico (HRL) para coordinarlos[2]. Un meta-controlador de alto nivel decide qué módulo activar a continuación, mientras que las políticas de RL de nivel inferior deciden sobre acciones específicas como recuperar una memoria, llamar a una API o ejecutar código generado[2]. Este diseño permite a Macaron descomponer objetivos complejos, desde planificar un viaje hasta organizar las finanzas, en sub-tareas manejables.

1.1 Modelado de recompensas y retroalimentación humana

En la IA personal, no existe una única “condición de victoria”; la satisfacción del usuario, la privacidad, la puntualidad y los matices culturales son importantes. Macaron construye su función de recompensa combinando retroalimentación implícita y explícita. Las señales implícitas incluyen la duración de la conversación, la frecuencia de uso y el tono, mientras que las calificaciones explícitas y los pulgares arriba/abajo ayudan a calibrar las preferencias[3]. Macaron también utiliza elicitación de preferencias, presentando respuestas alternativas o diseños de miniaplicaciones y preguntando a los usuarios cuál prefieren. Un modelo de inferencia luego aprende una función de utilidad latente sobre posibles acciones, similar al aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) pero extendido con anotaciones culturales: los evaluadores japoneses enfatizan la cortesía y el contexto, mientras que los evaluadores coreanos destacan la fraseología comunal versus individualista[4]. Estas señales alimentan un modelo de recompensa que predice la satisfacción del usuario y anima al agente a seguir las normas locales.

1.2 Aprendizaje por refuerzo jerárquico y macroacciones

Para gestionar diversas tareas de usuario, Macaron utiliza HRL para seleccionar módulos y subpolíticas. Dentro de los módulos, utiliza el marco de opciones: una secuencia de acciones que logra un subobjetivo se trata como una sola opción (por ejemplo, "resumir los gastos del mes pasado" o "recomendar un plan de estudios bilingüe")[3]. Las opciones descubiertas en un dominio pueden transferirse a otro si las estructuras subyacentes se alinean. Macaron también define macroacciones que encapsulan diálogos de varios turnos o cálculos prolongados, como planificar unas vacaciones familiares (destino, transporte, alojamiento e itinerario)[3]. Los agentes RL evalúan las macroacciones basándose en la recompensa acumulativa en lugar de señales a corto plazo, alentando al agente a optimizar la satisfacción a largo plazo.

1.3 Asignación de crédito y tejido temporal

Asignar crédito a acciones específicas cuando las recompensas llegan tarde es complicado. Macaron emplea entrelazado temporal, conectando eventos a través del tiempo con hilos narrativos. El sistema construye un gráfico de interacciones donde los nodos representan recuerdos y los bordes representan relaciones causales; al evaluar un resultado, recorre el gráfico hacia atrás para identificar qué recuperaciones o acciones contribuyeron[2]. El razonamiento contrafáctico ayuda a evaluar qué habría sucedido si se hubieran tomado acciones alternativas, evitando que el agente suponga automáticamente que repetir una acción exitosa siempre produce la misma recompensa[2]. Macaron también utiliza recompensas retrasadas y trazas de elegibilidad para propagar la señal hacia decisiones anteriores, como la selección de memoria o el tono de conversación, alentando al agente a optimizar la satisfacción a largo plazo[5].

1.4 Equidad, seguridad y ética

Los agentes de IA personal deben evitar sesgos y cumplir con las regulaciones. Macaron incorpora restricciones de equidad en la función de recompensa; por ejemplo, el agente es penalizado si recomienda consistentemente actividades específicas de género sin que se lo pidan[5]. Una biblioteca de políticas éticas codifica normas culturales y requisitos legales, y violar estas directrices desencadena una recompensa negativa o bloquea la acción por completo[5]. La supervisión humana está integrada en decisiones de alto impacto como la planificación financiera o el asesoramiento sanitario, satisfaciendo la Ley del Marco de IA de Corea y la Ley de Promoción de IA de Japón[5]. Macaron registra decisiones de RL y proporciona a los usuarios explicaciones de por qué se seleccionaron ciertos recuerdos o módulos, apoyando auditorías y transparencia[5].

1.5 El motor de memoria: compresión, recuperación y control

El motor de memoria de Macaron es la columna vertebral de la personalización. Organiza los recuerdos en almacenamientos a corto plazo, episódicos y a largo plazo. El almacenamiento a corto plazo conserva la conversación actual (8-16 mensajes); el almacenamiento episódico guarda interacciones recientes comprimidas mediante atención convolucional; y el almacenamiento a largo plazo utiliza una base de datos vectorial de alta dimensión con etiquetas de metadatos (marca de tiempo, dominio, idioma)[6]. Para gestionar costos, Macaron utiliza la resumen latente para identificar segmentos relevantes y comprimirlos en vectores de longitud fija; un objetivo de auto-codificación reconstruye estados ocultos a partir de resúmenes comprimidos, y el RL ajusta el resumidor para retener información importante para recordar más tarde[7]. Un token de memoria dinámica actúa como una red de punteros: recupera recuerdos candidatos, evalúa la relevancia y decide si devolverlos o seguir buscando[8].

La recuperación implica una búsqueda aproximada del vecino más cercano con cuantización de productos y relevancia marginal máxima para equilibrar similitud y diversidad[9]. La expansión de consultas utiliza el objetivo y la intención latente del usuario; por ejemplo, una solicitud japonesa para "花火大会" (festival de fuegos artificiales) se expande para incluir entradas, fecha y clima[10]. La federación de relevancia maneja consultas de dominio cruzado, utilizando una función de compuerta softmax para distribuir probabilidades de recuperación a través de dominios e idiomas[11]. Estos componentes se entrenan con RL, y la asignación de crédito a través del entrelazado temporal asegura que el agente aprenda qué recuerdos fueron cruciales[12]. El sistema de memoria de Macaron difiere de la generación tradicional aumentada por recuperación (RAG) porque los recuerdos son específicos del usuario, el almacenamiento y la recuperación están guiados por RL, y cada memoria incluye metadatos de privacidad que gobiernan el acceso[13].

2 El SDK del agente Claude y el Código Claude 2.0

Aunque la arquitectura interna de Macaron es robusta, construir mini-aplicaciones todavía requiere leer y escribir archivos, ejecutar código, usar control de versiones e interactuar con APIs web. El Claude Agent SDK de Anthropic proporciona exactamente estas capacidades, exponiendo el mismo arnés de agente que impulsa al asistente de terminal de Claude Code[14]. Ofrece herramientas detalladas: operaciones de archivos (leer, escribir, grep, glob), comandos bash, fetch web, ejecución de código multilenguaje y operaciones Git[15]. A diferencia de los asistentes que pre-indexan una base de código, los agentes Claude buscan bajo demanda utilizando grep/find/glob para localizar archivos, haciéndolos más flexibles en repositorios dinámicos[16]. El SDK incluye grandes ventanas de contexto con compactación y resumen automáticos, permitiendo a los agentes mantener un contexto de código sustancial sin alcanzar límites de tokens[17]. Los desarrolladores pueden especificar herramientas permitidas y modos de permiso y agregar ganchos para la seguridad, habilitando autonomía con salvaguardias[18].

Bloques de construcción principales del SDK

  1. Herramientas – El SDK permite a los ingenieros seleccionar qué herramientas (entrada/salida de archivos, bash, obtención web, ejecución de código) están disponibles para un agente[19].
  2. Extensiones MCP – La integración con el Protocolo de Contexto del Modelo permite a servidores externos (bases de datos, búsqueda de correos electrónicos, búsqueda vectorial) extender el conjunto de herramientas[20].
  3. Subagentes – Los agentes definidos en .claude/agents tienen sus propios mensajes del sistema, conjuntos de herramientas restringidos y selección de modelo opcional; las tareas pueden delegarse a estos subagentes[21].
  4. Memoria y contexto del proyecto – Un cuaderno de notas persistente (CLAUDE.md) mantiene el contexto a través de sesiones y respeta la configuración a nivel de repositorio[22].
  5. Gestión de contexto y tiempo de ejecución – La compactación automática del contexto, las respuestas en streaming y el manejo de errores tipificados simplifican las tareas de larga duración[23].

Nuevas funciones en Claude Code 2.0

Claude Code 2.0 trae actualizaciones amigables para los desarrolladores: los puntos de control permiten a los desarrolladores guardar el progreso y retroceder cuando el agente comete errores[24]. Una extensión de VS Code integra el agente en el IDE, mientras que una interfaz de terminal renovada mejora la gestión de estados[25]. La API de Claude obtiene edición de contexto y una herramienta de memoria que ayudan a los agentes a funcionar más tiempo al limpiar automáticamente el contexto y recuperar piezas relevantes[26]. La aplicación y la API de Claude ahora pueden ejecutar código, crear archivos y analizar datos[27], convirtiendo un LLM en un asistente de codificación completo. Estas características son particularmente relevantes para la línea de mini‑apps de Macaron, que implica generar código de programa, probarlo en un entorno aislado, corregir errores e interactuar con servicios externos.

3 Claude Sonnet 4.5: larga autonomía y mayor calidad

Claude Sonnet 4.5 es el modelo más capaz de Anthropic para tareas de codificación, tareas agenticas y uso de computadoras. DevOps.com informa que Sonnet 4.5 puede operar de manera autónoma durante más de 30 horas, mucho más que las siete horas de su predecesor. Destaca en el seguimiento de instrucciones, la refactorización de código y la producción de resultados listos para producción, y lidera el benchmark SWE‑Bench Verified en tareas de codificación realistas. En implementaciones del mundo real, las mejoras son tangibles: los indicadores internos de Replit vieron caer los errores de edición de código del 9 % con Sonnet 4 al 0 % con Sonnet 4.5, mientras que los equipos de ciberseguridad redujeron el tiempo de recepción de vulnerabilidades en un 44 % y mejoraron la precisión en un 25 %. Los ingenieros de Netflix describen a Sonnet 4.5 como “excelente en tareas de desarrollo de software, aprendiendo nuestros patrones de base de código para ofrecer implementaciones precisas”.

Las herramientas de desarrollo y las funciones de memoria de Sonnet 4.5 se sinergizan con el SDK de Agent. El modelo admite edición de contexto y gestión de memoria, lo que elimina automáticamente el contexto antiguo y vuelve a enfocar las partes relevantes[24]. Puede navegar por las interfaces gráficas haciendo clic, escribiendo e interactuando con menús, permitiendo la automatización de herramientas sin APIs. Combinado con la arquitectura de subagentes y puntos de control del SDK, esto significa que Macaron puede construir mini-aplicaciones a lo largo de sesiones de varios días sin perder el contexto, y corregir errores cuando sea necesario.

4 DeepSeek V3.2‑Exp: eficiencia a través de atención dispersa

Mientras que Sonnet 4.5 se centra en la calidad y la autonomía, DeepSeek V3.2-Exp enfatiza la eficiencia. El modelo introduce DeepSeek Sparse Attention (DSA), seleccionando solo los tokens más importantes durante la atención. Esto reduce la complejidad de cuadrática O(n²) a O(nk), ofreciendo una inferencia 2–3 veces más rápida en contextos largos, un 30–40% menos de uso de memoria y una reducción de más del 50% en los precios de la API[28]. A pesar de estos ahorros, V3.2-Exp mantiene la paridad con el modelo anterior V3.1-Terminus en la mayoría de los benchmarks[29]. La versión de código abierto permite a Macaron ejecutar el modelo localmente, ajustarlo y explorar nuevas arquitecturas[30]. Reuters señala que DeepSeek ve esto como un paso intermedio hacia su arquitectura de próxima generación; el mecanismo DSA reduce los costos de computación mientras mejora algunos tipos de rendimiento[31], y el servicio se actualiza automáticamente a V3.2-Exp con una gran reducción de precios para los usuarios[32].

DeepSeek V3.2‑Exp hereda el diseño de mezcla de expertos y añade precisión mixta y atención latente multi‑cabeza[33]. Sin embargo, al ser experimental, muestra regresiones menores en tareas de razonamiento complejo[34] y carece de las herramientas integradas del ecosistema de Claude. Para Macaron, esto significa que V3.2‑Exp es más adecuado para tareas sensibles al costo o prototipos, donde la velocidad y el rendimiento son más importantes que la máxima precisión en la codificación.

5 Comparación de Sonnet 4.5 y DeepSeek V3.2‑Exp para Macaron

La decisión de Macaron de conectarse a ambos modelos invita a una comparación de sus fortalezas y debilidades. La tabla a continuación resume los atributos clave:

Característica
Sonnet 4.5
DeepSeek V3.2‑Exp
Enfoque
Codificación de alta calidad, tareas agenciales, larga autonomía
Procesamiento eficiente de contextos largos[35]
Arquitectura
Modelo propietario con autonomía de larga duración (>30 horas) y fuerte seguimiento de instrucciones
Mezcla de expertos con atención dispersa que reduce el cómputo[28]
Memoria y contexto
Ventanas de contexto grandes; gestión automática de memoria a través de herramienta de memoria[24]
Soporta contextos largos mediante atención dispersa; uso de memoria reducido[28]
Herramientas de desarrollo
SDK de agente con subagentes, puntos de control, integración con VS Code[36][24]
Sin SDK oficial; código abierto permite integraciones personalizadas pero carece de herramientas de memoria integradas
Costo
Sin cambios desde Sonnet 4; $3/M de tokens de entrada y $15/M de tokens de salida[37]
Reducción del precio de la API en un 50 %+[38]; gratuito para auto-alojamiento
Fortalezas
Máxima precisión en codificación (Verificado SWE‑Bench 77–82 %), autonomía extendida, seguridad robusta
Eficiencia excepcional; inferencia 2–3× más rápida y menor uso de memoria[28]; código abierto
Debilidades
Costos de tokens más altos; API propietaria; puede requerir gestión cuidadosa de indicaciones
Estado experimental; regresiones menores en razonamiento complejo[34]; carece de herramientas integradas

A partir de esta comparación, podemos derivar una estrategia híbrida. Macaron podría usar DeepSeek V3.2‑Exp para los borradores iniciales, beneficiándose de baja latencia y costo, luego refinar o validar con Sonnet 4.5 para asegurar corrección y seguridad. Para miniapps complejas que requieren razonamiento profundo, Sonnet 4.5 sigue siendo la mejor opción, mientras que V3.2‑Exp sobresale en iteraciones rápidas o generación a gran escala.

6 Cómo los nuevos modelos mejorarán el flujo de miniapps de Macaron

La pregunta clave para Macaron es si Sonnet 4.5 y DeepSeek V3.2‑Exp pueden mejorar la calidad, acortar el tiempo de desarrollo y reducir errores. Analizamos cada factor en el contexto del flujo de Macaron:

6.1 Calidad del código y del output

Sonnet 4.5 ofrece mayor calidad de código y menos errores. Según Replit, los errores de edición de código se redujeron del 9 % a cero al pasar de Sonnet 4 a Sonnet 4.5. Esto significa que las miniapps generadas por Macaron se compilarán de manera más confiable, con menos errores de sintaxis o faltas de importaciones. La mejorada capacidad del modelo para seguir instrucciones ayuda a Macaron a comprender más precisamente las especificaciones del usuario; su mejorada refactorización de código asegura que los módulos generados sean limpios y modulares. En tareas financieras y de ciberseguridad, Sonnet 4.5 mejoró la precisión del 25 % al 44 %, sugiriendo ganancias similares para las aplicaciones de viaje y bienestar de Macaron. DeepSeek V3.2‑Exp, aunque ligeramente más débil en razonamiento complejo, mantiene un rendimiento comparable al V3.1 con mejor eficiencia[29]; cuando se ajusta al dominio de Macaron, podría ofrecer una precisión suficientemente alta para miniapps más simples.

6.2 Velocidad de creación de miniapps

La capacidad de Sonnet 4.5 para funcionar de manera autónoma durante más de 30 horas significa que Macaron puede generar mini-aplicaciones de principio a fin en una sola sesión continua sin reinicios manuales. Combinado con la gestión de contexto y puntos de control del SDK de Agente, esto reduce el tiempo dedicado a reiniciar tareas o recargar contextos. La arquitectura de Sub-agente permite a Macaron paralelizar tareas: un agente puede manejar la generación de UI mientras otro gestiona la integración de API, cada uno con su propio contexto y herramientas. Mientras tanto, la inferencia 2–3× más rápida y el menor uso de memoria de DeepSeek V3.2‑Exp se traducen en respuestas más rápidas[28]. Por ejemplo, si generar un itinerario de viaje requería 30 segundos usando Sonnet 4.5, V3.2‑Exp podría producir un borrador en 10–15 segundos; luego, Sonnet 4.5 lo refinaría. El efecto neto es un tiempo más corto para la primera versión utilizable, lo que permite bucles rápidos de retroalimentación del usuario.

6.3 Procesos más fluidos y menos errores

La automatización reduce los errores humanos, pero la autonomía puede introducir nuevos errores si no se gestiona adecuadamente. Los puntos de control del SDK del Agente permiten a los desarrolladores guardar y revertir el estado del agente[24]. Si Macaron realiza una llamada de API incorrecta o escribe en el archivo equivocado durante la generación de mini-aplicaciones, el desarrollador puede volver a un punto de control anterior en lugar de empezar de nuevo. La edición de contexto previene el agotamiento de tokens y asegura que solo se mantenga el contexto relevante, minimizando las alucinaciones. Para DeepSeek, la versión de código abierto permite al equipo de Macaron inspeccionar y modificar el modelo, integrar controles de seguridad personalizados y ajustar para tareas específicas de dominio. Además, los mecanismos de RL propios de Macaron – tejido temporal, razonamiento contrafactual y restricciones de equidad – continúan monitoreando la satisfacción del usuario y penalizando comportamientos dañinos[2][5], reduciendo el riesgo de errores y violaciones éticas.

6.4 Consideraciones de costo

Los modelos de alta calidad tienen un precio. El precio por token de Sonnet 4.5 se mantiene sin cambios respecto a Sonnet 4 ($3/M de tokens de entrada, $15/M de tokens de salida)[37]. DeepSeek V3.2‑Exp reduce a la mitad el costo de las llamadas a la API[38] y, al ser de código abierto, puede ser autohospedado. Macaron puede optimizar los costos utilizando V3.2‑Exp para borradores iniciales o tareas de bajo riesgo (por ejemplo, generar componentes de UI o calculadoras simples) y reservar Sonnet 4.5 para tareas de alto riesgo (por ejemplo, planificación financiera, asesoramiento médico) donde la precisión y el cumplimiento son críticos. Los ahorros por inferencia más rápida y el uso reducido de GPU (discutidos a continuación) también compensan los costos de cómputo.

7 Innovaciones de entrenamiento RL de Macaron: DAPO, LoRA y All‑Sync RL

Mejorar el modelo es solo parte de la historia; la eficiencia del entrenamiento afecta la rapidez con la que Macaron puede iterar en las políticas de RL. MIND LABS describe un sistema que combina Decoupled Clip y Optimización de Políticas de Muestreo Dinámico (DAPO) con Adaptación de Baja Rango (LoRA) en una arquitectura All‑Sync RL para entrenar un modelo DeepSeek de 671B usando solo 48 GPUs H800 – una reducción de 10× en comparación con las 512 GPUs necesarias para el RL estándar[39]. El paralelismo de canalización usando Coati y SGLang, junto con la fusión y cuantización acelerada de LoRA, eliminan las “burbujas de GPU” donde las GPUs permanecen inactivas esperando la inferencia[40]. El resultado es una reducción del tiempo de reloj de pared para un solo paso de entrenamiento de 9 horas a 1.5 horas[41]. Estos avances significan que Macaron puede reentrenar sus modelos de recompensa o puertas de memoria más rápido, incorporar comentarios más rápidamente y implementar mejoras para los usuarios antes.

Figura 1: el uso de GPU disminuye de 512 a 48 GPUs H800 al usar All-Sync RL con LoRA, lo que permite una investigación de RL más accesible y una experimentación más rápida[39].

Más allá de la eficiencia, las actualizaciones de bajo rango de LoRA reducen los costos de comunicación del peso del modelo, y el muestreo dinámico estabiliza el entrenamiento al filtrar indicaciones y dar forma a las recompensas[42]. Para Macaron, estas técnicas significan que las futuras actualizaciones de memoria y políticas pueden entrenarse rápidamente sin incurrir en costos computacionales prohibitivos.

8 Flujo de trabajo del desarrollador: integración de Sonnet 4.5 y DeepSeek en Macaron

Crear una miniaplicación con Macaron implica varias etapas:

  • Comprensión de la intención – Macaron analiza la solicitud del usuario e identifica los componentes necesarios (por ejemplo, fuentes de datos, elementos de interfaz de usuario, APIs externas). Las mejoras en el seguimiento de instrucciones de Sonnet 4.5 ayudan a extraer la intención precisa y planificar los pasos de ejecución, mientras que V3.2‑Exp puede prototipar rápidamente intenciones potenciales para la selección del usuario.
  • Síntesis de programas – El agente utiliza el SDK de Claude Agent para generar código, buscar en el repositorio, leer plantillas y escribir nuevos archivos. Los subagentes pueden especializarse en el front‑end (React) o el back‑end (Python), y la gestión del contexto asegura que el código adecuado esté disponible sin sobrecargar la memoria. Las capacidades de contexto largo y refactorización de código de Sonnet 4.5 producen programas más limpios y mantenibles, mientras que V3.2‑Exp acelera el primer borrador.
  • Ejecución en sandbox – El código generado se ejecuta en un entorno seguro. El agente lee los registros, captura errores y corrige errores de forma iterativa. Los puntos de control proporcionan respaldos seguros, y las señales de recompensa de RL penalizan el código que falla en las pruebas. Macaron también puede realizar pruebas de integración contra servicios externos utilizando las herramientas bash y fetch web del SDK del agente.
  • Interacción y refinamiento – El agente presenta la mini‑app al usuario a través de la interfaz conversacional de Macaron. El motor de memoria almacena la conversación y utiliza RL para decidir qué recuerdos recordar en futuras interacciones. Los comentarios del usuario actualizan el modelo de recompensa e influencian futuras generaciones.

Al integrar Sonnet 4.5 y DeepSeek V3.2‑Exp, Macaron puede personalizar este flujo de trabajo. Por ejemplo, una aplicación de planificación de viajes podría tener al agente generador de UI usando DeepSeek para proponer diseños rápidamente, mientras que la lógica del itinerario y la optimización del horario utilizan Sonnet 4.5 para asegurar precisión y un manejo adecuado de los calendarios. Una aplicación de presupuestos podría depender de DeepSeek para los gráficos y tablas iniciales, pero usar Sonnet 4.5 para cálculos financieros complejos y cumplimiento normativo.

9 Visualización de mejoras

Para ilustrar los beneficios tangibles de estas tecnologías, los siguientes gráficos resumen métricas clave.

Figura 2 – Vista comparativa de Sonnet 4.5 y DeepSeek V3.2‑Exp en precisión de codificación, velocidad relativa, costo y autonomía. Barras más altas representan mejores valores para precisión y autonomía; barras más bajas indican un mejor rendimiento (más rápido o más económico) en eficiencia y costo.

Figura 3 – Los benchmarks internos de Replit muestran que los errores de edición de código se redujeron del 9 % con Sonnet 4 a cero con Sonnet 4.5. La mejora en la capacidad de seguir instrucciones y la refactorización del código conducen a miniaplicaciones más confiables.

Figura 4 – La combinación de DAPO y LoRA en una tubería de RL completamente sincronizada reduce el tiempo de reloj de pared de un paso de entrenamiento de 9 horas a 1,5 horas[41], permitiendo actualizaciones más rápidas a los modelos de recompensa y políticas de memoria.

Estas visualizaciones subrayan que los beneficios no son teóricos. La reducción de los requisitos de GPU, el entrenamiento más rápido, mayor precisión y menores costos contribuyen a una tubería de miniaplicaciones más fluida y eficiente.

10 Direcciones futuras

Mirando hacia el futuro, tanto Anthropic como DeepSeek han insinuado arquitecturas más ambiciosas. El sucesor de Sonnet 4.5 podría expandir las ventanas de contexto, mejorar el razonamiento multilingüe y soportar interacciones de herramientas más complejas. Se espera que la arquitectura de próxima generación de DeepSeek se base en la atención dispersa para lograr un rendimiento aún mayor a un costo menor[31]. Para Macaron, la investigación adicional en memoria autocomprimidaaprendizaje continuo y alineación multilingüe podría mejorar la personalización y la privacidad[43]. La integración de aprendizaje federado permitiría a los usuarios entrenar modelos de memoria localmente, compartiendo solo actualizaciones de modelo, mejorando así el rendimiento colectivo mientras se preserva la privacidad[43]. En el lado del RL, el enfoque de Macaron podría incorporar teorías normativas – utilitarismo, deontología, ética de la virtud – para proporcionar explicaciones de sus acciones[44].

En resumen, la decisión de Macaron de conectarse a Claude Sonnet 4.5 y DeepSeek V3.2‑Exp, impulsado por el Claude Agent SDK, lo posiciona a la vanguardia de la IA personal. Sonnet 4.5 ofrece una calidad inigualable, autonomía extendida y herramientas de desarrollo ricas; DeepSeek proporciona velocidad, eficiencia y flexibilidad de código abierto. Combinado con las técnicas innovadoras de entrenamiento RL y el motor de memoria de Macaron, estos modelos ayudarán a Macaron a construir miniaplicaciones más rápido, de manera más fluida y con menos errores. A medida que la IA personal continúa evolucionando, la combinación de autonomía, seguridad, ética y eficiencia de Macaron sirve como modelo para la innovación responsable.


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Dentro del Motor de Memoria de Macaron: Compresión, Recuperación y Puertas Dinámicas - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [título desconocido]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Construyendo Agentes con el SDK de Claude Code

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Características, Precios y Comparación - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] IA sobre IA: DeepSeek-3.2-Exp y DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] DeepSeek de China lanza un modelo de IA 'intermedio' en camino hacia la próxima generación | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | Escalando All-Sync RL con DAPO y LoRA

https://mindlabs.macaron.im/

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron