Inteligencia Apple 2.0: LLM sin conexión y “Memoria de Escena” en iOS 19.2

Autor: Boxu Li

iOS 19.2 trae mejoras privadas de IA – ¿Por qué tanto revuelo?

La actualización iOS 19.2 de Apple se ha vuelto viral entre los entusiastas de la tecnología por una buena razón: potencia las funciones de “Apple Intelligence” introducidas el año pasado con un poderoso modelo de lenguaje grande (LLM) en el dispositivo y una nueva capacidad de “Memoria de Escena”. En términos simples, tu iPhone o iPad se ha vuelto mucho más inteligente – sin depender de la nube. Los usuarios están emocionados porque esta actualización significa que Siri y otras funciones inteligentes pueden entender mejor el contexto y funcionar completamente sin conexión, preservando la privacidad. Es un avance significativo en la estrategia de IA de Apple, integrando modelos generativos de vanguardia en el uso diario mientras se mantiene la información del usuario en el dispositivo[1]. El entusiasmo se amplifica por la postura de Apple de priorizar la privacidad: obtienes conveniencia impulsada por IA (como respuestas avanzadas de Siri, traducciones en vivo, asistencia para escritura, generación de imágenes, etc.) sin enviar tus datos personales a un servidor[2][3]. Este equilibrio de potencia y privacidad ha posicionado a la IA 2.0 de Apple como un posible cambio de juego en la tecnología de consumo.

Desde la perspectiva del consumidor, el AI de iOS 19.2 se siente más inteligente y consciente del contexto que nunca. El marketing de Apple lo llama “IA para el resto de nosotros, integrada directamente en tu iPhone”[4]. Bajo la superficie, la actualización ofrece un nuevo modelo de base en el dispositivo (el propio LLM compacto de Apple) y lo que llamaremos Memoria de Escena, que juntos permiten interacciones más naturales y conversacionales. Los foros tecnológicos y las redes sociales están llenos de ejemplos, como que Siri ahora puede mantener una conversación continua o sugerir acciones proactivamente basadas en lo que aparece en tu pantalla. En este artículo, desglosaremos qué sucede realmente técnicamente con el LLM en el dispositivo de Apple y Memoria de Escena, y por qué es importante para los usuarios, desarrolladores y aplicaciones de IA personal como Macaron. Vamos a profundizar.

¿Qué es exactamente Apple Intelligence 2.0?

「Apple Intelligence」 es el término general de Apple para las funciones de IA generativa integradas en iOS, iPadOS, macOS, etc[5]. Se lanzó por primera vez en iOS 18 con herramientas como Writing Tools (corrección y reformulación de texto impulsada por IA en cualquier campo de texto), Image Playground (creación de imágenes a partir de texto), resúmenes de notificaciones e incluso un poco de integración de ChatGPT en Siri[6]. Piénsalo como la respuesta de Apple para llevar la asistencia de IA a las tareas cotidianas, pero diseñada para funcionar localmente y de manera segura. Apple Intelligence 2.0 (la iteración en iOS 19.x) amplía enormemente estas capacidades. Según Apple, la base es un nuevo modelo de lenguaje grande en el dispositivo que impulsa funciones en todo el sistema operativo[1]. Además de esto, Apple añadió mejoras como una mejor inteligencia visual (la cámara o la aplicación Fotos reconocen objetos y texto), un diálogo de Siri más natural, y lo más destacado: conciencia de contexto en todo tu dispositivo.

Algunas características destacadas de Apple Intelligence 2.0 incluyen:

  • Modelo de Fundación en el Dispositivo (~3 mil millones de parámetros) – Un modelo de IA generativa desarrollado por Apple que funciona en el Neural Engine de los chips de las series A y M. Permite la generación de texto, resumen, traducción y más de manera local (sin necesidad de internet)[7][3]. A pesar de su tamaño compacto, Apple optimizó este modelo para ser sorprendentemente capaz en una amplia gama de tareas, desde reescribir mensajes hasta responder preguntas. (Profundizaremos en cómo en la siguiente sección.)
  • “Memoria de Escena” (Conciencia de Contexto) – Siri y la inteligencia del sistema ahora pueden recordar y utilizar el contexto de tu “escena” actual (lo que estás haciendo, lo que está en pantalla, interacciones recientes). Por ejemplo, Siri puede mantener el hilo de una conversación de una solicitud a la siguiente[6], u ofrecer agregar una cita a tu calendario cuando estás viendo una invitación a un evento por mensaje de texto. Internamente, Apple ha estado trabajando en la conciencia de contexto personal – lo que significa que Siri llevará un registro de tus mensajes, correos electrónicos, archivos y fotos (de manera privada en el dispositivo) para ayudarte de manera más inteligente[8]. También ha ganado conciencia en pantalla, por lo que sabe qué aplicación o contenido estás viendo y puede actuar en consecuencia (similar a cómo lo haría un asistente humano)[9]. “Memoria de Escena” es un término útil para capturar estas características de contexto que permiten que la IA recuerde la escena actual y reaccione en consecuencia.
  • Acceso de Desarrolladores a la IA (SDK de Modelos de Fundación) – Con iOS 19, Apple abrió su LLM en el dispositivo a los desarrolladores de aplicaciones a través de un nuevo Framework[10][11]. Esto es enorme: las aplicaciones de terceros ahora pueden aprovechar el cerebro de IA de Apple con solo unas pocas líneas de código, habilitando funciones como búsqueda de lenguaje natural sin conexión o creación generativa de texto/imagen dentro de cualquier aplicación. Es importante destacar que esta inferencia en el dispositivo es sin costos de nube – no hay costosas llamadas a la API de OpenAI u otros[12]. Los desarrolladores pueden crear funciones de IA que funcionen incluso sin internet y sin compartir datos del usuario, alineándose con las promesas de privacidad de Apple.
  • Habilidades Multi-Modal Ampliadas – El modelo de Apple no es solo un chatbot de texto; también tiene capacidades de visión. En iOS 19 puede entender imágenes y elementos de interfaz. Por ejemplo, puedes tomar una foto de un folleto y la IA de tu iPhone analizará el texto para crear un evento en el calendario (fecha, hora, ubicación extraídos automáticamente)[13]. La función de Traducción en Vivo puede escuchar el lenguaje hablado y proporcionar texto o audio traducido en tiempo real, completamente en el dispositivo[14]. Estos indican que el LLM está integrado en los sistemas de visión y audio, convirtiéndolo en un asistente de propósito general que “ve” y “oye” además de leer.

En resumen, Apple Intelligence 2.0 se trata de hacer que tu dispositivo sea más inteligente en el lugar: entiende más sobre ti (tu contexto, tu contenido) y puede generar o asistir con contenido al instante, manteniendo todo el procesamiento de IA localmente. La introducción de un potente LLM sin conexión y un sistema de memoria contextual en iOS 19.2 es un momento decisivo para las ambiciones de IA de Apple, así que exploremos el aspecto técnico de cómo lo lograron.

Bajo el Capó: Cómo Funciona el LLM en el Dispositivo de Apple

Ejecutar un modelo de lenguaje grande directamente en un smartphone es una tarea difícil: estos modelos suelen ser enormes, demandan muchos recursos y funcionan en centros de datos en la nube. Apple abordó esto a través de una combinación de compresión de modelos, silicio personalizado e ingeniería ingeniosa para destilar la inteligencia de IA en un paquete que cabe en tu mano. Aquí tienes un desglose:

  • Destilación del modelo y tamaño – El modelo principal en dispositivo de Apple tiene aproximadamente 3 mil millones de parámetros[15], que es mucho más pequeño que gigantes como GPT-4 (cientos de miles de millones de parámetros) pero aún "grande" para un dispositivo. Apple probablemente lo entrenó usando destilación de conocimiento, donde el conocimiento de un modelo "maestro" más grande se transfiere a este modelo "alumno" más pequeño. De hecho, las notas de investigación de Apple describen el uso de un enfoque de Mezcla de Expertos (MoE) para entrenar de manera eficiente un modelo de alta calidad: reciclaron un modelo de 3B en un modelo escaso de 64 expertos para servir como maestro, evitando la necesidad de un modelo denso gigante[16]. Al usar una estrategia inteligente de maestro-alumno (y 14 billones de tokens de datos de entrenamiento para el modelo de servidor), Apple pudo introducir una capacidad sorprendente en 3B parámetros[16][17]. Traducción: Apple enseñó a un cerebro más pequeño a actuar como uno más grande, reduciendo drásticamente el tamaño mientras lo mantenía inteligente.
  • Arquitectura optimizada para velocidad – Para que el modelo funcione más rápido en el dispositivo, Apple no solo lo redujo – rediseñaron partes de él. Por ejemplo, el modelo está dividido en dos bloques para que la memoria (la "caché de clave-valor" del Transformador) se pueda compartir de manera más eficiente entre las capas[18]. Este ajuste solo redujo el uso de memoria caché en ~37.5% y aceleró el tiempo para generar el primer token de una respuesta[18]. También implementaron un novedoso mecanismo de atención entrelazada (combinando ventanas de atención local con una capa de atención global) para manejar mejor entradas de contexto largo sin ralentizar o usar demasiada RAM[19]. Esto significa que el modelo puede tener una "memoria" más larga (apoyando indicaciones o documentos muy largos) – una parte crucial de la función Memoria de Escena – mientras sigue funcionando de manera eficiente en el dispositivo.
  • Cuantización y compresión – Quizás la clave más grande para ajustar un LLM en un iPhone es la cuantización agresiva de los pesos del modelo. Apple aplicó cuantización de pesos de 2 bits para los parámetros principales del modelo mediante entrenamiento consciente de cuantización[20], comprimiendo efectivamente el modelo a una fracción de su tamaño original. (2 bits significa que cada peso se almacena con solo 4 valores posibles). Las capas de incrustaciones están en 4 bits, e incluso la caché de atención se comprime a valores de 8 bits[21]. Luego ajustaron con adaptadores de baja clasificación para recuperar cualquier precisión perdida[21]. El resultado final es un modelo en dispositivo que usa muy poca memoria – la Tabla 1 muestra cuán lejos llega esto. Apple informa solo diferencias de calidad menores después de la compresión (algunos puntos de referencia incluso mejoraron ligeramente)[21]. Este modelo ultracompacto puede residir en la memoria del dispositivo y ejecutarse rápidamente, lo cual es vital para el uso en tiempo real.
  • Motor Neural de Apple (ANE) – El hardware de Apple les da una gran ventaja aquí. Los iPhones y iPads modernos tienen un Motor Neural dedicado con 16 núcleos. Por ejemplo, el chip A17 Pro de Neural Engine puede realizar 35 billones de operaciones por segundo[22]. El modelo base de iOS 19 está diseñado para descargar cálculos a este Motor Neural, que sobresale en matemáticas matriciales en datos de baja precisión (exactamente lo que necesita una red neuronal cuantizada). Al aprovechar el ANE, Apple asegura que el LLM funcione con alto rendimiento y bajo consumo de energía. Las pruebas iniciales en la beta 19.2 indicaron que Apple movió incluso más del trabajo del modelo al Motor Neural, reduciendo significativamente la latencia de extremo a extremo (un informe señaló un aumento del 40% en velocidad en ciertas consultas de IA después de una optimización del Motor Neural)[23]. En términos prácticos, esto significa que cuando le preguntas algo a Siri, la respuesta puede generarse en una fracción de segundo en el dispositivo, sin el retraso de contactar a un servidor.
  • Entradas multimodales – El modelo en dispositivo no solo está leyendo texto; también fue entrenado para manejar imágenes como entrada. Apple añadió un codificador de visión (un Transformer de Visión adaptado) al modelo, para que pueda interpretar datos visuales y alinearlos con el lenguaje[24]. Por ejemplo, si usas la función Visual Look Up de iOS o le preguntas a Siri “¿Qué es esto?” mientras apuntas tu cámara a un objeto, el modelo mismo puede procesar las características de la imagen y producir una respuesta. Esta capacidad de visión+lenguaje es también cómo la memoria de escena se extiende al contexto visual – por ejemplo, compartes una captura de pantalla con Siri y continúas charlando sobre ella. Entrenar el modelo para ser multimodal (en 6 mil millones de pares de imagen-texto a través de un objetivo tipo CLIP[25]) permite que la IA de Apple entienda de manera nativa lo que está en tu pantalla o en tus fotos sin necesitar una API de visión en la nube separada. El trabajo pesado – extraer significado de una imagen – sucede en el dispositivo.

Tabla 1. Técnicas de compresión para los modelos base de Apple (en dispositivo vs. servidor)[20][21]

Variante del Modelo
Precisión de Peso (Decodificador)
Precisión de Embedding
Precisión de Caché KV
Adaptación de Ajuste Fino
En Dispositivo 3B
2 bits (optimizado QAT)
4 bits (QAT)
8 bits
Sí (se usaron adaptadores)
Servidor MoE (grande)
~3.56 bits (compresión ASTC)[20]
4 bits (post-entrenamiento)
8 bits
Sí (se usaron adaptadores)

Apple comprime su modelo en el dispositivo de manera drástica (hasta pesos de 2 bits) para funcionar eficientemente en iPhones y iPads, mientras que el modelo en la nube utiliza una compresión diferente (ASTC) debido a su mayor escala. Ambos modelos luego aplican adaptadores ajustados para mantener la calidad.[20][21]

En esencia, el LLM de Apple en el dispositivo es un cerebro reducido y optimizado que aprovecha al máximo las capacidades del chip de Apple. No puede igualar a un modelo en la nube de 100 mil millones de parámetros en conocimiento puro, pero Apple lo diseñó específicamente para manejar tareas comunes de usuario con rapidez y precisión. Las evaluaciones internas mostraron que el modelo de 3 mil millones se mantuvo firme incluso frente a algunos modelos más grandes de 4 mil millones de parámetros de competidores en muchas tareas[17]. Apple dice explícitamente que este modelo local sobresale en cosas como resumen de texto, comprensión, reformulación y diálogos cortos, aunque “no está diseñado para ser un chatbot para conocimiento general del mundo.”[26] En otras palabras, puede que no sepa cada hecho trivial oscuro (para eso, Siri aún puede usar una búsqueda en línea o usar un modelo en la nube más grande cuando sea necesario[27][28]), pero para ayudarte con tu contenido diario –escribir correos electrónicos, digerir documentos, traducir conversaciones– está altamente afinado. Y lo más importante, funciona completamente en el dispositivo, preparando el escenario para la siguiente sección: los beneficios de la inferencia en el dispositivo y cómo entra en juego la “Memoria de Escena”.

「Memoria de escena」 – El nuevo superpoder de contexto de Siri

Una de las mejoras más notables en iOS 19.2 es cómo Siri (y otras funciones inteligentes) ahora gestionan el contexto. Atrás quedaron los días en que Siri olvidaba lo que acababas de preguntar hace dos segundos: Apple le ha dado una forma de memoria a corto plazo o conciencia de escena. Entonces, ¿qué es exactamente la Memoria de escena? Es la combinación de contexto personal, contexto en pantalla y memoria continua de conversación que permite a la IA de Apple comprender la situación más amplia en torno a la solicitud de un usuario.

  • Continuidad Conversacional: Siri ahora puede mantener el contexto de una solicitud a la siguiente en un diálogo[6]. Esto significa que puedes preguntar, “¿Cuánto mide la Torre Eiffel?” y luego seguir con “¿Podría verla desde Montmartre?” – Siri entiende que “la” se refiere a la Torre Eiffel porque la consulta anterior todavía está en contexto. Esta es una mejora drástica respecto a la antigua Siri, que trataba cada consulta de forma aislada. Las conversaciones de ida y vuelta y las preguntas de seguimiento son finalmente posibles, haciendo que Siri se sienta mucho más natural y conversacional (más cercano al modo de conversación continua de Alexa o Google Assistant, y de hecho, parecido al comportamiento de ChatGPT). La arquitectura de transformador del LLM en el dispositivo es inherentemente buena en este tipo de encadenamiento de indicaciones, y la implementación de Apple almacena el historial de interacciones recientes localmente para que Siri pueda referirse a él. Por supuesto, esta memoria de contexto es efímera y privada – no se sube, solo se mantiene en la RAM durante la sesión.
  • Conciencia de Contexto Personal: iOS 19.2 también le da a Siri un conocimiento más profundo de los datos en tu dispositivo (con tu permiso). Apple describe esto como Siri aprendiendo sobre “tu contexto personal – como tus correos electrónicos, mensajes, archivos, fotos y más – para ayudar en tareas”[8]. Por ejemplo, podrías preguntar, “Siri, ¿a qué hora es mi vuelo mañana?” y Siri podría buscar en tu aplicación Mail para encontrar pases de abordar o en tu Calendario para eventos y encontrar la respuesta, en lugar de decir “No lo sé” como en el pasado. Es esencialmente construir un grafo de conocimiento local sobre ti. Otro escenario: mencionas “el PDF que revisé ayer” – la memoria de contexto personal de Siri puede identificar qué archivo probablemente te refieres basándose en tu actividad reciente y abrirlo. Este indexado local en el dispositivo de tu contenido probablemente fue un objetivo de largo plazo; Apple tuvo la búsqueda de spotlight y sugerencias de Siri durante años, pero ahora el LLM puede aprovechar ese tesoro de manera conversacional. Todo esto se queda en el dispositivo (nada se envía a los servidores de Apple) para mantener la promesa de privacidad de Apple mientras hace que Siri sea notablemente más útil y personalizada.
  • Conciencia de Escena en Pantalla: Quizás el aspecto más inmediatamente útil de la Memoria de Escena es la capacidad de Siri para entender lo que estás viendo o haciendo actualmente en el teléfono – la escena activa. Apple llama a esto conciencia en pantalla, y permite que Siri realice “acciones que involucren lo que estás viendo”[29]. En práctica, esto podría significar: si tienes una receta abierta en Safari, podrías decir “Siri, guarda esto en mis notas” y Siri sabe que “esto” significa la página web que tienes abierta, recortándola automáticamente. O si estás viendo un hilo de texto sobre un evento, puedes decir “Recuérdame esto más tarde” y Siri crea un recordatorio con un enlace a esa conversación. Antes de esto, tales comandos desconcertaban a Siri. Bajo el capó, las APIs de inteligencia del sistema de Apple pueden alimentar el contexto (como la aplicación más frontal, o el texto seleccionado, o el contenido de una página web) en la indicación del LLM. iOS 19 incluso agregó Intents para “Continuar con la Pantalla Actual” para que las aplicaciones puedan exponer lo que está en pantalla a Siri de manera segura. El resultado es un asistente de voz que es consciente de la situación – casi como si estuviera mirando por encima de tu hombro en tu pantalla (¡de una manera útil!). Esta conciencia de escena fue una característica solicitada durante mucho tiempo (otras plataformas hicieron implementaciones parciales), y ahora con la combinación del LLM y la integración del sistema, Siri finalmente podría “entender” lo que quieres decir con “convierte esto a PDF” o “comparte esto con Alicia” sin una docena de preguntas de seguimiento.

Detrás de escena, habilitar la Memoria de Escena fue tanto un desafío de software como uno de IA. Apple tuvo que integrar el LLM con el ejecutor de intenciones tradicional y la base de conocimiento de Siri. Según informes, Apple tiene un nuevo sistema de 「planificador de consultas」 para Siri, que decide cómo cumplir una solicitud, ya sea mediante una búsqueda web, usando datos en el dispositivo o invocando una aplicación a través de Atajos de Siri/Intenciones de Aplicación[30]. El LLM probablemente ayuda a analizar consultas complejas o ambiguas y a mantener el estado conversacional, mientras que el sistema heredado de Siri se encarga de ejecutar comandos (abrir aplicaciones, enviar mensajes, etc.). Apple también está utilizando un módulo de 「resumidor」 para condensar contenido extenso, por ejemplo, al preguntarle a Siri “¿Qué me perdí en los correos electrónicos hoy?”, podría activar el modelo en el dispositivo para resumir tus últimos correos electrónicos[31]. Todas estas piezas trabajan juntas para hacer que Siri sea mucho más proactiva. De hecho, Apple dijo explícitamente que el objetivo es que Siri “tome acciones por ti dentro y a través de tus aplicaciones” aprovechando esta memoria de contexto personal[32]. Básicamente, estamos presenciando la lenta transformación de Siri de un sistema rígido de comandos de voz a un asistente personal flexible que realmente recuerda el contexto y puede razonar sobre él.

Vale la pena mencionar que estas funciones se retrasaron varias veces: Apple las planeó originalmente para iOS 18, luego las pospuso para la 19, y aun así no todas estuvieron en la versión .0[33][34]. Ahora, en iOS 19.2, parece que finalmente se están materializando el contexto personal, la conciencia en pantalla y la integración profunda de aplicaciones[35]. El gran entusiasmo de los consumidores se debe a que la gente está viendo repentinamente a Siri hacer cosas que simplemente no podía hacer antes. El asistente se siente más vivo. Los primeros informes de usuarios mencionan que Siri puede encadenar tareas (como, "Envía estas fotos a mi mamá" mientras se visualiza un álbum; un usuario dijo que Siri lo hizo de una sola vez, reconociendo que "estas fotos" significaban el álbum abierto). Esta es precisamente la promesa de la Memoria de Escenas: menos comandos torpes, más comprensión fluida. Acerca a los usuarios de iPhone a la experiencia de un asistente de IA que hasta ahora a menudo requería servicios en la nube como ChatGPT. Y nuevamente, el diferenciador de Apple es hacerlo sin conexión. Tu dispositivo no está transmitiendo el contenido de tu pantalla a la nube para su análisis; el LLM interpreta el contexto localmente. La privacidad se preserva por diseño[36][37], así que puedes confiar en estas funciones personalizadas sin sentir la inquietante sensación de ser observado por el Gran Hermano.

Para resumir la Memoria de Escena: es la efectiva combinación de la inteligencia artificial destilada de Apple con datos de contexto locales y ricos. Esta combinación desbloquea interacciones mucho más poderosas. Siri finalmente está aprendiendo “de quién/quién/de qué/dónde estás hablando” y puede responder de manera útil. Para un usuario experto en tecnología, significa menos tiempo teniendo que aclarar manualmente las cosas o copiar y pegar entre aplicaciones: el asistente lo resuelve. Aún es temprano (Siri no es perfecto y a veces entiende mal el contexto o necesita pedir aclaraciones), pero es una mejora notable. Con Apple planeando una IA aún más grande en el próximo iOS (se rumorea que Siri será completamente como GPT para iOS 20 en 2026[38]), la Memoria de Escena en 19.2 es un paso fundamental en esa dirección.

Inferencia en el Borde: Por qué la IA en el Dispositivo es Importante

Un tema central en Apple Intelligence 2.0 es la inferencia en el borde – ejecutar IA en el dispositivo del usuario (el “borde” de la red) en lugar de en una nube centralizada. Hemos tocado los medios técnicos, pero aclaremos por qué es importante:

  • Privacidad y Seguridad: Mantener el LLM en el dispositivo significa que tus datos no salen de tu teléfono para ser procesados. Como dice Apple, las conversaciones y contenidos personales permanecen personales[39]. Redacta un correo electrónico con Writing Tools o pregunta a Siri sobre tu agenda – nada de eso necesita ser subido. Esto contrasta claramente con los asistentes en la nube que envían tu voz y contexto a servidores. Incluso cuando Siri de Apple utiliza ayuda de la nube (como la integración de ChatGPT para algunas consultas), lo hace a través de Private Cloud Compute – un sistema donde tus datos están cifrados y no son retenidos por terceros[40][27]. Pero para la mayoría de las tareas en 19.2, el dispositivo puede manejarlas localmente. Esto satisface a los defensores de la cifrado de extremo a extremo y la privacidad, alineándose con la filosofía de marca de Apple. Desde una perspectiva de seguridad, la inferencia en el dispositivo también significa menos exposición a ataques de red o filtraciones; tus solicitudes de IA no viajan por internet donde podrían ser interceptadas.
  • Disponibilidad sin conexión: La IA de borde funciona sin internet. Esto puede ser un salvavidas – imagina que estás viajando sin datos y necesitas una traducción de idiomas, o estás en una zona remota y quieres obtener información de Notas a través de Siri. Con el LLM sin conexión de iOS 19, muchas funciones siguen funcionando. La Traducción en Vivo, por ejemplo, traducirá texto en Mensajes o llamadas habladas incluso si no tienes señal[14], porque el modelo de traducción está en el dispositivo. El diseño de Apple es “primero sin conexión” para funciones de inteligencia centrales. Incluso cachean rutinas de IA frecuentemente usadas y contexto reciente en el dispositivo para que estar sin conexión cause una interrupción mínima[41][42]. Esta robustez es más inclusiva – no todos tienen internet de alta velocidad constante, e incluso en áreas desarrolladas encontramos zonas muertas. Una IA personal que se corta cada vez que estás sin conexión no es muy “personal”. Apple reconoció esto, y Macaron (el agente de IA personal que discutiremos en breve) adopta la misma filosofía: tu IA debería estar ahí para ti en cualquier momento y lugar[43].
  • Baja Latencia e Interacción en Tiempo Real: Cuando la inferencia ocurre en el dispositivo, desaparece el retraso de ida y vuelta a un servidor. Las tareas se sienten más rápidas. Por ejemplo, Resumir en Safari o Mail puede generar un resumen casi al instante, mientras que una API en la nube podría tardar un par de segundos más la latencia de red. La aceleración del Motor Neural de Apple garantiza además que las respuestas lleguen casi en tiempo real. Uno de los puntos destacados es que Apple disminuyó el tiempo de respuesta para ciertas consultas de Siri al descargar trabajo al Motor Neural en 19.2[23]. En términos de experiencia de usuario, esta baja latencia hace que la IA se sienta más receptiva e interactiva, lo cual fomenta más su uso. Puedes hablar con Siri casi tan rápido como con una persona en la misma habitación. De manera similar, funciones como el texto predictivo del teclado (ahora mejorado por el LLM) pueden funcionar con un mínimo retraso, generando incluso sugerencias de frases completas sobre la marcha porque se calcula localmente. También es importante señalar que al hacer inferencias en el dispositivo, Apple evita los costos de servidor y los límites de tasa que a veces estrangulan a los servicios de IA en la nube – no hay cola de servidor ocupada, la atención completa de tu teléfono está en ti.
  • Costo y Sostenibilidad: Ejecutar grandes modelos de IA en la nube para millones de usuarios puede ser exorbitantemente caro (en términos de costos de servidores GPU) y consumir mucha energía. Al trasladar la inferencia a dispositivos de borde, Apple desplaza el cálculo a hardware que ya está en manos de los usuarios (y diseñado para la eficiencia). Apple incluso destacó que los desarrolladores que utilizan el modelo en el dispositivo no incurren en tarifas de uso[3] – un gran incentivo comparado con pagar por cada llamada a una API externa de IA. Desde un ángulo de sostenibilidad, descentralizar la IA podría reducir la carga en los centros de datos (que consumen mucha energía). Cada iPhone realizando una pequeña cantidad de trabajo de IA podría ser más eficiente energéticamente en conjunto que cientos de miles de solicitudes golpeando una granja de servidores central (especialmente dado que el Motor Neural de Apple está optimizado para un alto rendimiento por vatio). A largo plazo, la IA de borde generalizada podría aliviar algunos cuellos de botella y costos de computación en la nube.

Dicho esto, el enfoque de Apple también tiene sus compensaciones. El modelo en el dispositivo, al ser más pequeño, no es tan generalmente conocedor como algo como GPT-4. Apple reconoce que no está destinado a reemplazar un chatbot amplio para cada consulta[26]. Por eso, Apple todavía planea usar modelos extremadamente grandes (incluso el Gemini de 1.2 billones de parámetros de Google a través de un acuerdo) para mejorar la comprensión de Siri sobre el mundo en el futuro[44][27]. Pero lo que han demostrado con iOS 19.2 es que para una gran clase de tareas de asistente personal, un modelo 3B bien diseñado es suficiente – y los beneficios de ejecutarlo localmente son enormes. Es una apuesta estratégica: manejar las tareas personales y contextuales en el dispositivo, y reservar la nube solo para cosas de gran envergadura (con envoltorios de privacidad como Private Compute). Este modelo híbrido de borde-nube podría convertirse en la norma.

Para ver esta estrategia en acción, consideremos a Macaron, un agente de inteligencia artificial personal que se centra en tareas específicas del usuario y en la capacidad offline. Los avances de Apple en la inteligencia artificial en el dispositivo complementan lo que herramientas como Macaron están haciendo.

Mini-Apps de Macaron y el Futuro del Agente Personal de Baja Latencia

Macaron es una plataforma de asistente de IA personal que permite a los usuarios crear “mini-apps” a través de conversaciones, es decir, flujos de trabajo personalizados impulsados por IA para tus necesidades diarias. Si la inteligencia incorporada de iOS es la solución general de Apple para todos los usuarios, Macaron adopta un enfoque más personalizado y dirigido por el usuario: tú le dices lo que necesitas, y crea una solución al instante. Ahora bien, ¿cómo encajan el LLM offline de Apple y la Memoria de Escena en esto? En una palabra: perfectamente.

La filosofía de Macaron enfatiza el diseño offline-first, de baja latencia y centrado en el usuario. Según el equipo de Macaron, una IA verdaderamente personal debería funcionar en cualquier momento y lugar, incluso con mala conectividad, y adaptarse al usuario[43][42]. Esa es exactamente la fortaleza de las mejoras de IA en el dispositivo de Apple. Con el modelo base de iOS 19.2, Macaron puede aprovechar potencialmente la inteligencia en el dispositivo de Apple en lugar de siempre recurrir a las API en la nube. Por ejemplo:

  • Creación instantánea de mini-aplicaciones: Macaron permite a los usuarios decir cosas como “Ayúdame a crear una aplicación de planificación de comidas”, y usa IA generativa para ensamblar una mini-aplicación para ese propósito[45][46]. Si este paso generativo puede ejecutarse en el dispositivo (usando el modelo de Apple a través del nuevo SDK de Foundation Models), la creación ocurre en tiempo real sin retraso del servidor. El usuario podría obtener una mini-aplicación funcional en segundos. Esto también significa que las instrucciones que das (que podrían incluir preferencias personales o datos) permanecen en tu dispositivo durante la generación[3].
  • Comprensión contextual en mini-aplicaciones: Las mini-aplicaciones de Macaron a menudo involucran datos personales, como un rastreador de hábitos o un analizador de finanzas personales, y se benefician de la conciencia del contexto. Ahora, con las capacidades de Scene Memory disponibles, Macaron podría pedir al sistema de inteligencia el contexto en pantalla o personal para incorporar en sus flujos de trabajo de mini-aplicaciones. Por ejemplo, si tienes una mini-aplicación de Macaron para la gestión de correos electrónicos, podría utilizar la nueva capacidad de Siri para resumir correos electrónicos o identificar los importantes (una función que Apple expuso en la suite de inteligencia de iOS 19)[47][48]. Básicamente, Macaron gana un lienzo más inteligente para pintar, gracias a los servicios de IA a nivel de OS de Apple.
  • Experiencia de usuario de agente de baja latencia: Uno de los puntos de venta de Macaron es una experiencia de usuario conversacional y fluida: el agente de IA colabora contigo como un socio. La IA de borde de Apple asegura que las respuestas y acciones ocurran con un mínimo de retraso, lo cual es crucial para mantener un flujo natural. Las mini-aplicaciones de Macaron ahora pueden realizar tareas como traducción de idiomas, reconocimiento de imágenes o análisis de texto en el dispositivo al instante, mientras que antes podrían haber tenido que llamar a APIs en la nube y esperar. Un playbook de Macaron que, por ejemplo, te guíe a través de una receta de cocina podría usar visión en el dispositivo para reconocer ingredientes en tiempo real, o usar el LLM para responder “¿qué puedo sustituir por mantequilla?” sin una búsqueda en Internet. Esto crea una experiencia de asistente más inmersiva y confiable.
  • Privacidad mejorada para IA personal: Macaron, siendo un agente personal, maneja información íntima del usuario (horarios, notas, datos de salud, etc.). Al alinearse con el procesamiento en el dispositivo de Apple, Macaron puede asegurar a los usuarios que su información no sale del dispositivo durante las operaciones de IA. De hecho, Macaron tiene modos explícitos para uso de baja banda ancha o fuera de línea, almacenando en caché datos importantes localmente e incluso usando modelos de respaldo más pequeños cuando es necesario[49][42]. El LLM 19.2 de Apple podría servir como ese modelo fuera de línea, un respaldo capaz que cubre solicitudes básicas cuando la IA completa en la nube no está disponible[42]. La sinergia aquí es que tanto Apple como Macaron están convergiendo en “IA que trabaja para ti en tu dispositivo”, lo que aumenta la confianza y autonomía del usuario.
  • Transferencia de contexto en flujos de trabajo: Las mini-aplicaciones de Macaron son a menudo procesos de varios pasos (Macaron los llama playbooks o microflujos[50]). El concepto de Scene Memory puede ayudar a mantener el estado a lo largo de esos pasos. Supongamos que tienes una mini-aplicación de planificación de viajes: Paso 1 encuentra vuelos, Paso 2 hoteles, Paso 3 crea un itinerario. Con la memoria de contexto, la IA puede llevar información de un paso al siguiente sin tener que volver a solicitar todo. Macaron ya estructura los flujos en fragmentos lógicos para reducir la carga cognitiva[51] – ahora el backend de IA puede llevar un mejor seguimiento de lo que se ha hecho y lo que sigue, incluso manejando cambios de seguimiento como “en realidad, hazlo un día después” con comprensión del plan actual.

En general, la actualización de edge AI de Apple potencia plataformas como Macaron que existen sobre iOS. Nos estamos moviendo hacia un ecosistema donde los agentes de IA personales no están aislados en la nube, sino que viven en nuestros dispositivos personales, trabajando en armonía con la inteligencia del sistema. La visión de Macaron de mini-aplicaciones al alcance de tu mano recibe un impulso porque el sistema operativo subyacente puede ejecutar tareas de IA de manera más fluida. Es significativo que los principios de diseño de Macaron (por ejemplo, contenido adaptativo, personalización profunda, modo offline robusto[52][43]) se alinean tan bien con lo que Apple presentó en iOS 19.2. La UX de agentes de baja latencia y conscientes del contexto que antes parecía futurista está convirtiéndose rápidamente en realidad.

Conclusión: Una Nueva Era de IA Personal, en el Dispositivo

La iOS 19.2 de Apple marca un momento crucial en la evolución de la IA para consumidores: uno donde el poder se desplaza decididamente hacia el usuario. Al implementar un LLM afinado que funciona localmente e introducir la “Memoria de Escena” para el contexto, Apple ha transformado lo que tu iPhone puede hacer. No se trata solo de hacer que Siri sea menos tonta (aunque eso es un resultado bienvenido); se trata de redefinir las expectativas de los usuarios sobre privacidad y capacidad de respuesta en funciones de IA. Ahora puedes tener una cuasi-conversación con tu teléfono, obtener ayuda instantánea de IA con tu contenido y confiar en que tus datos no están siendo secretamente desviados a alguna lejana granja de servidores[39][36]. En una era de creciente preocupación por la privacidad de los datos, el enfoque de Apple de priorizar lo offline proporciona una respuesta convincente a “¿podemos tener una IA avanzada y privacidad?” – aparentemente, sí podemos.

Técnicamente, Apple Intelligence 2.0 es una obra maestra de compresión de modelos, co-diseño de hardware y software, e integración en un sistema operativo de consumo. Demuestra que a través de destilación, cuantificación y optimización, un modelo con miles de millones de parámetros puede funcionar sin problemas en un dispositivo alimentado por batería[18][20]. Esto abre la puerta a más innovaciones: pronto podríamos ver modelos de voz en el dispositivo para una dictado aún más inteligente, o modelos de recomendación locales que aprendan tus preferencias sin entrenamiento en la nube. Apple también ha empoderado a los desarrolladores para aprovechar esta ola a través del marco de Foundation Models[10][11]: espera una nueva cosecha de aplicaciones que aprovechen el LLM en el dispositivo para propósitos creativos y prácticos, todo sin costo o latencia incremental para los usuarios.

Para los usuarios expertos en tecnología, la actualización 19.2 es especialmente satisfactoria. Es como obtener una actualización de hardware a través del software: de repente, tu dispositivo existente puede hacer nuevos trucos que no anticipabas. Los usuarios avanzados disfrutarán probando los límites de contexto de Siri, creando atajos complejos que utilizan el modelo en el dispositivo o ejecutando aplicaciones como Macaron para empujar los límites de la IA personal. También estamos viendo cómo la IA en el borde puede aumentar la accesibilidad: funciones como subtítulos en vivo, simplificación de texto o descripciones de imágenes son más instantáneas y confiables cuando se realizan en el dispositivo, beneficiando a usuarios con discapacidades o conectividad limitada[53][54].

Ciertamente, Apple no está sola en esta tendencia de IA de borde (Qualcomm, Google y otros también están trabajando en la aceleración de IA en el dispositivo), pero la integración estrecha de Apple de silicio personalizado, sistema operativo y características de alto nivel le da una ventaja para ofrecer un producto pulido a millones de usuarios a gran escala. El "gran revuelo de los consumidores" en torno a la IA de iOS 19.2 es un testimonio de que a la gente le importan tanto la capacidad como la confianza. Apple está diciendo efectivamente: no tienes que sacrificar una por la otra. Tu iPhone puede ser inteligente y tuyo al mismo tiempo.

Mirando hacia el futuro, uno puede imaginar Apple Intelligence 3.0 con aún más "memoria de escenas" – tal vez personalización persistente que se acumule con el tiempo (de nuevo, almacenada localmente), o un asistente multimodal completamente unificado que maneje sin problemas texto, voz, visión y acción. La base está en su lugar. Y agentes de IA personales como Macaron florecerán en este entorno, donde cada usuario podría tener una IA única que los conoce profundamente pero que cuida su privacidad.

En resumen, el LLM offline de Apple y la Memoria de Escena en iOS 19.2 representan un hito técnico y una postura ética en uno. Muestran lo que es posible cuando el avance de la IA se combina con el respeto por la privacidad y la experiencia del usuario. Para los usuarios, significa un dispositivo más inteligente y útil. Para los desarrolladores, es un nuevo campo de posibilidades de IA en el dispositivo. Y para la industria, eleva el estándar: el futuro de la IA no está solo en la nube, está aquí mismo en nuestros bolsillos. Bienvenidos a la era de la IA en el dispositivo: donde tu teléfono en sí es el agente inteligente, y se está volviendo más inteligente cada día[7][10].

Fuentes: La información en este artículo está respaldada por anuncios oficiales de Apple e informes técnicos, así como análisis independientes. Las referencias clave incluyen las noticias de la WWDC 2025 de Apple sobre el modelo en el dispositivo y el marco de trabajo para desarrolladores[55][10], el informe técnico de Apple Machine Learning Research sobre sus modelos base (detallando el diseño del modelo 3B, destilación y cuantización)[15][20], y reportes creíbles sobre las nuevas características de contexto de Siri y su despliegue retrasado[35][28]. Estas fuentes y más se citan a lo largo del artículo para verificación y lectura más profunda. Los desarrollos son actuales a finales de 2025, marcando lo último en implementación de IA en el dispositivo.

[1] [2] [3] [5] [6] [7] [10] [11] [12] [14] [39] [47] [48] [55] Apple Intelligence se vuelve aún más poderosa con nuevas capacidades en todos los dispositivos de Apple - Apple (CA)

https://www.apple.com/ca/newsroom/2025/06/apple-intelligence-gets-even-more-powerful-with-new-capabilities-across-apple-devices/

[4] Apple Intelligence - Apple

https://www.apple.com/apple-intelligence/

[8] [9] [29] [32] [33] [34] [35] Apple dice que los usuarios tendrán que conformarse con el Siri regular hasta iOS 19 o 2026 – MacTrast

https://www.mactrast.com/2025/03/apple-says-users-will-have-to-put-up-with-regular-siri-until-ios-19-or-2026/

[13] [15] [16] [17] [18] [19] [20] [21] [24] [25] [26] [36] [37] Actualizaciones de los modelos de lenguaje de base en dispositivo y servidor de Apple - Investigación de aprendizaje automático de Apple

https://machinelearning.apple.com/research/apple-foundation-models-2025-updates

[22] Apple A17 - Wikipedia

https://es.wikipedia.org/wiki/Apple_A17

[23]  Principales desarrollos en IA y tecnología (1-2 de noviembre de 2025)

https://www.jasonwade.com/key-ai-tech-developments-november-1-2-2025

[27] [28] [30] [31] [40] [44] Apple usará un modelo de IA de 1,2 billones de parámetros, muy caro, de Google como apoyo para Siri

https://wccftech.com/apple-will-use-a-1-2-trillion-parameter-very-expensive-ai-model-from-google-as-a-crutch-for-siri/

[38] iOS 19 permitirá a los desarrolladores usar los modelos de IA de Apple en sus aplicaciones - MacRumors

https://www.macrumors.com/2025/05/20/ios-19-apple-ai-models-developers/

[41] [42] [43] [49] [50] [51] [52] [53] [54] Cómo se Adapta la IA de Macaron a Cada Usuario - Macaron

https://macaron.im/blog/macaron-ai-adaptive-accessibility-features

[45] [46] Macaron AI en Acción: Creando Mini-Apps Personalizadas al Alcance de la Mano - Macaron

https://macaron.im/blog/macaron-personalized-ai-solutions

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron