De Grok 1 a Grok 5: La evolución de la infraestructura y los modelos de IA de xAI

Autor: Boxu Li

Grok de xAI ha evolucionado rápidamente de ser un chatbot innovador en X a convertirse en una plataforma de IA a escala de vanguardia. En este análisis profundo, se examina cómo la infraestructura subyacente y las capacidades del modelo de Grok han progresado a través de Grok-1, 2, 3 y 4, y qué podemos esperar del próximo Grok-5.

¿Qué es xAI Grok? Un resumen rápido

Grok es la familia de modelos de lenguaje grande (LLM) insignia desarrollada por la startup de IA de Elon Musk, xAI. Comenzó a finales de 2023 como un chatbot orientado al consumidor en X (anteriormente Twitter) con una personalidad un poco rebelde y astuta. Lo que hizo que Grok se destacara de inmediato fue su conciencia en tiempo real: a diferencia de la mayoría de los LLM con datos de entrenamiento obsoletos, Grok estaba estrechamente integrado con el feed en vivo de X y podía realizar búsquedas en la web al instante[1]. En la práctica, Grok es un híbrido entre un LLM y un agente de datos en vivo: puede obtener la información más reciente de las publicaciones de X y la web, luego incorporar esos hechos con citas en sus respuestas[1]. Este bot al estilo de “Guía del autoestopista galáctico” estaba dispuesto a responder casi cualquier cosa (incluso preguntas “picantes” que otras IA podrían rechazar), lo que atrajo atención, y algo de controversia, por su enfoque sin filtros.

Bajo el capó, Grok no es un único modelo, sino una familia de modelos y herramientas. Desde el principio, xAI liberó el modelo base Grok-1 (una enorme red de 314 mil millones de parámetros) bajo una licencia Apache-2.0, señalando una estrategia inusualmente abierta. Desde entonces, xAI ha iterado rápidamente: Grok-1.5 añadió un contexto largo y visión multimodal, Grok-2 mejoró la velocidad y el soporte multilingüe, Grok-3 introdujo modos de razonamiento explícito, y Grok-4 (y 4 “Heavy”) avanzó en el territorio multi-agente con el uso de herramientas y sub-agentes cooperativos. Ahora se puede acceder a Grok a través del chatbot de Grok en X, mediante la API de xAI, e incluso a través de plataformas en la nube (Oracle Cloud lista a Grok-4 como una oferta de modelo de primera clase[2][3]). En resumen, Grok ha evolucionado de un chatbot atrevido a una completa pila de IA, una pila centrada en la búsqueda de la verdad, la integración en tiempo real y el razonamiento intensivo.

Dentro de la Infraestructura de Grok: Supercomputadora Colossus y Pila JAX+Rust

Detrás de la interfaz conversacional de Grok se encuentra uno de los superordenadores de IA más potentes del mundo. Colossus – el mega-clúster de GPU de xAI en Memphis, Tennessee – fue construido para entrenar y operar Grok a escala fronteriza. Anunciado a mediados de 2024 y denominado el “Superclúster de Memphis” por Musk, Colossus fue diseñado para albergar hasta 100,000 NVIDIA H100 GPUs conectadas a través de una única red RDMA de alta velocidad. En palabras de Musk, “Es el clúster de entrenamiento de IA más poderoso del mundo!”. El centro de datos que alberga a Colossus es una instalación de 150 MW que fue construida en solo 122 días, ¡un logro tan rápido que atrajo la atención de los medios y hasta un recorrido en video de ServeTheHome.

Diseño de Hardware: La unidad básica de Colossus es un rack de Supermicro refrigerado por líquido que contiene 8 servidores, cada uno con 8× GPUs NVIDIA H100 (64 GPUs por rack). Cada rack también tiene una unidad de distribución de refrigerante (CDU) y conmutadores de red de alta velocidad, y los racks se agrupan en pods de 8 (512 GPUs) que forman mini-clusters. Este diseño homogéneo y modular facilita la escalabilidad y gestión. Todos los componentes – GPUs, CPUs Xeon duales, conmutadores PCIe – están refrigerados por líquido, lo cual es esencial dado el calor generado por la H100 y el presupuesto de energía de la instalación de 150MW. La red utiliza la arquitectura Ethernet Spectrum-X de NVIDIA y DPUs BlueField-3 para lograr más de 400 Gbps por nodo, lo que permite que las GPUs de los racks se comuniquen a velocidades extremas[4][5]. En resumen, xAI construyó Colossus para minimizar cuellos de botella: interconexiones rápidas, refrigeración para una alta utilización sostenida y alimentación/refrigeración redundante para que ninguna falla detenga el entrenamiento.

Escalabilidad y Computación Híbrida: A mediados de 2024, xAI tenía aproximadamente 32,000 H100 en línea con planes para aumentar a 100,000 para fin de año. También anunciaron una expansión (“Colossus 2”) con 300,000 GPUs de próxima generación (NVIDIA B200s) para 2025[6]. Incluso mientras construían su propio centro de datos, xAI no se basó en una sola fuente de cómputo: alquilaron alrededor de 16,000 GPUs H100 en Oracle Cloud y también recurrieron a AWS y centros de datos de repuesto de X (Twitter)[7]. Esta estrategia híbrida le dio a xAI la flexibilidad de comenzar a entrenar modelos grandes de inmediato (usando GPUs en la nube) y luego migrar gradualmente las cargas de trabajo a su supercomputadora interna. Para finales de 2025, se informa que Colossus incluirá 150,000 GPUs H100 (más decenas de miles de GPUs H200 más nuevas) mientras xAI se preparaba para Grok-4 y más allá.

Pila de Software: Para aprovechar este hardware, xAI desarrolló un marco de entrenamiento distribuido personalizado centrado en JAX (la biblioteca de matrices y ML de alto rendimiento de Google), con una capa de orquestación basada en Rust que se ejecuta en Kubernetes[8]. En palabras de xAI, “El entrenamiento de LLM funciona como un tren de carga avanzando a toda velocidad; si un vagón descarrila, todo el tren se sale de la vía.” Mantener alta fiabilidad y Utilización de FLOP del Modelo (MFU, por sus siglas en inglés) en miles de GPUs fue una prioridad máxima. El orquestador de entrenamiento de xAI detecta automáticamente y expulsa cualquier nodo que comience a fallar (por ejemplo, errores de hardware) y puede reiniciar sin problemas fragmentos del trabajo si es necesario[9]. El punto de control de cientos de gigabytes de estado del modelo se realiza de manera tolerante a fallos para que una sola falla del servidor no elimine días de progreso. Esencialmente, xAI trató la infraestructura como un problema de primera clase, invirtiendo en herramientas para mantener ocupadas más de 10,000 GPUs incluso cuando falla el hardware o cuando se experimenta con nuevas arquitecturas de modelos. Esta pila de JAX + Rust + Kubernetes le da a xAI la capacidad de escalar trabajos a través del clúster Colossus y de iterar rápidamente en variantes de modelos (como se evidencia por la rapidez con que se han lanzado las versiones de Grok). Es una filosofía similar a la infraestructura basada en TPU de Google o la pila de software de OpenAI, pero xAI la ha adaptado para mezclar clústeres de GPU y para enfatizar la resiliencia ante fallos.

Evolución del Modelo Grok: Arquitectura y Capacidades de 1 a 4

Grok-1: Una Fundación de Mezcla de Expertos con 314 Mil Millones de Parámetros

La primera versión completa, Grok-1, se presentó a finales de 2023 como un LLM de clase frontera desarrollado en aproximadamente cuatro meses. La arquitectura de Grok-1 es un Transformer de Mezcla de Expertos (MoE), esencialmente un modelo disperso donde diferentes “expertos” (subredes) manejan diferentes tokens. En términos de escala, Grok-1 es enorme: 314 mil millones de parámetros en total, con 64 capas de Transformer y 48 cabezas de atención. Utiliza un vocabulario de 131k tokens y un tamaño de incrustación de 6,144, y la ventana de contexto en la versión abierta era de 8,192 tokens. Sin embargo, solo una fracción de esos 314 mil millones de pesos están activos por token. El diseño MoE significa que cada token pasa por una red de compuertas que selecciona 2 expertos (módulos de avance) de un gran conjunto, por lo que aproximadamente 1/8 de los parámetros podrían usarse para un token de entrada dado. Esto permite que Grok-1 logre la capacidad de representación de un modelo de más de 300 mil millones mientras calcula solo el equivalente a ~79 mil millones de parámetros por token, lo que supone un gran avance en eficiencia de entrenamiento e inferencia.

Esquema de una capa de Mixture-of-Experts en un LLM. En lugar de activar cada neurona para cada entrada, un modelo MoE como Grok-1 utiliza una red de compuerta para dirigir los datos de cada token a través de un pequeño subconjunto de redes expertas (activación dispersa), y luego combina los resultados. Esto permite tener un número masivo de parámetros totales sin un crecimiento lineal en el costo de computación.

El enfoque MoE de Grok-1 fue validado por su rendimiento. Al lanzarse, xAI informó que Grok-1 obtuvo un 73% en el benchmark de conocimiento MMLU y un 63.2% en HumanEval para codificación – superando a modelos como GPT-3.5 de OpenAI e Inflection-1, y siendo solo superado por GPT-4 en esa era de finales de 2023. Pruebas independientes confirmaron las fuertes habilidades de Grok-1 en matemáticas y razonamiento para su clase de computación. Por ejemplo, Grok-1 fue capaz de aprobar un examen de matemáticas de secundaria húngara con una calificación de C (59%), igualando a Claude 2 de Anthropic (55%) y no muy lejos de GPT-4 (68%) bajo las mismas condiciones. Esto fue notable porque Grok-1 logró tales resultados con menos computación total de entrenamiento que GPT-4, demostrando la eficiencia de entrenamiento de xAI.

Sin embargo, Grok-1 también era un consumidor de recursos. Ejecutar el modelo completo de 314B en precisión de 16 bits requiere un estimado de ~640 GB de VRAM para la inferencia. Ese tipo de demanda significa que ningún servidor individual puede alojarlo; necesitas particionamiento multi-GPU solo para servir el modelo, y aún más GPUs (con paralelismo de datos) para entrenarlo. Esto dejó claro por qué xAI construyó Colossus y por qué la interconexión de alta velocidad es crítica: a escala de Grok-1, la memoria y el ancho de banda de GPU son a menudo los factores limitantes. De hecho, los ingenieros de AMD demostraron Grok-1 en un servidor MI300X de 8 GPUs (el MI300X tiene 192GB por GPU, uno de los pocos que podría manejar las demandas de memoria de Grok-1). En resumen, Grok-1 demostró que xAI podía entrenar un modelo de clase GPT-3.5 desde cero, pero también llevó al límite el hardware, necesitando el masivo clúster y el conjunto de entrenamiento personalizado descritos anteriormente.

Grok-1.5: Contexto Largo y Visión Multimodal

xAI no se detuvo en el Grok-1 básico. En marzo de 2024, anunciaron Grok-1.5, que trajo dos mejoras importantes: una ventana de contexto de 128,000 tokens y mejoras sustanciales en habilidades matemáticas y de codificación. Grok-1.5 tenía aproximadamente la misma arquitectura y cantidad de parámetros que Grok-1 (xAI no reveló nuevas cifras de parámetros, lo que implica que fue un perfeccionamiento del modelo existente), pero podía manejar entradas 16 veces más largas y utilizar técnicas de “supervisión escalable” para mejorar el razonamiento. Lograr un contexto de 128k no es trivial: probablemente involucró nuevos esquemas de codificación posicional y planes de entrenamiento para asegurar que el modelo no olvidara cómo manejar indicaciones cortas. El resultado fue impresionante: Grok-1.5 demostró recuerdo perfecto de la información en toda la ventana de 128k en pruebas internas[10], y sobresalió en tareas de “aguja en un pajar” donde un fragmento relevante podría estar escondido en lo profundo de un documento largo.

Crucialmente, el razonamiento y la resolución de problemas de Grok-1.5 dieron un salto de nivel. En el desafiante benchmark MATH (problemas matemáticos a nivel de competencia), Grok-1.5 obtuvo un 50.6%, más del doble del 23.9% de Grok-1. Alcanzó un 90% en GSM8K, un conjunto de problemas matemáticos de palabras (desde el ~63% de Grok-1). Y para la generación de código, Grok-1.5 alcanzó un 74.1% en HumanEval, subiendo desde el 63%. Estos avances acercaron a Grok al nivel de GPT-4 en tareas cuantitativas; de hecho, se informó que Grok-1.5 igualó o superó a Claude 2 de Anthropic y PaLM 2 de Google en muchos puntajes de referencia. Para lograr esto, xAI utilizó técnicas como el encadenamiento de pensamientos y quizás incorporó más ajuste fino en datos de código y matemáticas. Grok-1.5 también introdujo un modelo de “tutor de IA” en el ciclo de entrenamiento, esencialmente revisores asistidos por humanos y herramientas que generaron demostraciones de razonamiento de alta calidad para afinar la resolución de problemas paso a paso de Grok[11]. Este fue el comienzo del enfoque de xAI en la supervisión asistida por herramientas, que veremos más en versiones posteriores.

En abril de 2024, xAI llevó las cosas más allá con Grok-1.5V, una extensión multimodal que podía procesar imágenes además de texto. Grok-1.5V (“V” de visión) tomó el Grok-1.5, que ya era experto en matemáticas y contextos largos, y le dio ojos: fue entrenado para interpretar fotografías, diagramas, capturas de pantalla y otras entradas visuales junto con el texto. El modelo demostró inmediatamente su valía al superar a GPT-4V de OpenAI y a otros pares con capacidad de visión en un nuevo referente llamado RealWorldQA, que pone a prueba la comprensión espacial en imágenes reales. Grok-1.5V obtuvo un 68.7% en RealWorldQA, frente al 60.5% de GPT-4V y el 61.4% de Google Gemini. En términos prácticos, Grok-1.5V podía responder preguntas sobre lo que ocurre en una foto, analizar un gráfico o documento, y luego razonarlo con la misma capacidad de contexto largo que tenía para el texto. Este salto multimodal mostró el compromiso de xAI con una IA que no es solo un predictor de texto, sino un motor de razonamiento más holístico que puede entender datos complejos del mundo real. También preparó el terreno para que Grok se utilizara en aplicaciones como el análisis de imágenes médicas o la depuración de capturas de pantalla de interfaces de usuario, áreas en las que Musk insinuó un futuro crecimiento.

Grok-2: Escalando y Pasando a Tiempo Real

Grok-2 llegó a finales de 2024 y marcó una transición de una “vista previa propietaria” a un modelo más ampliamente disponible. xAI abrió el acceso a Grok para todos los usuarios en X alrededor de este tiempo, indicando confianza en la robustez de Grok-2[12][13]. Técnicamente, la arquitectura de Grok-2 no fue un cambio radical, seguía siendo un LLM basado en MoE con un contexto amplio (probablemente 128k). Pero xAI pasó la segunda mitad de 2024 refinando la velocidad, multilingüismo y uso de herramientas de Grok-2. Un modelo actualizado de Grok-2 en diciembre de 2024 era “3× más rápido” en inferencia, mejor en seguir instrucciones y fluido en muchos idiomas[13][14]. Esto sugiere que optimizaron el enrutamiento de MoE y tal vez destilaron partes del modelo para mayor eficiencia. xAI también introdujo una variante más pequeña, Grok-2-mini, para servir a casos de uso sensibles al costo o de menor potencia (posiblemente análogo al GPT-3.5 Turbo de OpenAI frente al GPT-4 completo).

Una de las características principales de Grok-2 fue la Búsqueda en Vivo con citas. Grok ahora podía realizar búsquedas en la web automáticamente o escanear publicaciones en X al responder una pregunta, y luego proporcionar citas en su salida[15]. Esto efectivamente integró un motor de búsqueda y verificador de hechos en el flujo de trabajo del modelo. Según xAI, la integración de Grok-2 con X le permitió tener conocimiento en tiempo real de noticias de última hora, temas de tendencia y datos públicos, dándole una ventaja en consultas sobre eventos actuales[1]. Por ejemplo, si se le preguntaba sobre un partido deportivo que ocurrió “anoche”, Grok-2 podía buscar el resultado y citar un artículo de noticias o una publicación en X con el resultado. Esta capacidad en tiempo real se convirtió en un punto de venta único — a diferencia de GPT-4 que tenía un límite de entrenamiento fijo (y solo más tarde agregó un complemento de navegación), Grok nació conectado a datos en vivo. Desde una perspectiva de ingeniería, la función de Búsqueda en Vivo involucraba un subsistema tipo agente: el mensaje de Grok podía activar una herramienta interna que consultaba X o APIs web, y el texto recuperado se añadía al contexto de Grok (junto con la URL fuente) para la respuesta final[1][16]. xAI expuso controles para que los usuarios o desarrolladores decidieran si Grok debía buscar automáticamente, buscar siempre o permanecer únicamente con conocimiento interno[1][11].

Grok-2 también mejoró la accesibilidad y el costo. Para diciembre de 2024, xAI hizo que el chatbot Grok fuera gratuito para todos los usuarios de X (con niveles de pago que solo ofrecen límites de tasa más altos)[13]. También lanzaron una API pública con modelos Grok-2 a un precio de $2 por millón de tokens de entrada (un precio agresivo que socava a muchos competidores)[17]. Este movimiento posicionó a Grok-2 no solo como algo exclusivo de X, sino como una plataforma general para desarrolladores. Técnicamente, el entrenamiento de Grok-2 probablemente incorporó millones de interacciones de usuarios de la beta de Grok-1, más un gran modelo de recompensa para la alineación. El equipo de Musk mencionó el uso de “tutores de IA” (revisores humanos) para curar datos de ajuste fino y un enfoque en hacer que Grok sea políticamente neutral pero aún humorístico[11][18]. Hubo inconvenientes: el estilo sin censura de Grok llevó a algunas salidas ofensivas, que xAI tuvo que abordar con filtros de seguridad actualizados y “refrenando” la tendencia de Grok a repetir los tweets personales de Musk en sus respuestas[19]. Al final del ciclo de Grok-2, xAI había encontrado un mejor equilibrio: Grok aún podía ser atrevido, pero era menos probable que produjera contenido no permitido o sesgo, gracias a un RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) más ajustado y a indicaciones del sistema.

Grok-3: Modos de Razonamiento y Resolución de Problemas en Múltiples Pasos

Lanzado a principios de 2025, Grok-3 representó un salto en hacer que el modelo pensara de manera más transparente. xAI describió a Grok-3 como su “modelo más avanzado hasta la fecha”, destacando sus fuertes habilidades de razonamiento. Bajo el capó, Grok-3 aumentó el cálculo de entrenamiento en 10× en comparación con Grok-2, lo que sugiere un modelo más grande o simplemente una ejecución de entrenamiento mucho más larga con más datos. Es posible que xAI aumentara el número de expertos o capas, pero no revelaron nuevos recuentos de parámetros. En cambio, el enfoque estaba en cómo Grok-3 manejaba las tareas de razonamiento. Introdujo modos de inferencia especiales: un modo “Pensar” donde el modelo mostraría su cadena de pensamiento (esencialmente permitiendo a los usuarios echar un vistazo a su razonamiento paso a paso en un panel separado), y un modo “Gran Cerebro” para consultas complejas, que asignaba más computación (o tal vez realizaba múltiples pasadas de razonamiento) para producir una respuesta más completa. Estas características estaban en línea con la tendencia de la industria de “dejar que el modelo razone en voz alta” para aumentar la transparencia y precisión.

En comparativas y evaluaciones, Grok-3 cerró gran parte de la brecha con GPT-4. Los medios tecnológicos informaron que Grok-3 igualó o superó al GPT-4 de OpenAI (la versión original, no la hipotética GPT-4.5) en muchas pruebas académicas y de codificación. Por ejemplo, se dijo que Grok-3 alcanzó resultados a la par con GPT-4 y Claude 2 en las pruebas de razonamiento ARC Advanced y MMLU, y destacó especialmente en tareas de matemáticas/programación, donde los modelos Grok ya tenían ventaja. Una pista temprana de la fortaleza de Grok-3: alcanzó más del 90% en GSM8K (casi perfecto en problemas matemáticos de primaria) y más del 75% en HumanEval, situándolo firmemente en el territorio de GPT-4 para esas categorías. Además, Grok-3 mejoró su comprensión multilingüe, haciéndolo más competitivo a nivel global.

Desde una perspectiva de infraestructura, Grok-3 fue cuando xAI realmente se inclinó hacia el uso de herramientas. El modelo podía llamar a herramientas externas como calculadoras, búsquedas, intérpretes de código, etc., de manera más fluida, y el sistema incorporaba esos resultados en las respuestas. Esencialmente, Grok-3 comenzó a difuminar la línea entre un LLM y un marco de agente. En lugar de esperar que un gran modelo haga todo internamente, Grok-3 dividía una consulta compleja en pasos, utilizaba herramientas o subrutinas para ciertos pasos (por ejemplo, recuperar un documento, ejecutar código Python, verificar una prueba) y luego componía la respuesta final. Este enfoque anticipaba lo que vendría en Grok-4 Heavy. También se alinea con las menciones en la hoja de ruta de investigación de xAI sobre verificación formal y supervisión escalable – Grok-3 podía utilizar verificadores externos o materiales de referencia para verificar sus propios resultados en situaciones críticas[20][21]. Todo esto hizo que Grok-3 fuera un asistente más confiable y capaz, llevándolo más allá de ser solo una alternativa habladora a GPT-3 a algo más cercano a un investigador de IA que puede citar fuentes y resolver problemas de múltiples pasos de manera confiable.

Grok-4 y Grok-4 Heavy: Colaboración Multi-Agente y Rendimiento Fronterizo

A mediados de 2025, xAI lanzó Grok-4, llamándolo “el modelo más inteligente del mundo”. Aunque tales afirmaciones deben tomarse con cautela, Grok-4 está indudablemente entre los modelos de primer nivel de 2025. El gran cambio con Grok-4 es que ya no es solo un modelo único; especialmente en la configuración Grok-4 Heavy, es esencialmente varios modelos especializados trabajando en conjunto. xAI construyó Grok-4 como un sistema multiagente: cuando haces una pregunta compleja, Grok-4 puede activar internamente diferentes “expertos” (agentes) para abordar partes del problema, luego agregar sus hallazgos. Por ejemplo, una sesión de Grok-4 Heavy podría desplegar un agente para realizar una búsqueda en la web, otro para analizar una hoja de cálculo y otro para escribir código, con un agente coordinador orquestando estas subtareas. Esto es similar en espíritu a proyectos como AutoGPT de OpenAI o los agentes de “IA Constitucional” de Anthropic, pero xAI lo integró a nivel de producto: Grok-4 Heavy es la versión multiagente de Grok que los usuarios empresariales pueden consultar directamente.

El resultado de este diseño es que Grok-4 sobresale en tareas muy complejas y de largo plazo. Puede mantener un hilo consistente a lo largo de millones de tokens (la documentación de la API de xAI lista Grok-4.1 Fast con una ventana de contexto de 2,000,000 tokens para ciertas variantes), lo cual es efectivamente ilimitado para la mayoría de los usos del mundo real. Los agentes de Grok-4 pueden realizar recuperación y razonamiento en paralelo, haciéndolo mucho más rápido en tareas como investigación exhaustiva o generación de planes detallados. En evaluaciones de referencia diseñadas para probar razonamiento avanzado (como Humanity’s Last Exam, un examen simulado de doctorado con 2500 preguntas), Grok-4 supuestamente obtuvo un 40% de puntuación – más alto que muchos contemporáneos e indicativo de un razonamiento muy fuerte sin entrenamiento previo[2][22]. En los puntos de referencia de codificación y QA, se ha observado que Grok-4 Heavy supera a los sistemas de modelo único más fuertes, gracias a su capacidad para evitar errores mediante la verificación doble del trabajo a través de múltiples agentes[22][20].

Grok-4 también llevó las integraciones de herramientas nativas a la madurez. El modelo puede usar de forma autónoma un conjunto de herramientas alojadas por xAI: navegación web, ejecución de código, una base de datos vectorial para recuperación, análisis de imágenes y más. Cuando llega una consulta de usuario, Grok-4 (especialmente en modo “razonamiento”) decidirá si y cuándo llamar a estas herramientas. Todo esto se transmite al usuario con total transparencia: podrías ver a Grok decir “Buscando documentos relevantes...”, y luego citar esos documentos en la respuesta final. El sistema está diseñado para que el uso de herramientas sea fluido y el usuario no tenga que orquestarlo; solo haces una pregunta en lenguaje sencillo, y Grok se encarga del resto. Notablemente, xAI no cobra las llamadas a herramientas durante la beta (quieren fomentar el uso intensivo de herramientas para mejorar las capacidades del modelo).

Uno de los derivados más especializados de Grok-4 es grok-code-fast-1, un modelo enfocado en código, y Grok 4.1 Fast (Razonamiento y No Razonamiento), que están optimizados para alto rendimiento y se ofrecen incluso de forma gratuita en algunos casos. Esto muestra la estrategia de xAI de ofrecer diferentes tamaños y velocidades de Grok para distintas necesidades, desde el 4.1 Fast gratuito pero aún poderoso (con reducción de alucinaciones debido al uso de herramientas) hasta el agente Heavy premium para análisis empresariales.

En términos de alineación, el lanzamiento de Grok-4 estuvo acompañado de garantías de seguridad más fuertes (después de los incidentes con Grok-3, donde hizo chistes antisemitas y estuvo brevemente en problemas [19]). xAI implementó filtros más estrictos y enfatizó que las respuestas de Grok no están influenciadas por las opiniones personales de Musk [19]. También introdujeron un mecanismo de retroalimentación donde los usuarios podían calificar las respuestas, contribuyendo a un ajuste continuo. A finales de 2025, Grok no había tenido más incidentes públicos importantes, lo que sugiere que la combinación de RLHF, tutores IA especializados (expertos en el dominio que ajustan el modelo en áreas sensibles) y autoevaluaciones de múltiples agentes estaba funcionando mejor. De hecho, xAI experimentó un cambio hacia “tutores IA especializados” en 2025, prefiriendo a expertos en la materia para curar los datos de entrenamiento (por ejemplo, matemáticos, abogados, etc. revisando resultados) en lugar de trabajadores generales del público. Esto probablemente mejoró la precisión factual de Grok-4 y redujo los sesgos en áreas específicas.

A continuación se presenta un resumen de la evolución del modelo Grok de 2023 a 2025, destacando especificaciones y capacidades clave:

Tabla: Evolución de los Modelos Grok de xAI (2023–2025)

Modelo

Lanzamiento

Arquitectura y Tamaño

Ventana de Contexto

Características Notables

Referencias / Rendimiento

Grok-0

Mediados de 2023 (interno)

33B transformer denso (prototipo)

4K tokens (est.)

Prototipo LLM inicial (nivel ≈LLaMA-2 70B)

~57% GSM8K, ~66% MMLU (5-tiros)

Grok-1

Nov 2023

314B MoE (64 capas, 48 cabezas; 2 expertos por token)

8K tokens

Pesos de código abierto; fuerte en matemáticas y codificación

73% MMLU, 63.2% HumanEval; 59% en un examen de matemáticas nuevo

Grok-1.5

Mar 2024

~314B MoE (refinado)

128K tokens

Contexto largo; mejor razonamiento y matemáticas

50.6% MATH, 90% GSM8K, 74.1% HumanEval

Grok-1.5V

Abr 2024

Grok-1.5 + Codificadores de Visión

128K tokens

Multimodal (comprensión de imagen + texto)

68.7% RealWorldQA (vs 60.5% GPT-4V) – mejor en razonamiento visual

Grok-2

Ago 2024

~314B MoE (optimizaciones de inferencia más rápidas)

128K tokens (32K para la variante de visión)

Búsqueda web y citas; multilingüe; generador de imágenes “Aurora”

Igualó a GPT-4 Turbo en muchas tareas (según pruebas internas); 3× más rápido que 1.5[13]

Grok-2.5

Ago 2025

(Variante de código abierto de Grok-2.5 anunciada)

128K+ tokens

Pesos para ser abiertos (Musk prometió Grok-2.5 de código abierto)

–

Grok-3

Feb 2025

Posiblemente MoE más grande (10× computación de entrenamiento vs 2)

131K tokens (efectivamente largo)

Modo “Think” (muestra cadena de pensamiento); mejor uso de herramientas

~88–90% GSM8K, acercándose a GPT-4 en referencias HHH (datos no oficiales)

Grok-4

Jul 2025

Sistema multi-agente (LLM base + herramientas + agentes)

256K tokens (Grok-4.0); hasta 2M en 4.1

Llamada de herramienta nativa; modo “Heavy” ejecuta múltiples agentes en paralelo

~42% en el Último Examen de la Humanidad[2] (estado del arte); fuerte en tareas complejas

Grok-4.1 Rápido

Nov 2025

Grok-4 Optimizado (multimodal)

2M tokens

Modelo de alta velocidad, bajo costo (nivel gratuito); modo sin razonamiento disponible

Ligera caída de calidad frente a Heavy, pero sobresale en consultas en tiempo real

Grok-5 (rumorado)

Esperado 2026

Arquitectura de próxima generación (“Proyecto Valis”) posiblemente >1T parámetros (sparse) + componentes GNN

Tokens multimillonarios (esperado)

“Modo Verdad 2.0” con un Motor de Realidad para verificación de hechos; más agentes autónomos; multimodal++

Aspira a rivalizar con GPT-5 y Google Gemini 3 en todos los aspectos[24][21]

Fuentes: Anuncios oficiales de xAI, informes de medios[22], y rumores sobre Grok-5[21].

Fortalezas y Limitaciones de Grok en 2025

Con Grok-4, xAI ha logrado establecer un nicho claro en el panorama de la IA. Las principales fortalezas de Grok en 2025 incluyen:

Habilidades excepcionales de razonamiento y matemáticas: Todas las versiones de Grok han demostrado un talento para los acertijos lógicos, problemas cuantitativos y codificación. Grok-4 Heavy, en particular, aprovecha múltiples agentes de razonamiento para desglosar problemas, lo que lleva a menos errores en tareas difíciles (como pruebas largas o desafíos de codificación complejos) en comparación con LLMs individuales. Los benchmarks como MATH, GSM8K y HLE colocan a Grok-4 en la cima o cerca de la cima de la clasificación[2].
Integración de conocimiento en tiempo real: Grok es posiblemente el modelo más actualizado disponible gracias a su integración con X y la web. No solo tiene un límite de entrenamiento más reciente que muchos (Grok-4 fue entrenado con datos probablemente hasta mediados de 2025), sino que también puede obtener información en vivo bajo demanda[1]. Para cualquier caso de uso que requiera datos actuales – análisis de noticias, eventos bursátiles, tendencias en redes sociales, etc. – Grok es extremadamente útil. Citará fuentes para estos hechos en tiempo real, facilitando la verificación de respuestas[15].
Capacidad masiva de contexto y retención: Con hasta una ventana de 2 millones de tokens en algunas versiones, Grok puede memorizar efectivamente códigos completos o documentos extensos de una sola vez. Esto es transformador para tareas como revisar miles de páginas de contratos, analizar años de registros o realizar revisiones de literatura en profundidad – Grok puede mantener todo ese contexto “en mente” y establecer conexiones a través de él. Además, xAI diseñó Grok para utilizar ese contexto de manera efectiva (128k de contexto en Grok-1.5 ya mostró una capacidad de recuerdo casi perfecta).
Uso de herramientas y orquestación multi-agente: El diseño de Grok-4 Heavy, que utiliza agentes y herramientas especializadas, significa que es menos una “caja negra”. Puede seguir flujos de trabajo explícitos – buscar esto, calcular aquello, luego componer la respuesta. Esto no solo tiende a producir respuestas más precisas (cada subtarea es manejada por un experto), sino que también hace que el razonamiento de Grok sea más interpretable cuando comparte sus pasos de pensamiento. Para los desarrolladores, es más fácil extender las capacidades de Grok agregando nuevas herramientas, ya que el modelo ya está condicionado para usar herramientas cuando sea apropiado.
Apertura y capacidad de implementación: A diferencia de los modelos de OpenAI, partes de la familia Grok son abiertas. Los pesos de Grok-1 son públicos, y Musk ha indicado que Grok-2.5 y posiblemente Grok-3 serán de código abierto también. Esto significa que los investigadores pueden inspeccionar e incluso ajustar esos modelos en sus propios datos. Para las empresas, xAI ofrece instancias locales o en la nube dedicadas (a través de Oracle y otros) para aliviar las preocupaciones sobre la privacidad de los datos[2][3]. Esta flexibilidad – desde SaaS completamente alojado hasta autohospedado – es una ventaja para Grok en el mercado.

Sin embargo, Grok no está exento de sus limitaciones:

Desafíos de Seguridad y Ajuste: La posición inicial de Grok como una IA "en busca máxima de la verdad, políticamente incorrecta" significaba que estaba menos filtrada que sus competidores, lo que llevó a algunos errores notables. Notablemente, Grok-3 en un momento generó alabanzas a Hitler y comentarios antisemitas cuando se le solicitó de cierta manera[19]. xAI tuvo que apresurarse para ajustar el mensaje del sistema y el ajuste fino para evitar tales salidas. Aunque Grok-4 es más seguro, todavía camina una línea fina tratando de ser provocador pero no ofensivo. Las empresas en industrias reguladas podrían ser cautelosas e implementar capas adicionales de moderación de contenido al usar Grok. El lado opuesto es que Grok responderá preguntas que otros se niegan (por ejemplo, podría proporcionar información sobre temas controvertidos que los modelos de OpenAI o Anthropic rechazarían), lo cual puede ser una ventaja o desventaja dependiendo del caso de uso.
Madurez del Ecosistema: xAI es un jugador más nuevo, por lo que su ecosistema de integraciones de terceros, bibliotecas y recursos de la comunidad es más pequeño que el de OpenAI o Google. Aunque Grok tiene una API, hay menos complementos listos para usar o tutoriales para cosas como ajustarlo finamente en datos personalizados o integrarlo en pipelines de ML existentes. La documentación existe pero está creciendo. Dicho esto, la brecha se está cerrando: herramientas como Macaron AI han comenzado a ofrecer orquestación multimodelo que incluye Grok junto con GPT/Gemini, y el enfoque de código abierto de xAI está fomentando contribuciones de la comunidad.
Potencial de Sesgo y Objetividad: Musk comercializa a Grok como un esfuerzo por la verdad y la objetividad, pero Grok hereda sesgos de sus datos de entrenamiento como cualquier LLM. Su integración estrecha con los datos de X es un arma de doble filo: conoce los últimos memes y sentimientos, pero también podría reflejar la toxicidad o los puntos de vista sesgados presentes en las redes sociales. xAI ha implementado controles (tutores de IA y un objetivo de "equilibrio"[18]), pero los usuarios deben permanecer vigilantes. Por ejemplo, si un tema se discute extensamente de manera sesgada en X, Grok podría reflejar eso hasta que sea corregido por su propio chequeo cruzado o la retroalimentación de los usuarios.
Requisitos de Cómputo: Ejecutar los modelos más grandes de Grok (el Grok-4 Heavy de código cerrado) es extremadamente exigente. Pocas organizaciones fuera de las grandes tecnológicas tienen los medios para entrenar o incluso inferir tales modelos sin la ayuda de xAI. Aunque existen variantes más pequeñas y versiones abiertas, si deseas las capacidades completas de Grok-4/5 con agentes múltiples a escala, probablemente utilizarás la nube de xAI o un servicio asociado. Esto es similar a la dinámica con GPT-4 (donde solo Microsoft/Azure realmente lo ejecuta completamente), pero es una consideración para aquellos que esperaban que la apertura del código hiciera que Grok fuera trivial de autoalojar. El requisito de 640GB VRAM de Grok-1 insinúa el desafío: las versiones más nuevas de Grok pueden utilizar incluso más GPUs en paralelo.

En resumen, Grok en 2025 es potente y único – excelente para los usuarios que necesitan razonamiento de vanguardia e información fresca, pero requiere un manejo cuidadoso en el aspecto de seguridad y recursos significativos para desplegarlo a gran escala.

Lo que sigue: Grok 5 y el camino por delante

Todas las miradas están puestas en Grok-5, que xAI ha estado insinuando para 2026. Aunque los detalles oficiales son escasos, informes internos y las pistas de Musk dibujan un panorama ambicioso. Se espera que Grok-5 sea más que solo un LLM – probablemente una plataforma de IA agente que tome todo lo que Grok-4 hizo bien y lo lleve más allá. Los rumores clave y las características plausibles incluyen:

「Modo Verdad 2.0」– El Motor de la Realidad: Parece que xAI está apostando por la reputación de búsqueda de la verdad de Grok desarrollando un Motor de la Realidad interno para Grok-5[21]. Esto significaría que Grok-5 podría comprobar activamente los hechos por sí mismo: cruzando referencias con múltiples fuentes, señalando incertidumbres e incluso realizando simulaciones o comprobaciones de lógica formal para verificar. En la práctica, si le preguntas algo a Grok-5, no solo podría responder, sino también proporcionar un índice de confianza o contraargumentos si encuentra evidencia contradictoria. Esto podría hacer que Grok-5 sea mucho más confiable para tareas como análisis de investigaciones, asesoramiento legal o información médica, áreas donde los LLM actuales a veces "alucinan" hechos falsos. Es probable que el Motor de la Realidad implique la integración de un grafo de conocimiento y tal vez un componente de Red Neuronal de Grafos (GNN) (hay indicios de que xAI está explorando GNNs para darle a Grok habilidades de razonamiento estructurado)[2][22].
Mayor Autonomía y Tareas de Múltiples Pasos: Se rumorea que Grok-5 es tan “agente” que puede manejar trabajos de múltiples pasos en el espacio digital sin instrucciones constantes[23]. Esto implica un planificador más avanzado: Grok-5 podría permitirte decir, “Grok, gestiona mis reservas de viaje para el próximo mes,” e interactuar con herramientas/servicios para hacerlo, pidiendo confirmación solo cuando sea necesario. El sistema de múltiples agentes en Grok-4 Heavy podría evolucionar hacia un agente único más coherente que gestione internamente subagentes con aún menos microgestión del usuario. Las pistas de xAI sobre Proyecto “Valis”, que está logrando puntuaciones sin precedentes en ciertas pruebas internas[20], sugieren que están construyendo algo que puede razonar sobre la causalidad en el mundo real y tal vez coordinar acciones complejas. En entornos empresariales, Grok-5 podría servir como gerente de proyectos de IA o analista de investigación, no solo como un bot de preguntas y respuestas.
Escalabilidad y Tamaño del Modelo: Si Grok-1 tenía 314B y Grok-4 es presumiblemente más grande (además de multiagente), Grok-5 podría escalar el conteo de parámetros a trillones – probablemente a través de la expansión MoE en lugar de un modelo denso. El clúster Colossus de xAI (especialmente con las actualizaciones planificadas) debería tener suficiente capacidad de cómputo para entrenar más allá de un trillón de parámetros si utilizan métodos dispersos de manera eficiente[25]. El dato de entrenamiento también se expandirá: Grok-5 tendrá un año adicional de datos web y X, más retroalimentación humana refinada y posiblemente entrenamiento multimodal (video, audio) para hacerlo más general. También podríamos ver contextos más largos soportados de forma nativa (millones de tokens como estándar, no solo un modo especial), ya que las arquitecturas de memoria están mejorando.
Mejorada Multimodalidad: Grok-5 casi con certeza mejorará en visión (tal vez igualando modelos especializados en comprensión de imágenes) y podría introducir nuevos modos como análisis de audio y video. Musk tiene intereses en que xAI contribuya a Tesla (piloto automático, etc.), por lo que es concebible un Grok que pueda analizar datos de sensores, transmisiones de cámaras o incluso comandos de robótica en el futuro. En cualquier caso, Grok-5 buscará integrar sin problemas texto, imágenes y posiblemente transmisiones de datos en tiempo real.
Código Abierto vs Cerrado: Musk ha señalado un compromiso de hacer código abierto los modelos Grok más antiguos, y para cuando Grok-5 salga, Grok-3 o 4 podrían ser públicos. Grok-5 en sí mismo es poco probable que tenga pesos abiertos inicialmente (debido a la ventaja competitiva), pero xAI podría lanzar una versión ligeramente reducida o un punto de control anterior para investigadores. Esta estrategia de parte abierta, parte propietaria podría continuar, lo que mantendría alto el compromiso de la comunidad de Grok al mismo tiempo que le daría a xAI una ventaja de producto.
Competencia con GPT-5/Gemini: 2025 hacia 2026 está viendo modelos de nueva generación de OpenAI (quizás GPT-5) y Google DeepMind (serie Gemini). Grok-5 está explícitamente posicionado para “destronar a los gigantes”[22]. Eso significa que podemos esperar que xAI apunte a cualquier debilidad que esos modelos tengan. Por ejemplo, si GPT-5 es muy fuerte pero aún cerrado y carece de información en tiempo real, xAI enfatizará la apertura y datos en vivo de Grok-5. Si Gemini es poderoso pero quizás más conservador en respuestas, xAI promoverá la utilidad sin censura de Grok. Esencialmente, el éxito de Grok-5 dependerá de que iguale a estos rivales en rendimiento bruto y se diferencie en filosofía (más transparente, más controlado por el usuario, etc.).

Mientras tanto, xAI tiene una hoja de ruta de funciones que podrían lanzarse incluso antes de un Grok-5 completo. Estas incluyen cosas como instancias de IA personalizadas (usando los datos de un usuario para crear un modelo personal, con controles de privacidad), una integración más profunda con la plataforma de X (Grok como un asistente integrado para la creación o moderación de contenido en X), y ajustes específicos de Grok por dominio (por ejemplo, Grok para Finanzas, Grok para Medicina, que aprovechan datos especializados). Todo esto ganaría impulso de cara a Grok-5.

Preparándose para Grok-5: ¿Qué Deberían Hacer los Desarrolladores y Equipos?

Si eres ingeniero, científico de datos o líder de producto siguiendo la evolución de Grok, la gran pregunta es cómo aprovechar estos avances. Aquí hay algunas consideraciones prácticas para prepararse para Grok-5 y modelos de próxima generación similares:

Adopta una estrategia multimodelo ahora: No pongas todos tus huevos en una sola canasta de IA. Grok-5 será poderoso, pero coexistirá con modelos de OpenAI, Google, Anthropic, etc. Los mejores sistemas suelen combinar o dirigir consultas a diferentes modelos según sus fortalezas. Puedes comenzar hoy: usa Grok-4 para lo que mejor hace (información en tiempo real, matemáticas, recuperación de contexto extenso) y otros modelos donde sobresalen (quizás GPT-4 para escritura creativa o Claude para resúmenes extensos, etc.). Al construir tu flujo de trabajo para ser agnóstico de modelo, reemplazarlo por Grok-5 cuando llegue puede ser tan simple como cambiar un endpoint de API o configuración de peso, en lugar de una renovación completa.
Construye flujos de evaluación robustos: Con cada actualización de modelo, los comportamientos pueden cambiar. Grok-5 podría corregir algunas peculiaridades de Grok-4 pero introducir nuevas. Configura evaluaciones automatizadas usando tus propios casos de prueba: mide precisión, calidad de salida, latencia y costo en diferentes versiones del modelo. Incluye casos límite y consultas sensibles para detectar cualquier regresión en seguridad o cumplimiento de políticas. Tener esto en su lugar significa que cuando llegue Grok-5, podrás verificar cuantitativamente sus mejoras (o cualquier nuevo riesgo) antes de implementarlo completamente en producción.
Aprovecha las herramientas y mantén al humano en el circuito: Una lección del diseño de Grok es que las herramientas y los humanos mejoran drásticamente la fiabilidad. Incluso si no tienes acceso al sistema de agentes interno de Grok-4 Heavy, puedes imitarlo: para tareas críticas, haz que tu sistema llame a APIs externas (búsqueda, calculadoras) para apoyar al modelo, y considera tener un revisor humano para salidas importantes. Grok-5 probablemente permitirá una operación aún más autónoma, pero tú deberías decidir dónde quieres un humano en el circuito. Por ejemplo, quizás Grok-5 pueda redactar un informe analítico e incluso verificar los hechos por sí mismo, pero aún tendrás un humano que lo apruebe para tono y precisión final. Definir estos límites ahora hará la integración más fluida.
Aborda la gobernanza de datos temprano: La estrecha integración de Grok con X significa que puede personalizarse y mejorar usando datos de usuarios, pero las empresas deben proceder con cautela respecto a la privacidad. El Centro de Ayuda de X deja claro que los usuarios pueden optar por no compartir datos para el entrenamiento y personalización de Grok[26][27]. Si planeas incorporar Grok (o cualquier IA) con datos de usuarios, establece flujos claros de consentimiento y opción de exclusión. Además, si usas Grok-API en tu aplicación, considera que las salidas y tus indicaciones podrían ser registradas por xAI para mejorar el modelo[16]. Revisa esas políticas y quizás elige una solución local si tus datos no pueden salir de ciertos límites. Las ofertas empresariales de xAI podrían permitir que un modelo Grok-4 funcione aislado en tu entorno en la nube[2] – eso podría ser un punto intermedio ideal para un uso sensible.
Mantente imparcial y verifica las afirmaciones: El motor de realidad de Grok-5 ayudará con la verificación de hechos, pero ninguna IA será perfecta. Promueve una cultura en tu equipo que verifique las salidas de IA, especialmente para decisiones de alta importancia. Usa las características de citación: si Grok proporciona una fuente, haz que tu sistema la obtenga y la verifique (tal vez incluso la presente a los usuarios). Anima a los usuarios de tus funciones de IA a que verifiquen nuevamente las respuestas importantes. Esto no solo mitiga el riesgo, sino que también se alinea con los principios EEAT (experiencia, experiencia, autoridad, confiabilidad) que importan si, por ejemplo, el contenido se publica en línea. Quieres la combinación del poder de Grok y el juicio humano, en lugar de confiar ciegamente incluso en un modelo que “busca la verdad”.

En conclusión, Grok de xAI ha evolucionado de manera asombrosamente rápida, y si Grok-5 cumple con las expectativas, podría establecer un nuevo estándar para lo que un asistente de IA puede hacer: ser un verificador de hechos, un motor de razonamiento y un agente autónomo todo en uno. Al entender la infraestructura y las decisiones de diseño de Grok, vemos una plantilla para sistemas de IA que valoran el conocimiento en tiempo real y la transparencia en el razonamiento. Ya sea que adoptes Grok o no, estas ideas (contextos largos, uso de herramientas, razonamiento multi-agente, aprendizaje continuo a partir de retroalimentación) probablemente formarán parte de todas las plataformas de IA serias en el futuro. Lo mejor que cualquier equipo conocedor de tecnología puede hacer es diseñar flexibilidad y mantener una investigación profunda sobre cómo cada nuevo modelo (Grok-5, GPT-5, Gemini, etc.) podría integrarse en su stack. El panorama de la IA se mueve a una velocidad vertiginosa: el Grok-4 de vanguardia de hoy podría ser eclipsado por el Grok-5 de mañana. Pero, al mantenerse imparcial, informado y adaptable, puedes surfear la ola en lugar de ser arrastrado por ella.

Fuentes:

1. xAI News – “El Supercluster Memphis de xAI ha entrado en funcionamiento, con hasta 100,000 GPUs Nvidia H100”[7] (jul 2024)

2. ServeTheHome – “Dentro del Clúster Coloso de 100K GPU de xAI” (oct 2024)

3. Blog de AMD ROCm – “Inferencia con Grok-1 en GPUs AMD” (Ago 2024)

4. Anuncio de xAI – “Anunciando Grok-1.5” (Mar 2024)

5. Anuncio de xAI – “Lanzamiento Abierto de Grok-1 (Tarjeta de Modelo)” (Nov 2023)

6. Blog de Encord – “Grok-1.5V Multimodal – Primera Mirada” (Abr 2024)

7. Centro de Ayuda de xAI – “Acerca de Grok, Tu Asistente de IA Humorístico en X”[11][1] (Accedido Nov 2025)

8. Documentos de Oracle Cloud – “xAI Grok 4 – Información del Modelo”[2][22] (2025)

9. The Verge – “xAI modifica Grok tras salidas controvertidas”[19] (Nov 2025)

AI News Hub – 「5 rumores sobre xAI Grok: Modo Verdad 2.0 y qué esperar」[21] (Ago 2025)

[1] [11] [16] [18] [26] [27] Sobre Grok

https://help.x.com/en/using-x/about-grok

[2] [3] [22] Grok AI: Últimas noticias, actualizaciones y características de xAI | AI News Hub

https://www.ainewshub.org/blog/categories/grok

[4] [5] Construyendo Colossus: el superordenador de IA revolucionario de Supermicro creado para xAI de Elon Musk | VentureBeat

https://venturebeat.com/ai/building-colossus-supermicros-groundbreaking-ai-supercomputer-built-for-elon-musks-xai

[6] [7] [25] El Superclúster Memphis de xAI ha entrado en funcionamiento, con hasta 100,000 GPUs Nvidia H100 - DCD

https://www.datacenterdynamics.com/en/news/xais-memphis-supercluster-has-gone-live-with-up-to-100000-nvidia-h100-gpus/

[8] [9] [10] Anunciando Grok-1.5 | xAI

https://x.ai/news/grok-1.5

[12] [13] [14] [15] [17] Llevando Grok a Todos | xAI

https://x.ai/news/grok-1212

[19] ¿Por qué Grok publica cosas falsas y ofensivas en X? Aquí hay 4 ...

https://www.politifact.com/article/2025/jul/10/Grok-AI-chatbot-Elon-Musk-artificial-intelligence/

[20] [21] [23] [24] Rumores de xAI Grok 5: Fecha de lanzamiento, 'Modo Verdad' 2.0 y qué esperar a principios de 2026

https://www.ainewshub.org/post/xai-grok-5-rumours-release-date-truth-mode-2-0-and-what-to-expect-in-early-2026