NVIDIA Blackwell Ultra y la Crisis de Suministro de GPU para IA

Autor: Boxu Li

La última plataforma de GPU Blackwell Ultra de NVIDIA ha causado un gran revuelo en el mundo de la IA, tanto que está provocando una seria crisis de suministro. Analistas de Wall Street e investigadores de IA en redes sociales han estado hablando sobre su rendimiento récord, precios en aumento y una demanda sin precedentes para estos chips. En este análisis profundo, exploraremos por qué Blackwell Ultra es noticia viral, examinaremos sus avances en rendimiento por vatio y ancho de banda de memoria, discutiremos la economía de clústeres al implementar estas GPU a gran escala y consideraremos por qué la fiebre está provocando una reconsideración de los marcos de IA ligeros. A lo largo del artículo, respaldaremos los hechos con fuentes creíbles y nos centraremos en los detalles técnicos para una audiencia informada.

Por qué Blackwell Ultra está en los titulares

Rendimiento Inigualable: Las GPUs Blackwell Ultra de NVIDIA ofrecen un gran salto en la capacidad de inferencia de IA. Los primeros benchmarks muestran un rendimiento 7,5 veces mayor en precisión baja que las GPUs Hopper H100 de la generación anterior[1]. De hecho, Blackwell Ultra puede realizar cálculos densos de precisión de 4 bits (formato NVFP4) a 15 PFLOPS, en comparación con aproximadamente 2 PFLOPS en un H100 (FP8), lo que representa un aumento de 7,5 veces en rendimiento bruto[1]. Este salto se traduce en una inferencia de modelos de IA mucho más rápida. Por ejemplo, NVIDIA informa que un sistema basado en Blackwell Ultra logra un aumento general de 50 veces en la producción de la “fábrica” de IA (producción de respuestas) en comparación con una plataforma basada en Hopper, gracias a aproximadamente 10 veces más capacidad de respuesta por usuario y 5 veces más rendimiento por megavatio de energía[2]. En otras palabras, Blackwell Ultra no solo aporta fuerza bruta, sino que lo hace de manera mucho más eficiente, ofreciendo 5 veces más rendimiento por vatio en implementaciones a gran escala[2].

Nuevas Capacidades de Inferencia: Blackwell Ultra introduce un nuevo formato de precisión de 4 bits llamado NVFP4 que permite velocidades extremas de inferencia sin sacrificar mucha precisión. Este formato utiliza un ingenioso escalado de dos niveles para preservar la precisión, logrando una calidad casi al nivel de FP8 con mucho menos costo de memoria y cálculo[3]. El resultado es que los Tensor Cores de Blackwell Ultra pueden realizar cálculos de baja precisión a niveles previamente imposibles: 1.5× el rendimiento de FP4 de las GPU estándar de Blackwell, y muchas veces más rápido que las arquitecturas anteriores[1]. NVIDIA también duplicó el rendimiento de la unidad de función especial para operaciones clave de atención del transformador, de modo que las capas de atención funcionan hasta 2× más rápido que en los chips base de Blackwell[4]. Estos avances abordan los cuellos de botella centrales de los grandes modelos de lenguaje y la inferencia de IA generativa, permitiendo cosas como video generativo en tiempo real. De hecho, una demostración mostró a Blackwell Ultra generando un video de IA de 5 segundos 30× más rápido de lo que los GPUs Hopper podrían, convirtiendo un trabajo de 90 segundos en una salida en tiempo real[5].

Hype de Wall Street y Twitter: Tales ganancias de rendimiento no han pasado desapercibidas. Las acciones de NVIDIA han aumentado por las expectativas de ingresos récord impulsados por Blackwell. En el tercer trimestre de 2025, los ingresos del centro de datos alcanzaron los 51.200 millones de dólares (90% de las ventas de NVIDIA), en gran parte gracias al aumento de Blackwell Ultra, que la compañía dice es ahora su “arquitectura líder en todas las categorías de clientes”[6][7]. El CEO Jensen Huang señaló que “las ventas de Blackwell están por las nubes y las GPUs para la nube están agotadas”, con una demanda que supera con creces la oferta[8]. Los laboratorios de IA y los proveedores de servicios en la nube están compitiendo por obtener estos chips, y las redes sociales están llenas de anécdotas de pedidos atrasados extremos y aumentos de precios en el mercado secundario. Esta frenesí alimentada por la escasez está elevando los precios y convirtiendo a Blackwell Ultra en un tema de tendencia en los círculos tecnológicos y financieros.

Blackwell Ultra Architecture: Rendimiento a Escala

Figura: El rendimiento de IA de baja precisión se ha disparado con Blackwell Ultra. Cada GPU Blackwell Ultra ofrece 15 PFLOPS de cómputo denso de IA de 4 bits, un aumento de 1.5× sobre un chip Blackwell ya potente, y alrededor de 7.5× el rendimiento FP8 de la generación anterior de Hopper de NVIDIA (H100/H200)[1]. Este enorme salto generacional en capacidad de cómputo es un impulsor clave del auge actual de la infraestructura de IA.

En el corazón de Blackwell Ultra se encuentra un diseño de vanguardia construido específicamente para inferencia de IA a gran escala. Cada GPU en realidad consta de dobles chips GPU en un paquete, vinculados por un interconector de alta velocidad de 10 TB/s[9]. Este enfoque de múltiples chips (similar a las arquitecturas chiplet) permite a NVIDIA empaquetar una cantidad enorme de capacidad de procesamiento en una sola “GPU”. El chip completo Blackwell Ultra tiene 160 Multiprocesadores de Streaming (SMs) divididos en 8 clústeres GPC, para un total de 640 Núcleos Tensor de quinta generación por GPU[10][11]. Esos Núcleos Tensor son los caballos de batalla de la IA, y en Blackwell Ultra están optimizados para las precisiones FP8, FP6 y el nuevo NVFP4. Cada SM también incluye 256 KB de “Memoria Tensor” (TMEM) en el chip, una pequeña memoria caché de alta velocidad que permite a la GPU reutilizar datos para cálculos de matrices de manera más eficiente[12][13]. Esta memoria a nivel de SM, junto con nuevos modos de procesamiento de doble bloque, ayuda a reducir el tráfico de memoria fuera del chip y mantener alimentados los Núcleos Tensor, mejorando el rendimiento efectivo y la eficiencia energética[13].

Memoria HBM3e – Masiva y Rápida: Alimentar datos a estas unidades de cálculo requiere un enorme conjunto de memoria. Las GPUs Blackwell Ultra vienen con 288 GB de memoria HBM3e de ancho de banda alto cada una[14]. Eso es 1.5× más memoria que la GPU estándar de centro de datos Blackwell (que tiene ~192 GB)[15], y más de 3.5× la memoria de un Hopper H100 (80 GB). Esto es importante porque los modelos de lenguaje grande actuales y otras cargas de trabajo de IA a menudo requieren longitudes de contexto y tamaños de modelo enormes. La memoria más grande permite tamaños de lote más grandes y secuencias más largas para procesarse de una vez, mejorando el rendimiento para modelos complejos[16]. El ancho de banda de la memoria es igualmente impresionante – en el orden de 8 TB/s por GPU (gracias a 12 pilas de HBM3e)[14]. En comparación, un módulo H100 SXM entregaba aproximadamente 3 TB/s[17], e incluso la actualización intermedia H200 con HBM3e se limitaba a ~4.8 TB/s[18][19]. Con Blackwell Ultra, el subsistema de memoria ya no es el cuello de botella para muchas cargas de trabajo: los modelos pueden ser más grandes, o accederse más eficientemente, sin constantemente golpear la memoria externa.

Grace Hopper a Grace Blackwell: El diseño de NVIDIA también integra estrechamente las CPU y la red con las GPU para mejorar el rendimiento a escala de clúster. Cada “nodo” Blackwell Ultra empareja las GPU con las CPU Grace de NVIDIA a través de enlaces ultra rápidos NVLink-C2C (900 GB/s de ancho de banda CPU-GPU)[14]. La CPU Grace aporta 2,592 núcleos Arm y un alto ancho de banda de memoria propio (LPDDR5X) para alimentar las GPU[20][21]. Esta combinación, a veces llamada Grace Blackwell, asegura que el cómputo de GPU no se vea limitado por las CPU o las limitaciones de E/S. De hecho, un sistema NVIDIA GB300 (detallado a continuación) cuenta con 36 CPU Grace trabajando junto a las 72 GPU en cada rack, todas conectadas a través de NVLink de 5ª generación con un asombroso ancho de banda de 130 TB/s de todos-a-todos[22][20]. Este tejido, más el InfiniBand Quantum X de NVIDIA o Ethernet Spectrum-X entre nodos, significa que incluso las “fábricas de IA” de múltiples racks pueden operar con una rápida comunicación entre GPU. El objetivo final es escalar la inferencia de IA como un servicio en la nube, lo que NVIDIA denomina el concepto de Fábrica de IA, donde muchos modelos y solicitudes se ejecutan en paralelo en un clúster de aceleradores en malla.

Rendimiento por vatio: Ganancias de eficiencia

Uno de los aspectos más notables de Blackwell Ultra es cuánto mejora la eficiencia energética para las cargas de trabajo de IA. Sí, cada GPU consume mucha energía (hablaremos del alto TDP en un momento), pero el rendimiento por vatio ha aumentado significativamente en comparación con las generaciones anteriores. Los propios métricas de NVIDIA indican que a gran escala, los sistemas Blackwell Ultra ofrecen 5× el rendimiento por megavatio de potencia en comparación con los sistemas basados en Hopper[2]. Esto se debe a varios factores que trabajan en conjunto:

  • Menor Precisión = Menor Energía: Al utilizar precisión de 4 bits con mínima pérdida de precisión, Blackwell Ultra puede realizar el mismo trabajo de inferencia gastando muchas menos julios por cálculo. El formato NVFP4 fue diseñado explícitamente para mejorar la eficiencia, reduciendo el movimiento de memoria y usando multiplicadores más pequeños, tanto que reducir la precisión de FP8 a FP4 en realidad mejora el rendimiento por vatio de manera sustancial[23]. En esencia, cada GPU puede ejecutar muchas más operaciones con el mismo presupuesto de energía cuando son operaciones de baja precisión, lo cual es una gran ventaja para el servicio de inferencia.
  • Optimizaciones Arquitectónicas: La memoria tensorial y la cooperación de bloques duales en los SMs significan una mejor utilización de cada vatio. Los datos se mantienen en el chip, evitando costosos accesos a DRAM, y los Tensor Cores se mantienen ocupados con menos interrupciones[13]. Además, duplicar las rutas cruciales en las unidades de atención (SFUs) permite que estas unidades completen el trabajo más rápido y luego queden inactivas, en lugar de prolongar las computaciones a plena potencia[4]. Todo esto se traduce en menos desperdicio de energía en esperas de memoria o en largas secuencias de operaciones.
  • Nodo de Proceso y Gestión de Reloj: Las GPUs de generación Blackwell se fabrican en procesos avanzados TSMC 4N/4NP, y es probable que las variantes Ultra lo lleven al límite. Pueden alcanzar mayores frecuencias de reloj o más núcleos en el mismo sobre de energía. Según algunos análisis, el Blackwell base (a veces referido como B200) ya ofrecía un aumento significativo en rendimiento/vatio sobre Hopper al pasar al silicio 4N y gracias a las mejoras arquitectónicas[24]. Blackwell Ultra luego añade un 50% más de capacidad de cómputo además de eso, aunque con un aumento de potencia, pero obteniendo una mejor proporción.

Cabe destacar que las mejoras en el rendimiento por vatio no son solo académicas; impactan directamente en el costo operativo de los centros de datos. Si puedes obtener 5 veces el rendimiento con el mismo consumo de energía, eso representa una gran reducción en el costo por consulta o por inferencia. Dado que muchos modelos de IA se implementan a escala web (piensa en millones de consultas por día), estas ganancias de eficiencia son esenciales para contener los costos de electricidad y refrigeración. NVIDIA incluso ofrece un calculador de eficiencia energética para sus GPU[25], subrayando la importancia que esta métrica ha adquirido para los clientes.

Desde otro ángulo, AMD y otros competidores también están promocionando el rendimiento por vatio para IA, pero a finales de 2025 parece que NVIDIA ha dado un salto adelante con Blackwell Ultra. Por ejemplo, el AMD MI300X insignia (una GPU competidora para inferencia de IA) todavía utiliza tecnología de clase 5nm y se centra en operaciones de 8 bits y 16 bits; el movimiento agresivo de NVIDIA hacia la inferencia de 4 bits con hardware especializado le da una nueva ventaja en eficiencia. Esta es en parte la razón por la que los proveedores de la nube están ansiosos por invertir en Blackwell Ultra a pesar del alto costo inicial: el costo total de propiedad mejora cuando puedes hacer más con menos energía a lo largo del tiempo.

Ventajas de Ancho de Banda y Capacidad de Memoria

Los grandes modelos de IA son notoriamente exigentes en cuanto a memoria y ancho de banda, y Blackwell Ultra aborda esto directamente con su arquitectura de memoria HBM3e. Como se menciona, cada GPU lleva 288 GB de memoria HBM3e a bordo[14]. Esta es una cantidad masiva de memoria rápida, incluso comparada con las GPU recientes como la H100 de 80 GB o la H200 intermedia de 141 GB que introdujo HBM3e[18][19].

El beneficio inmediato de 288 GB por GPU es la capacidad de servir o ajustar modelos muy grandes en memoria (como modelos de múltiples cientos de miles de millones de parámetros o LLMs de alto contexto) sin particionar el modelo entre GPUs. También es posible un procesamiento por lotes más grande, lo que aumenta la utilización. NVIDIA señala específicamente que la memoria 1,5 veces mayor en Blackwell Ultra (en comparación con su predecesor) “aumenta el rendimiento de razonamiento de IA para las longitudes de contexto más grandes.”[16] Para aplicaciones de IA como preguntas y respuestas de documentos largos o conversaciones extensas con un asistente de IA, la GPU puede manejar más tokens a la vez, mejorando tanto la velocidad como la calidad de los resultados.

El ancho de banda es la otra cara de la moneda. Con 12 pilas HBM funcionando en paralelo, el subsistema de memoria de Blackwell Ultra es extremadamente amplio. En su máximo rendimiento, puede mover alrededor de ~8 TB/s de datos[14]. Esta es una cifra astronómica – en comparación, una GPU de PC de gama alta con GDDR6 podría tener 0.5 TB/s, e incluso las GPUs de centros de datos de la generación anterior estaban en el rango de 2–3 TB/s[17]. ¿Qué significa esto en la práctica? Significa que los núcleos de la GPU pueden mantenerse abastecidos con datos incluso en cargas de trabajo intensivas en memoria. Las redes neuronales a menudo involucran grandes multiplicaciones de matrices (que manejan los Tensor Cores) intercaladas con operaciones dependientes de la memoria (como ponderaciones de atención, búsquedas de incrustaciones, etc.). Con más ancho de banda, esos pasos dependientes de la memoria se aceleran, por lo que la carga de trabajo general experimenta menos interrupciones. El diseño de Blackwell Ultra equilibra esencialmente su tremenda capacidad de cálculo con un rendimiento de memoria igualmente formidable, evitando el escenario donde las unidades de cálculo están inactivas esperando datos.

Para concretarlo, considere un modelo transformer generando una secuencia larga: el mecanismo de atención necesita leer grandes matrices de claves/valores desde la memoria. En el Hopper H100, esto podría haber sido un factor limitante para secuencias muy largas, pero en el Blackwell Ultra con HBM3e, la GPU puede cargar esas matrices al doble o más de velocidad. Combinado con las unidades de cálculo de atención 2× más rápidas, se logra un rendimiento sostenido mucho mayor en tareas como la generación de texto al estilo GPT con un contexto largo. El concepto de "Fábrica de IA" de NVIDIA también significa que la memoria se agrega a escala de clúster; en un rack de 72 GPUs, eso es más de 20 TB de memoria GPU agrupada, con un ancho de banda total de memoria en el rango de cientos de TB/s disponible en el dominio conectado por NVLink[22][20]. Esto esencialmente permite que un clúster de IA se comporte como una sola GPU gigante con decenas de terabytes de memoria rápida, un escenario ideal para servir muchas instancias de modelos grandes simultáneamente.

Economía del Clúster: Costo y Potencia a Escala

Con el rendimiento y la eficiencia cubiertos, debemos abordar el aspecto práctico del despliegue de Blackwell Ultra: el costo y la infraestructura requeridos. Estas GPUs suelen venderse como parte de sistemas más grandes, como el rack GB300 NVL72 de NVIDIA o las cuchillas de servidor HGX B300. Una sola unidad GB300 NVL72 integra 72 GPUs Blackwell Ultra más 36 CPUs Grace en un rack, completo con interruptores de alta velocidad y refrigeración[26][20]. Esto es efectivamente una supercomputadora de IA en una caja, y no es barata. Según informes de la industria, NVIDIA está fijando el precio de un rack completo GB300 NVL72 en alrededor de $3 millones[27]. Eso equivale a un promedio de $40,000 por GPU, lo que está en línea con el precio de lista aproximado de $30k–$40k que NVIDIA insinuó para unidades Blackwell individuales[28]. (Notablemente, Jensen Huang ha sugerido que no venderán solo chips o tarjetas independientes a clientes finales: prefieren vender sistemas integrados completos[28]. Esta estrategia de agrupación aumenta el costo inicial pero asegura que los compradores obtengan una solución completa y optimizada.)

Para cualquiera que planee un clúster de IA, el gasto de capital (CapEx) es enorme. Solo un rack cuesta $3M, y muchas implementaciones involucran múltiples racks. CoreWeave, OpenAI, Meta, Microsoft, todos los grandes jugadores, están comprando tantos como pueden. Aquellos con menor poder adquisitivo (startups, laboratorios académicos) enfrentan precios inflados en el mercado secundario, donde los H100s previamente se revendían a decenas de miles por encima del precio de venta al público debido a la escasez, y estamos viendo una tendencia similar con Blackwell. A finales de 2024, las tarjetas H100 de 80GB se vendieron por $30k–$40k cada una en algunos casos cuando la oferta no alcanzaba la demanda. Blackwell Ultra sigue el mismo camino, efectivamente duplicando los precios de la “fiebre del oro de la IA”. En resumen, solo las organizaciones con grandes recursos o créditos en la nube pueden permitirse jugar en este nivel de hardware en este momento.

Costos de energía y refrigeración: Junto con el precio de compra, los costos operativos (OpEx) de operar estos clústeres son significativos. Cada GPU Blackwell Ultra puede consumir hasta ~1400 W en su máxima capacidad de uso[15] – el doble o más del típico TDP de 700W de un H100 SXM. En un rack de 72 GPUs, eso significa que solo las GPUs podrían consumir alrededor de 100 kW de energía (sin contar el consumo de CPUs, redes, etc.). De hecho, un gabinete NVL72 completamente cargado con 18 bandejas de GPU consume más de >100 kW y requiere refrigeración avanzada. NVIDIA optó por refrigeración líquida en estos sistemas, pero incluso eso tiene un costo: un análisis reciente de Morgan Stanley estimó el costo de los materiales del sistema de refrigeración líquida en ~$50,000 por rack[30]. Esto incluye placas frías personalizadas, bombas, intercambiadores de calor, etc. Y a medida que los sistemas de próxima generación aumentan su potencia (se rumorea que la generación sucesora "Vera Rubin" podría llegar a 1.8kW por GPU), se espera que el costo de refrigeración por rack aumente a ~$56k[31][32].

En otras palabras, además de los $3 millones en silicio, podrías gastar decenas de miles en plomería y gestión de calor. Además, la factura de electricidad: 100 kW funcionando 24/7 equivale a aproximadamente 2.4 MWh por día. A las tarifas comerciales de los centros de datos, eso podría estar en el orden de $200–$400 por día en costos de energía por rack (más de $100,000 al año), sin incluir el enfriamiento y los gastos generales de infraestructura. Claramente, operar un supercluster de IA no es para los débiles de corazón o presupuesto.

Sin embargo, aquí es donde la economía de clústeres se justifica: rendimiento y TCO. Si un rack Blackwell Ultra entrega, digamos, 50 veces el rendimiento de un rack de generación anterior (como sugiere NVIDIA para ciertos trabajos)[2], entonces un centro de datos podría necesitar menos racks en total (y por lo tanto menos energía/refrigeración en total) para lograr una carga de trabajo objetivo. La mayor eficiencia significa que por consulta, el costo en energía puede ser realmente menor a pesar del mayor consumo absoluto de energía, porque cada GPU está atendiendo muchas más consultas en paralelo. Para los proveedores de la nube que alquilan tiempo de GPU, esto potencialmente significa que pueden ofrecer más rendimiento a los clientes por el mismo costo, o disfrutar de mejores márgenes. Un análisis de Medium postuló que si las GPUs Blackwell proporcionan mucho más rendimiento por aproximadamente el mismo precio de alquiler que las H100, el costo por cómputo de IA en la nube (por TFLOP-hora) disminuirá, al menos una vez que la oferta se iguale a la demanda[33]. Eso podría democratizar el acceso a grandes modelos si los precios se normalizan. Por supuesto, a corto plazo, las restricciones de suministro significan que los precios de alquiler se mantienen altos: muchas instancias de GPU en la nube son caras o tienen listas de espera porque todos quieren este nuevo hardware.

En resumen, la economía de Blackwell Ultra a escala de clúster implica grandes inversiones iniciales pero promete significativos beneficios de eficiencia y capacidad a largo plazo. Las empresas que pueden asegurar estos sistemas temprano obtienen una ventaja competitiva en el desarrollo y despliegue de modelos de IA, razón por la cual la carrera por comprar GPUs se ha comparado con una “carrera armamentista”. También es por eso que los ingresos de centros de datos de NVIDIA explotaron un 66% interanual en ese trimestre: prácticamente todas las grandes empresas tecnológicas y startups de IA están invirtiendo capital en infraestructura de GPU, incluso si eso significa tolerar precios altos y entregas retrasadas.

La Crisis de Suministro: Escasez y Rumores del “H300”

Todo esto lleva a la escasez de suministro que sustenta el revuelo viral. En pocas palabras, la demanda supera con creces la oferta de los aceleradores de IA de NVIDIA en este momento. La CFO de NVIDIA, Colette Kress, señaló en una reciente llamada de ganancias que “las nubes están agotadas” – los principales proveedores de nube han reservado completamente su capacidad de GPU – e incluso las GPUs de generación anterior como las H100 y Ampere A100 están “totalmente utilizadas” en toda la base instalada[35]. NVIDIA reconoció que está limitada por el suministro y que está aumentando la producción lo más rápido posible (con expectativas de un aumento significativo para el segundo semestre de 2024)[36]. Jensen Huang, durante un viaje a TSMC en Taiwán, dijo que pidió a su fundición tantos obleas como fuera posible para satisfacer la “muy fuerte demanda” de los chips Blackwell[37][38]. El CEO de TSMC incluso apodó a Jensen como el “hombre de los cinco billones de dólares” ya que la capitalización de mercado de NVIDIA alcanzó los 5 billones de dólares por el optimismo en torno a la IA[39]. En resumen, NVIDIA está vendiendo todos los chips que pueden fabricar y presionando a sus socios para acelerar la producción, pero aún no es suficiente a corto plazo.

Varios factores contribuyen al cuello de botella:

  • Cadena de suministro compleja: Estos no son solo GPUs; NVIDIA ahora vende sistemas completos (con GPUs, CPUs, redes, enfriadores, etc.). Un informe de Taiwán indicó que algunos componentes, especialmente para los sistemas de enfriamiento líquido en los nuevos servidores GB200 (Blackwell), tienen escasez[40]. Se informa que proveedores taiwaneses como Foxconn y Wistron enfrentaron obstáculos en cosas como bombas o materiales de placas frías[41]. La decisión de NVIDIA de apostar por diseños refrigerados por líquido añadió nuevas dependencias a la cadena de suministro[42]. La encuesta del Bank of America citada en ese informe sugirió que NVIDIA podría desviar algunas órdenes a sistemas ligeramente más antiguos basados en Hopper (como un H200 HGX refrigerado por aire) si los sistemas Blackwell se retrasaban[43]. Hasta ahora, NVIDIA logró lanzar Blackwell Ultra a tiempo en 2025, pero las unidades iniciales probablemente se asignaron a algunos clientes clave (piense en Meta, Microsoft)[44]. Los compradores más pequeños están esperando en la fila.
  • Capacidad en TSMC: Los GPUs Blackwell se fabrican en el proceso de clase 3nm de TSMC (4N es un derivado personalizado de 5nm para los anteriores; los más nuevos podrían ser de 3nm para el “Ultra”). La capacidad de vanguardia de TSMC es finita y está en gran parte reservada tanto por NVIDIA como por otros gigantes como Apple. Se informa que NVIDIA aumentó sus pedidos de obleas en un 50% para 2024–2025 para asegurar más suministro[45]. Aun así, los tiempos de entrega para los chips pueden ser de muchos meses. De hecho, algunos analistas afirman que NVIDIA ha reservado tanta capacidad de TSMC hasta 2026 que su rival AMD tendrá dificultades para establecerse en aceleradores de IA[46][47]. Este dominio asegura que NVIDIA pueda aumentar el suministro a largo plazo, pero a corto plazo también significa sin alivio rápido – las fábricas están funcionando a plena capacidad, pero cada empresa de IA quiere GPUs “ayer”.
  • Restricciones de exportación: Un factor externo son los límites de exportación de EE.UU. para vender los mejores chips de IA a China. NVIDIA no puede vender chips H100 o Blackwell de primera categoría a China debido a los controles gubernamentales[48]. Uno podría pensar que eso deja más suministro para el resto del mundo, pero NVIDIA creó variantes ligeramente reducidas (como los modelos H100 “CN”) para China que aún consumen algo de capacidad de producción. Además, la demanda china de computación de IA es masiva, y si no pueden obtener los últimos chips de NVIDIA, pueden comprar los más antiguos, manteniendo indirectamente la presión sobre el suministro global. En cualquier caso, la demanda occidental por sí sola es suficiente para consumir toda la producción actual, y las restricciones a China añaden complejidad a cómo NVIDIA asigna su inventario.

La mención de 「H300」 en la discusión probablemente se refiere a la próxima gran actualización de GPU en el horizonte. Se rumorea que la hoja de ruta de NVIDIA después de Blackwell tiene el nombre en código Vera Rubin (en honor a la astrónoma); algunos entusiastas han llamado informalmente a esta hipotética futura serie 「H300」 siguiendo el estilo de nomenclatura de Hopper. Aunque Blackwell Ultra ya está aquí, las empresas ya están especulando sobre lo que viene a continuación. Por ejemplo, imagina que alrededor de 2027, NVIDIA podría lanzar otro salto, como una GPU 「H300」 construida en un proceso de 3nm o 2nm, tal vez un 10-15% más eficiente que Blackwell Ultra (como comentó un usuario de Reddit)[49][50]. ¿Aliviará eso inmediatamente la escasez? Poco probable. La mayoría de los grandes jugadores aún estarán asimilando sus implementaciones de Blackwell para entonces; no desecharán miles de millones de dólares en hardware de la noche a la mañana por una ganancia marginal[49][50]. Así que incluso si aparece una GPU 「H300」 o Rubin, la demanda seguirá superando a la oferta en el futuro previsible porque la adopción de la IA sigue acelerándose en todas las industrias. Como dijo un analista, NVIDIA ha entrado en un "ciclo virtuoso de la IA": más uso impulsa más demanda de computación, lo que habilita más aplicaciones, y así sucesivamente[8].

En términos prácticos, la orientación de Jensen Huang es que el suministro seguirá siendo limitado hasta el próximo año. Fabricantes de memoria como SK Hynix ya han vendido toda su producción de HBM hasta el próximo año debido al auge de la IA[51][52]. La propia previsión de NVIDIA para el cuarto trimestre es de $65 mil millones en ingresos – otro salto – lo que supone que pueden enviar cada Blackwell que produzcan[53]. Por lo tanto, la "escasez de suministro" no terminará de inmediato; si acaso, los precios seguirán altos y las GPUs estarán limitadas por asignaciones hasta bien entrado 2025. Es posible que no veamos alivio hasta que posiblemente los proveedores de nube de segunda categoría o empresas más pequeñas decidan que el costo es demasiado alto y pausen pedidos – pero por ahora, todos están en modo de acaparamiento de capacidad de cómputo de IA. La estrategia de NVIDIA de vender sistemas completos también significa que si deseas estas GPUs, a menudo tienes que comprar servidores completos costosos o incluso pods enteros, lo que concentra aún más quién puede obtenerlos.

El caso por la eficiencia: Marcos de IA más ligeros (El ángulo de Macaron)

Con costos tan abrumadores y limitaciones de suministro para el hardware de IA de vanguardia, vale la pena considerar cómo podrían adaptarse el software y la arquitectura. Un enfoque intrigante es el argumento a favor de marcos de agentes ligeros: esencialmente, diseñar sistemas de IA que dependan de múltiples modelos o "agentes" especializados y más pequeños trabajando juntos en lugar de un modelo monolítico gigante que requiere una super-GPU. Aquí es donde entran enfoques como Macaron, abogando por agentes de IA más eficientes y conscientes de la memoria.

¿Por qué podría ser esto una buena opción ahora? Porque si el cómputo es el nuevo petróleo, entonces maximizar lo que puedes hacer con una cantidad dada de cómputo es primordial. Blackwell Ultra ofrece un gran impulso, pero no todos pueden obtener esas GPUs. Incluso aquellos que pueden querrán usarlas de la manera más eficiente posible. Los agentes de IA ligeros se tratan de ser ingeniosos con el cómputo: - Pueden ser diseñados para manejar tareas de manera modular, activando solo el modelo necesario para una subtarea, en lugar de ejecutar un modelo masivo de principio a fin para cada consulta. - A menudo utilizan técnicas como la recuperación (obteniendo solo el contexto relevante cuando se necesita) o el almacenamiento en caché de resultados, lo que reduce el cálculo redundante. - Los modelos más pequeños a menudo pueden ejecutarse en hardware más barato o más fácilmente disponible (incluso GPUs o CPUs más antiguas), lo cual es una gran ventaja cuando las GPUs de primer nivel son escasas o ultra caras.

Por ejemplo, en lugar de tener un único modelo de 175 mil millones de parámetros haciendo todo, podrías tener una colección de 10 modelos más pequeños (digamos de 5 mil millones a 20 mil millones cada uno) afinados para dominios específicos (uno para programación, otro para matemáticas, otro para diálogo, etc.), coordinados por un marco de agentes. Estos podrían usar colectivamente mucho menos memoria y computación para una consulta dada, porque el agente enruta inteligentemente la consulta a la experiencia adecuada. Este tipo de enfoque puede ser más rentable de ejecutar, especialmente si tus recursos de hardware son limitados. Es similar a los microservicios en la computación en la nube: usar el servicio pequeño adecuado para el trabajo, en lugar de una aplicación gigante manejando todas las tareas de manera ineficiente.

Proyectos como Macaron AI han estado explorando arquitecturas de memoria más profundas y agentes donde un sistema de IA compone soluciones llamando a diferentes habilidades o bases de conocimiento (de manera similar a cómo los humanos podrían consultar a un especialista para una pregunta específica). En un mundo donde no todos tienen un clúster Blackwell Ultra, tales diseños podrían permitir que más personas realicen tareas avanzadas de IA en hardware moderado. Es una respuesta pragmática al actual cuello de botella de hardware.

Además, incluso en el extremo superior, la eficiencia es buena para los negocios. Los hiperescaladores que compran Blackwell Ultra en masa también están invirtiendo en optimizaciones de software, desde mejores compiladores hasta marcos distribuidos, para exprimir el máximo rendimiento de cada hora de GPU (ya que a $40k cada uno, cada bit de utilización cuenta). Un marco de agente ligero que pueda, por ejemplo, reducir la longitud del contexto alimentado a un gran modelo mediante preprocesamiento de consultas (ahorrando así cálculo), o que pueda descargar alguna lógica a máquinas más baratas, ahorrará dinero directamente. Vemos indicios de esto en sistemas emergentes donde un gran modelo se complementa con herramientas más pequeñas o una base de datos; el gran modelo solo se invoca cuando es absolutamente necesario. Esa filosofía se alinea bien con el argumento de Macaron de no usar un martillo de IA para cada clavo, sino más bien un conjunto de martillos y bisturíes.

En resumen, el ajuste de Macaron aquí consiste en reconocer que, aunque lo último y lo mejor de NVIDIA permite hazañas increíbles, la industria también necesita hacer que la IA sea accesible y sostenible. Empujar únicamente por modelos cada vez más grandes en hardware cada vez más caro tiene rendimientos decrecientes para muchas aplicaciones. Hay una oportunidad (y, posiblemente, una necesidad) de innovar en cómo diseñamos soluciones de IA para que sean más ligeras, más modulares y menos intensivas en recursos. Esto no significa que dejemos de perseguir GPUs potentes o modelos grandes; más bien, los usamos de manera más juiciosa. La actual escasez de suministro y la explosión de costos están forzando esa conversación. Es probable que veamos más enfoques híbridos: por ejemplo, un servicio de IA podría usar GPUs Blackwell Ultra para el trabajo pesado de la inferencia del modelo, pero solo después de que un sistema frontal liviano haya destilado la solicitud, recuperado datos relevantes y determinado que realmente se necesita ejecutar el gran modelo. De esa manera, los ciclos costosos de GPU se utilizan solo cuando es necesario, mejorando el rendimiento general por dólar.

Conclusión

La llegada de las GPUs Blackwell Ultra de NVIDIA marca un momento decisivo en la infraestructura de IA, brindando mejoras de rendimiento impresionantes en el razonamiento e inferencia de IA, pero también destacando los nuevos desafíos del éxito: escasez de suministros, costos en aumento y el apetito creciente por el poder computacional. Hemos visto cómo Blackwell Ultra mejora significativamente el rendimiento (especialmente en baja precisión) y la eficiencia (rendimiento por vatio), permitiendo saltos como una producción de IA 50 veces mayor y medios generativos en tiempo real que eran inalcanzables hace solo un año[54][5]. Su robusta memoria HBM3e y arquitectura avanzada eliminan cuellos de botella, pero al mismo tiempo, la escala y el consumo de energía de estos sistemas introducen obstáculos logísticos y económicos: desde etiquetas de precio de $3M hasta racks de 100kW que requieren enfriamiento especializado.

La "crisis de suministro de GPUs para IA" es un problema real y actual: esencialmente toda la producción de NVIDIA está comprometida, y "agotado" se ha convertido en la norma[8]. Esta escasez, con GPUs alcanzando precios de más de $30,000, ha hecho que tanto inversores como profesionales se centren intensamente en cómo utilizar mejor el hardware disponible. Esto subraya un punto importante: para la industria en general, no es sostenible depender únicamente de la escala bruta. Por eso la eficiencia, ya sea mediante hardware mejorado como Blackwell Ultra o software más inteligente como los marcos de agentes ligeros, es la clave de cara al futuro.

A corto plazo, Blackwell Ultra de NVIDIA seguirá dominando los titulares y los planes de implementación, y podemos esperar que la frenesí por estas GPUs persista hasta que la oferta se iguale con la demanda (lo cual podría no suceder hasta que llegue la próxima arquitectura y las fábricas se expandan). Para las organizaciones que están desarrollando capacidad en IA, la conclusión es doble: si puedes conseguir hardware de última generación, te dará una ventaja, pero también necesitas diseñar tu pila de IA inteligentemente para aprovechar al máximo cada FLOP. Eso podría significar mezclar modelos más pequeños, optimizar el código para nuevas precisiones o invertir en gestión de datos, cualquier cosa para evitar el desperdicio de cálculo, que en este contexto es dinero desperdiciado.

A medida que miramos hacia el futuro, la trayectoria del hardware de IA sugiere un rendimiento aún mayor (el hipotético 「H300」 y la próxima generación Rubin) y probablemente una continuada alta demanda. Por lo tanto, el desafío de la industria será equilibrar esta increíble capacidad con la accesibilidad. La eficiencia, escalabilidad e innovación a nivel de software serán clave para garantizar que la revolución de la IA impulsada por GPUs como Blackwell Ultra sea una en la que pueda participar una amplia gama de jugadores, no solo aquellos con los bolsillos más profundos o los centros de datos más grandes. En resumen, la última maravilla de NVIDIA ha abierto nuevas fronteras, pero también nos recuerda que en la IA (como en la informática en general), el uso inteligente de los recursos es tan importante como la potencia bruta.

Fuentes: Documentación técnica y de productos de NVIDIA[54][1][16], informes de noticias de la industria[8][43], y análisis de expertos[28][27] que detallan el rendimiento de Blackwell Ultra, la cadena de suministro y el impacto en la economía de la IA.


[1] [3] [4] [9] [10] [11] [12] [13] [14] Dentro de NVIDIA Blackwell Ultra: El Chip que Impulsa la Era de la Fábrica de IA | Blog Técnico de NVIDIA

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] Diseñado para Rendimiento y Eficiencia en Razonamiento de IA | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia: Blackwell Ultra lidera el impulso de un crecimiento del 62 por ciento hacia ingresos récord

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] Los ingresos de Nvidia se disparan a un récord de $57 mil millones por trimestre — todas las GPU están agotadas | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15] Super Micro Computer, Inc. - Supermicro comienza envíos masivos de sistemas NVIDIA Blackwell Ultra y soluciones de centro de datos de escala Plug-and-Play

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] Arquitectura NVIDIA Hopper en profundidad | Blog técnico de NVIDIA

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] Introducción a NVFP4 para inferencia de baja precisión eficiente y precisa

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell vs. Blackwell Ultra B300: ¿Deberías comprar o esperar?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] Se espera que NVIDIA envíe 5.2M de GPUs Blackwell en 2025, 1.8M en 2026 y 5.7M de GPUs Rubin en 2026 : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] GPUs Blackwell y la nueva economía de precios de la IA en la nube | por elongated_musk | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] El sistema de refrigeración para un único rack Nvidia Blackwell Ultra NVL72 cuesta la asombrosa cifra de $50,000, y se espera que aumente a $56,000 con los racks NVL144 de próxima generación | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] Los servidores NVIDIA Blackwell AI expuestos a "escasez de componentes", se espera suministro limitado en el cuarto trimestre de 2024

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] El CEO de Nvidia, Huang, ve una fuerte demanda para los chips Blackwell | Reuters

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] Nvidia incrementa el pedido de obleas de TSMC en un 50% para los chips Blackwell - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] Sam Altman: "Nos hemos quedado sin GPUs. ChatGPT ha alcanzado un nuevo récord de usuarios cada día. Tenemos que hacer estos horribles compromisos ahora mismo. Tenemos mejores modelos, y simplemente no podemos ofrecerlos porque no tenemos la capacidad. Tenemos otros tipos de nuevos productos y servicios que nos encantaría ofrecer." : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron