NVIDIA Blackwell Ultra & a Escassez de GPUs AI

Autor: Boxu Li

A mais recente plataforma GPU Blackwell Ultra da NVIDIA tomou o mundo da IA de assalto – tanto que está causando uma séria escassez de suprimentos. Analistas de Wall Street e pesquisadores de IA nas redes sociais estão comentando sobre o desempenho recorde, preços altíssimos e demanda sem precedentes por esses chips. Nesta análise aprofundada, exploraremos por que o Blackwell Ultra é notícia viral, examinaremos seus avanços em desempenho por watt e largura de banda de memória, discutiremos a economia de clusters ao implantar essas GPUs em grande escala e consideraremos por que a agitação está gerando uma reavaliação dos frameworks de IA leves. Ao longo do texto, respaldaremos os fatos com fontes confiáveis e focaremos nos detalhes técnicos para um público bem-informado.

Por que o Blackwell Ultra está nos holofotes

Desempenho Inigualável: As GPUs Blackwell Ultra da NVIDIA oferecem um salto massivo na capacidade de inferência de IA. Benchmarks iniciais mostram 7,5× mais throughput de baixa precisão do que as GPUs Hopper H100 da geração anterior[1]. De fato, o Blackwell Ultra pode executar cálculos de precisão densa de 4 bits (formato NVFP4) a 15 PFLOPS, contra cerca de 2 PFLOPS em um H100 (FP8) – um aumento de 7,5× no throughput bruto[1]. Este salto se traduz em uma inferência de modelo de IA dramaticamente mais rápida. Por exemplo, a NVIDIA relata que um sistema baseado em Blackwell Ultra alcança um aumento geral de 50× na produção da “fábrica” de IA (throughput de respostas) em comparação com uma plataforma baseada em Hopper, graças a cerca de 10× mais responsividade por usuário e 5× mais throughput por megawatt de energia[2]. Em outras palavras, o Blackwell Ultra não apenas adiciona força bruta – ele faz isso de forma muito mais eficiente, resultando em 5× mais desempenho por watt em implantações em larga escala[2].

Novas Capacidades de Inferência: O Blackwell Ultra introduz um novo formato de precisão de 4 bits chamado NVFP4 que permite velocidades de inferência extremas sem sacrificar muito a precisão. Este formato utiliza uma escala de dois níveis inteligente para preservar a precisão, alcançando quase a qualidade de nível FP8 com muito menos memória e custo de computação[3]. O resultado é que os Tensor Cores do Blackwell Ultra podem realizar cálculos de baixa precisão em níveis anteriormente impossíveis – 1,5× o throughput FP4 das GPUs Blackwell padrão, e muitas vezes mais rápido do que arquiteturas anteriores[1]. A NVIDIA também dobrou o throughput da unidade de função especial para operações chave de atenção do transformer, permitindo que camadas de atenção funcionem até 2× mais rápido do que nos chips Blackwell base[4]. Esses avanços visam os principais gargalos de modelos de linguagem de grande porte e inferência de IA generativa, possibilitando coisas como vídeo generativo em tempo real. De fato, uma demonstração mostrou o Blackwell Ultra gerando um vídeo de IA de 5 segundos 30× mais rápido do que as GPUs Hopper poderiam, transformando um trabalho de 90 segundos em saída em tempo real[5].

Wall Street e Hype no Twitter: Esses ganhos de desempenho não passaram despercebidos. As ações da NVIDIA dispararam com as expectativas de receitas recordes impulsionadas por Blackwell. No terceiro trimestre de 2025, a receita de data centers atingiu US$ 51,2 bilhões (90% das vendas da NVIDIA), graças em grande parte ao aumento do Blackwell Ultra – que a empresa afirma ser agora sua “arquitetura líder em todas as categorias de clientes”[6][7]. O CEO Jensen Huang observou que “as vendas de Blackwell estão fora de série, e as GPUs em nuvem estão esgotadas”, com a demanda superando em muito a oferta[8]. Laboratórios de IA e provedores de nuvem estão correndo para obter esses chips, e as redes sociais estão cheias de anedotas sobre filas de espera extremas e aumentos de preços no mercado secundário. Essa frenesi alimentada pela escassez está elevando os preços e tornando o Blackwell Ultra um tópico em alta tanto nos círculos de tecnologia quanto de finanças.

Arquitetura Blackwell Ultra: Desempenho em Escala

Figura: O rendimento de IA de baixa precisão disparou com o Blackwell Ultra. Cada GPU Blackwell Ultra oferece 15 PFLOPS de computação densa de IA de 4 bits, um aumento de 1,5× em comparação com o já poderoso chip Blackwell, e cerca de 7,5× o rendimento FP8 da geração anterior da NVIDIA Hopper (H100/H200)[1]. Este enorme salto geracional no poder de computação é um fator chave para o atual boom da infraestrutura de IA.

No coração do Blackwell Ultra está um design de ponta, construído especificamente para inferência de IA em larga escala. Cada GPU realmente consiste em dois chips GPU em um único pacote, conectados por um interconector de alta largura de banda de 10 TB/s[9]. Esta abordagem de múltiplos chips (semelhante a arquiteturas de chiplet) permite que a NVIDIA reúna uma enorme quantidade de capacidade de processamento em um único "GPU". O chip completo Blackwell Ultra possui 160 Multiprocessadores de Streaming (SMs) divididos em 8 clusters GPC, totalizando 640 Núcleos Tensor de quinta geração por GPU[10][11]. Esses Núcleos Tensor são os motores do AI, e no Blackwell Ultra eles estão otimizados para as precisões FP8, FP6 e o novo NVFP4. Cada SM também inclui 256 KB de "Memória Tensor" (TMEM) no chip, uma pequena área de armazenamento de alta velocidade que permite que a GPU reutilize dados para cálculos de matriz de maneira mais eficiente[12][13]. Esta memória a nível de SM, juntamente com novos modos de processamento de bloco duplo, ajuda a reduzir o tráfego de memória fora do chip e mantém os Núcleos Tensor abastecidos, melhorando a taxa de transferência efetiva e a eficiência energética[13].

Memória HBM3e – Massiva e Rápida: Alimentando dados para essas unidades de computação está um enorme conjunto de memória. As GPUs Blackwell Ultra vêm com 288 GB de memória HBM3e de alta largura de banda cada uma[14]. Isso é 1,5× mais memória do que a GPU padrão do data center Blackwell (que tem ~192 GB)[15], e mais de 3,5× a memória de uma Hopper H100 (80 GB). Isso é importante porque os grandes modelos de linguagem de hoje e outras cargas de trabalho de IA muitas vezes exigem comprimentos de contexto e tamanhos de modelo enormes. A memória maior permite tamanhos de lote maiores e sequências mais longas a serem processadas de uma vez, melhorando o throughput para modelos complexos[16]. A largura de banda da memória é igualmente impressionante – na ordem de 8 TB/s por GPU (graças a 12 pilhas de HBM3e)[14]. Para comparação, um módulo H100 SXM entregava cerca de 3 TB/s[17], e mesmo a atualização intermediária H200 com HBM3e foi limitada a ~4,8 TB/s[18][19]. Com o Blackwell Ultra, o subsistema de memória deixa de ser o gargalo para muitas cargas de trabalho: os modelos podem ser maiores ou acessados de forma mais eficiente, sem sobrecarregar constantemente a memória externa.

Grace Hopper para Grace Blackwell: O design da NVIDIA também integra de forma estreita CPUs e redes com as GPUs para melhor desempenho em escala de cluster. Cada “nó” Blackwell Ultra emparelha as GPUs com as CPUs Grace da NVIDIA através de conexões NVLink-C2C ultrarrápidas (900 GB/s de largura de banda CPU–GPU)[14]. A CPU Grace traz 2.592 núcleos Arm e alta largura de banda de memória própria (LPDDR5X) para alimentar as GPUs[20][21]. Esta combinação, às vezes chamada de Grace Blackwell, garante que o cálculo da GPU não seja limitado por limitações de CPU ou I/O. De fato, um sistema NVIDIA GB300 (detalhado abaixo) tem 36 CPUs Grace trabalhando junto com as 72 GPUs em cada rack, todas conectadas via NVLink de 5ª geração com uma impressionante largura de banda de 130 TB/s de todos para todos[22][20]. Este tecido, além do InfiniBand Quantum X ou Ethernet Spectrum-X da NVIDIA entre os nós, significa que até mesmo “fábricas de IA” multi-rack podem operar com comunicação rápida entre GPUs. O objetivo final é escalar a inferência de IA como um serviço em nuvem – que a NVIDIA chama de conceito Fábrica de IA – onde muitos modelos e solicitações são executados em paralelo através de um cluster em malha de aceleradores.

Desempenho por Watt: Ganhos de Eficiência

Um dos aspectos mais notáveis do Blackwell Ultra é o quanto ele melhora a eficiência energética para cargas de trabalho de IA. Sim, cada GPU consome muita energia (vamos discutir o alto TDP em um momento), mas o desempenho por watt aumentou significativamente em comparação com as gerações anteriores. As próprias métricas da NVIDIA indicam que, em grande escala, os sistemas Blackwell Ultra oferecem 5× o rendimento por megawatt de potência em comparação com os sistemas baseados em Hopper[2]. Isso se deve a vários fatores trabalhando em conjunto:

  • Menor Precisão = Menor Energia: Ao usar precisão de 4 bits com perda mínima de precisão, o Blackwell Ultra consegue realizar o mesmo trabalho de inferência com muito menos joules gastos por cálculo. O formato NVFP4 foi projetado explicitamente para melhorar a eficiência – reduzindo o movimento de memória e usando multiplicadores menores – tanto que reduzir a precisão de FP8 para FP4 realmente melhora substancialmente o desempenho por watt[23]. Em essência, cada GPU pode executar muito mais operações com o mesmo orçamento de energia quando são operações de baixa precisão, o que é uma grande vantagem para o serviço de inferência.
  • Otimizações Arquiteturais: A memória tensorial e a cooperação de blocos duplos nos SMs significam melhor utilização de cada watt. Os dados são mantidos no chip, evitando acessos caros à DRAM, e os Tensor Cores são mantidos ocupados com menos interrupções[13]. Além disso, dobrar caminhos cruciais nas unidades de atenção (SFUs) permite que essas unidades completem o trabalho mais rapidamente e, em seguida, fiquem ociosas, em vez de prolongar cálculos de potência total[4]. Tudo isso se traduz em menos desperdício de energia em esperas de memória ou em longas sequências de operações.
  • Processo de Produção e Gerenciamento de Clock: As GPUs da geração Blackwell são fabricadas em avançados processos TSMC 4N/4NP, e as variantes Ultra provavelmente levam isso ao limite. Elas podem atingir clocks mais altos ou mais núcleos no mesmo envelope de energia. De acordo com algumas análises, o Blackwell base (às vezes referido como B200) já proporcionou um aumento significativo em perf/W em relação ao Hopper ao mudar para o silício 4N e ganhos arquiteturais[24]. O Blackwell Ultra então adiciona 50% mais capacidade de computação além disso, embora com um aumento de potência – mas resultando em uma melhor proporção.

Vale a pena notar que as melhorias em performance por watt não são apenas acadêmicas; elas impactam diretamente o custo operacional para centros de dados. Se você consegue obter 5× o rendimento com a mesma entrada de energia, isso representa uma grande redução no custo por consulta ou por inferência. Dado que muitos modelos de IA são implantados em escala web (pense em milhões de consultas por dia), esses ganhos de eficiência são essenciais para conter os custos de eletricidade e resfriamento. A NVIDIA até fornece uma calculadora de eficiência energética para suas GPUs[25], destacando o quanto essa métrica se tornou importante para os clientes.

Por outro lado, a AMD e outros concorrentes também estão promovendo a perf-por-watt para IA, mas no final de 2025, a NVIDIA parece ter dado um salto à frente com a Blackwell Ultra. Por exemplo, a AMD MI300X de ponta (uma GPU concorrente para inferência de IA) ainda está na tecnologia de classe 5nm e foca em operações de 8 e 16 bits; o movimento agressivo da NVIDIA para inferência de 4 bits com hardware especializado lhe dá uma nova vantagem em eficiência. Este é parte do motivo pelo qual os provedores de nuvem estão ansiosos para investir na Blackwell Ultra, apesar do alto custo inicial - o custo total de propriedade melhora quando você pode fazer mais com menos energia ao longo do tempo.

Vantagens de Largura de Banda e Capacidade de Memória

Grandes modelos de IA são notoriamente vorazes por memória e largura de banda, e o Blackwell Ultra aborda isso diretamente com sua arquitetura de memória HBM3e. Como mencionado, cada GPU possui 288 GB de memória HBM3e a bordo[14]. Esta é uma quantidade enorme de memória rápida, mesmo em comparação com GPUs recentes como a H100 de 80GB ou a H200 de 141GB, que introduziu o HBM3e[18][19].

O benefício imediato de 288 GB por GPU é a capacidade de servir ou ajustar modelos muito grandes na memória (como modelos de centenas de bilhões de parâmetros ou LLMs de alto contexto) sem particionar o modelo entre GPUs. Também é possível processar lotes maiores, o que aumenta a utilização. A NVIDIA observa especificamente que a memória 1,5× maior no Blackwell Ultra (em comparação com seu antecessor) “aumenta a taxa de raciocínio de IA para os maiores comprimentos de contexto.”[16] Para aplicações de IA como perguntas e respostas de documentos longos ou conversas prolongadas com um assistente de IA, a GPU pode lidar com mais tokens de uma vez, melhorando tanto a velocidade quanto a qualidade dos resultados.

A largura de banda é o outro lado da moeda. Com 12 pilhas de HBM operando em paralelo, o subsistema de memória do Blackwell Ultra é extremamente amplo. No pico, ele pode alcançar cerca de ~8 TB/s de dados[14]. Este é um número astronômico – em comparação, uma GPU de PC de alto desempenho com GDDR6 pode ter 0,5 TB/s, e até mesmo GPUs de data center da geração anterior estavam na faixa de 2–3 TB/s[17]. O que isso significa na prática? Significa que os núcleos da GPU podem ser mantidos abastecidos com dados, mesmo em workloads pesadas de memória. Redes neurais frequentemente envolvem grandes multiplicações de matrizes (que os Tensor Cores lidam) intercaladas com operações limitadas pela memória (como ponderações de atenção, buscas de embeddings, etc.). Com mais largura de banda, essas etapas limitadas pela memória aceleram, então o workload geral vê menos interrupções. O design do Blackwell Ultra essencialmente equilibra seu tremendo poder de computação com uma capacidade de memória igualmente formidável, evitando o cenário onde as unidades de processamento ficam ociosas esperando por dados.

Para ser mais concreto, considere um modelo transformer gerando uma sequência longa: o mecanismo de atenção precisa ler grandes matrizes de chave/valor da memória. No Hopper H100, isso poderia ter sido um fator limitante para sequências muito longas, mas no Blackwell Ultra com HBM3e, a GPU pode transferir essas matrizes a uma taxa duas vezes maior ou mais. Combinado com as unidades de computação de atenção 2× mais rápidas, alcança um desempenho sustentado muito maior em tarefas como geração de texto no estilo GPT com contexto longo. O conceito de “Fábrica de IA” da NVIDIA também significa que a memória é agregada em escala de cluster – em um rack de 72 GPUs, são mais de 20 TB de memória GPU agrupados, com largura de banda total de memória na faixa de centenas de TB/s disponível no domínio conectado por NVLink[22][20]. Isso essencialmente permite que um cluster de IA se comporte como uma única GPU gigante com dezenas de terabytes de memória rápida, um cenário ideal para atender a muitas instâncias de grandes modelos simultaneamente.

Economia de Clusters: Custo e Energia em Escala

Com desempenho e eficiência cobertos, devemos abordar o lado prático da implementação do Blackwell Ultra: o custo e a infraestrutura necessários. Essas GPUs geralmente são vendidas como parte de sistemas maiores, como o rack GB300 NVL72 da NVIDIA ou lâminas de servidor HGX B300. Uma única unidade GB300 NVL72 integra 72 GPUs Blackwell Ultra mais 36 CPUs Grace em um rack, completo com switches de alta velocidade e resfriamento[26][20]. Isso é efetivamente um supercomputador de IA em uma caixa, e não sai barato. De acordo com relatórios do setor, a NVIDIA está precificando um rack completo GB300 NVL72 em cerca de US$ 3 milhões[27]. Isso resulta em uma média de US$ 40.000 por GPU, o que está em linha com o preço de tabela aproximado de US$ 30k–US$ 40k que a NVIDIA insinuou para unidades individuais Blackwell[28]. (Notavelmente, Jensen Huang sugeriu que eles não venderão apenas chips ou placas avulsas para clientes finais – eles preferem vender sistemas integrados completos[28]. Essa estratégia de empacotamento aumenta o custo inicial, mas garante que os compradores obtenham uma solução completa e otimizada.)

Para quem planeja um cluster de IA, o capex (despesa de capital) é enorme. Apenas um rack custa $3M, e muitas implantações envolvem múltiplos racks. CoreWeave, OpenAI, Meta, Microsoft – todos os grandes players – estão, supostamente, comprando o máximo que podem. Aqueles com menos poder de compra (startups, laboratórios acadêmicos) enfrentam preços inflacionados no mercado secundário, onde os H100s anteriormente eram revendidos a dezenas de milhares acima do preço de tabela devido à escassez, e estamos vendo uma tendência semelhante com o Blackwell. No final de 2024, cartões H100 de 80GB foram vendidos por $30k–$40k cada em alguns casos quando a oferta não atendia à demanda. O Blackwell Ultra está seguindo o mesmo caminho, efetivamente redobrando a “corrida do ouro da IA” nos preços. Em resumo, apenas organizações com bolsos fundos ou créditos de nuvem podem se dar ao luxo de jogar neste nível de hardware agora.

Custos de Energia e Resfriamento: Além do preço de compra, os custos operacionais (OpEx) de operação desses clusters são significativos. Cada GPU Blackwell Ultra pode consumir até ~1400 W no pico quando totalmente utilizada[15] – o dobro ou mais do típico TDP de 700W de um H100 SXM. Em um rack de 72 GPUs, isso significa que apenas as GPUs poderiam consumir cerca de 100 kW de energia (sem contar a sobrecarga para CPUs, redes, etc.). De fato, um gabinete NVL72 totalmente carregado com 18 bandejas de GPU consome mais de 100 kW e requer resfriamento avançado. A NVIDIA optou por resfriamento líquido nesses sistemas, mas isso também tem um custo: uma análise recente da Morgan Stanley estimou a lista de materiais para o sistema de resfriamento líquido em ~$50.000 por rack[30]. Isso inclui placas frias personalizadas, bombas, trocadores de calor, etc. E à medida que os sistemas de próxima geração aumentam em potência (rumor: a geração seguinte “Vera Rubin” pode chegar a 1,8kW por GPU), o custo de resfriamento por rack deve aumentar para ~$56k[31][32].

Em outras palavras, além dos $3M em silício, você pode gastar dezenas de milhares em encanamento e gerenciamento de calor. Além disso, a conta de eletricidade: 100 kW funcionando 24/7 é cerca de 2,4 MWh por dia. Nas taxas de centros de dados comerciais, isso pode ser da ordem de $200 a $400 por dia em custo de energia por rack (mais de $100k por ano), sem incluir o resfriamento e os custos de infraestrutura. Claramente, operar um supercluster de IA não é para os fracos de coração ou de orçamento.

No entanto, é aqui que a economia de clusters se justifica: throughput e TCO. Se uma rack Blackwell Ultra entrega, por exemplo, 50× a produção de uma rack de geração anterior (como a NVIDIA sugere para certas cargas de trabalho)[2], então um data center pode precisar de menos racks totais (e, portanto, menos energia/refrigeração total) para atingir uma carga de trabalho alvo. A eficiência aumentada significa que por consulta, o custo em energia pode ser realmente menor, apesar do maior consumo absoluto de energia, porque cada GPU está atendendo muito mais consultas em paralelo. Para provedores de nuvem que alugam tempo de GPU, isso potencialmente significa que eles podem oferecer mais desempenho aos clientes pelo mesmo custo, ou obter margens melhores. Uma análise do Medium sugeriu que se as GPUs Blackwell fornecerem muito mais desempenho por aproximadamente o mesmo preço de aluguel que os H100s, o custo por computação de IA na nuvem (por hora de TFLOP) cairá, pelo menos uma vez que a oferta se estabilize[33]. Isso poderia democratizar o acesso a grandes modelos se os preços se normalizarem. Claro, a curto prazo, as restrições de oferta significam que os preços de aluguel estão permanecendo altos – muitas instâncias de GPU na nuvem são caras ou têm lista de espera porque todos querem esse novo hardware.

Resumindo, a economia do Blackwell Ultra em escala de cluster envolve enormes investimentos iniciais, mas promete ganhos significativos de eficiência e capacidade a longo prazo. Empresas que conseguem garantir esses sistemas cedo ganham uma vantagem competitiva no desenvolvimento e implantação de modelos de IA – e é exatamente por isso que a corrida para comprar GPUs tem sido comparada a uma “corrida armamentista”. Isso também explica por que a receita de data center da NVIDIA explodiu 66% ano a ano naquele trimestre[34]: praticamente todas as grandes empresas de tecnologia e startups de IA estão investindo capital em infraestrutura de GPU, mesmo que isso signifique tolerar preços altos e entregas atrasadas.

A Crise de Oferta: Escassez e Rumores do “H300”

Tudo isso leva à escassez de suprimentos que sustenta o burburinho viral. Simplificando, a demanda supera em muito a oferta dos aceleradores de IA da NVIDIA no momento. A diretora financeira da NVIDIA, Colette Kress, observou em uma recente chamada de resultados que “as nuvens estão esgotadas” – grandes provedores de nuvem reservaram totalmente sua capacidade de GPU – e até mesmo GPUs de gerações anteriores como a H100 e a Ampere A100 estão “totalmente utilizadas” na base instalada[35]. A NVIDIA reconheceu que está com restrições de fornecimento e que está aumentando a produção o mais rápido possível (com expectativas de um aumento significativo até o segundo semestre de 2024)[36]. Jensen Huang, durante uma viagem à TSMC em Taiwan, disse que pediu à sua fundição o máximo de wafers possível para atender à “demanda muito forte” por chips Blackwell[37][38]. O CEO da TSMC até apelidou Jensen de “homem dos cinco trilhões de dólares” à medida que o valor de mercado da NVIDIA atingiu 5 trilhões de dólares com o otimismo em torno da IA[39]. Em resumo, a NVIDIA está vendendo todos os chips que consegue fabricar e pressionando parceiros para acelerar a produção – mas ainda não é suficiente no curto prazo.

Vários fatores contribuem para o gargalo:

  • Cadeia de Suprimentos Complexa: Não são apenas GPUs; a NVIDIA agora vende sistemas completos (com GPUs, CPUs, rede, resfriadores, etc.). Um relatório de Taiwan indicou que alguns componentes – especialmente para os sistemas de resfriamento líquido nos novos servidores GB200 (Blackwell) – estão em falta[40]. Fornecedores taiwaneses como Foxconn e Wistron teriam enfrentado dificuldades com itens como bombas ou materiais de placas frias[41]. A decisão da NVIDIA de apostar em designs resfriados a líquido adicionou novas dependências à cadeia de suprimentos[42]. A pesquisa do Bank of America citada nesse relatório sugeriu que a NVIDIA poderia desviar alguns pedidos para sistemas baseados em Hopper um pouco mais antigos (como um H200 HGX resfriado a ar) se os sistemas Blackwell fossem atrasados[43]. Até agora, a NVIDIA conseguiu lançar o Blackwell Ultra a tempo em 2025, mas as unidades iniciais foram provavelmente alocadas para alguns clientes-chave (pense em Meta, Microsoft)[44]. Compradores menores estão aguardando na fila.
  • Capacidade na TSMC: As GPUs Blackwell são fabricadas no processo de classe 3nm da TSMC (4N é um derivado personalizado de 5nm para as anteriores; as mais novas podem ser de 3nm para “Ultra”). A capacidade de ponta da TSMC é finita e em grande parte reservada tanto pela NVIDIA quanto por outros gigantes como a Apple. A NVIDIA teria aumentado seus pedidos de wafers em 50% para 2024–2025 para garantir mais suprimento[45]. Mesmo assim, os prazos para chips podem ser de muitos meses. De fato, alguns analistas afirmam que a NVIDIA pré-reservou tanta capacidade da TSMC até 2026 que a rival AMD terá dificuldades para se estabelecer em aceleradores de IA[46][47]. Esse domínio garante que a NVIDIA possa aumentar o suprimento a longo prazo, mas a curto prazo também significa nenhum alívio rápido – as fábricas estão operando a pleno vapor, e ainda assim, todas as empresas de IA querem GPUs “para ontem”.
  • Restrições de Exportação: Um fator externo são os limites de exportação dos EUA na venda de chips de IA de ponta para a China. A NVIDIA não pode vender chips de primeira linha H100 ou Blackwell para a China devido a controles governamentais[48]. Pode-se pensar que isso deixa mais suprimento para o resto do mundo, mas a NVIDIA criou variantes levemente reduzidas (como modelos H100 “CN”) para a China que ainda consomem alguma capacidade de produção. Além disso, a demanda chinesa por computação de IA é massiva, e se não conseguirem os chips mais recentes da NVIDIA, podem comprar os mais antigos, mantendo indiretamente a pressão sobre o suprimento global. Em qualquer caso, a demanda ocidental sozinha é suficiente para consumir toda a produção atual, e as restrições à China adicionam complexidade à forma como a NVIDIA aloca seu inventário.

A menção de “H300” na discussão provavelmente se refere ao próximo grande upgrade de GPU no horizonte. O roteiro da NVIDIA após Blackwell é supostamente chamado de Vera Rubin (em homenagem à astrônoma) – alguns entusiastas apelidaram informalmente essa hipotética futura série de “H300”, seguindo o estilo de nomeação Hopper. Enquanto Blackwell Ultra está aqui agora, as empresas já estão especulando sobre o que vem a seguir. Por exemplo, imagine que por volta de 2027, a NVIDIA possa lançar outro salto, como uma GPU “H300” construída em um processo de 3nm ou 2nm, talvez 10–15% mais eficiente que o Blackwell Ultra (como um comentarista do Reddit sugeriu)[49][50]. Isso aliviará imediatamente a pressão? Improvável. A maioria dos grandes players ainda estará digerindo seus implantes Blackwell até lá; eles não vão descartar bilhões de dólares em hardware da noite para o dia por um ganho marginal[49][50]. Portanto, mesmo que uma GPU “H300” ou Rubin apareça, a demanda continuará superando a oferta no futuro próximo, pois a adoção da IA ainda está acelerando em diversas indústrias. Como um analista colocou, a NVIDIA entrou em um “ciclo virtuoso de IA” – mais uso gera mais demanda por computação, o que possibilita mais aplicações, e assim por diante[8].

Em termos práticos, a orientação de Jensen Huang é que a oferta permanecerá restrita até o próximo ano. Fabricantes de memória como a SK Hynix já venderam toda a sua produção de HBM até o próximo ano devido ao boom da IA[51][52]. A própria previsão da NVIDIA para o quarto trimestre é de uma receita de 65 bilhões de dólares – outro salto – que pressupõe que eles podem enviar todos os Blackwells que conseguirem fabricar[53]. Portanto, a "escassez de oferta" não terminará imediatamente; se algo, os preços permanecerão altos e as GPUs estarão sujeitas a alocação até 2025. Podemos não ver alívio até que possivelmente fornecedores de nuvem de segundo nível ou empresas menores decidam que o custo é muito alto e pausem os pedidos – mas no momento, todos estão em modo de conquista de território para computação de IA. A estratégia da NVIDIA de vender sistemas completos também significa que, se você quiser essas GPUs, muitas vezes terá que comprar servidores inteiros e caros ou até mesmo pods inteiros, o que concentra ainda mais quem pode obtê-los.

O Caso para Eficiência: Estruturas de IA Mais Leves (Perspectiva do Macaron)

Com custos assustadores e limites de fornecimento para hardware de IA de ponta, vale a pena considerar como o lado do software e da arquitetura pode se adaptar. Um ângulo intrigante é o argumento a favor das estruturas de agentes leves – essencialmente, projetar sistemas de IA que dependem de múltiplos modelos ou “agentes” especializados menores trabalhando juntos em vez de um modelo monolítico gigante que exige um super-GPU. É aí que abordagens como o Macaron entram, defendendo agentes de IA mais eficientes e conscientes de memória.

Por que isso pode ser um bom ajuste agora? Porque se computação é o novo petróleo, então maximizar o que se pode fazer com uma determinada quantidade de computação é fundamental. Blackwell Ultra dá um grande impulso, mas nem todos podem obter esses GPUs. Mesmo aqueles que podem quererão usá-los da forma mais eficiente possível. Agentes de IA leves tratam de ser astutos com a computação: - Eles podem ser projetados para lidar com tarefas de forma modular, ativando apenas o modelo necessário para uma subtarefa, em vez de executar um modelo massivo de ponta a ponta para cada consulta. - Muitas vezes utilizam técnicas como recuperação (trazendo apenas o contexto relevante quando necessário) ou cache de resultados, o que reduz a computação redundante. - Modelos menores podem frequentemente ser executados em hardware mais barato ou mais facilmente disponível (até mesmo GPUs ou CPUs mais antigos), o que é uma grande vantagem quando GPUs de ponta são escassos ou ultra-caros.

Por exemplo, em vez de um único modelo de 175B parâmetros fazendo tudo, você pode ter uma coleção de 10 modelos menores (digamos de 5B a 20B cada) ajustados para domínios específicos (um para codificação, outro para matemática, um para diálogos, etc.), coordenados por uma estrutura de agentes. Esses modelos poderiam coletivamente usar muito menos memória e computação para uma consulta específica, porque o agente roteia inteligentemente a consulta para a especialização certa. Esse tipo de abordagem pode ser mais custo-efetiva para operar – especialmente se seus recursos de hardware forem limitados. É semelhante aos microsserviços na computação em nuvem: use o serviço pequeno certo para a tarefa, em vez de uma aplicação gigante lidando com todas as tarefas de forma ineficiente.

Projetos como o Macaron AI têm explorado arquiteturas de memória mais profundas e agentes onde um sistema de IA compõe soluções chamando diferentes habilidades ou bases de conhecimento (um pouco como os humanos podem consultar um especialista para uma pergunta específica). Em um mundo onde nem todos têm um cluster Blackwell Ultra, tais designs poderiam permitir que mais pessoas realizassem tarefas avançadas de IA em hardware moderado. É uma resposta pragmática ao atual gargalo de hardware.

Além disso, mesmo no nível mais alto, a eficiência é boa para os negócios. Os hiperescaladores que compram Blackwell Ultra em massa também estão investindo em otimizações de software – desde compiladores melhores até frameworks distribuídos – para extrair o máximo rendimento de cada hora de GPU (já que a $40 mil cada, cada bit de utilização conta). Um framework de agente leve que pode, por exemplo, reduzir o comprimento do contexto alimentado a um modelo grande pré-processando consultas (economizando assim computação), ou que pode descarregar alguma lógica para máquinas mais baratas, economizará dinheiro diretamente. Vemos indícios disso em sistemas emergentes onde um grande modelo é complementado por ferramentas menores ou um banco de dados; o grande modelo é invocado apenas quando absolutamente necessário. Essa filosofia se alinha bem com o argumento do Macaron de não usar um martelo de IA para cada prego, mas sim um kit de ferramentas de martelos e bisturis.

Em resumo, o encaixe do Macaron aqui diz respeito a reconhecer que, enquanto o mais recente e melhor da NVIDIA permite feitos incríveis, a indústria também precisa tornar a IA acessível e sustentável. Focar apenas em modelos cada vez maiores em hardware cada vez mais caro traz retornos decrescentes para muitas aplicações. Há uma oportunidade (e, talvez, uma necessidade) de inovação em como arquitetamos soluções de IA para serem mais leves, mais modulares e menos intensivas em recursos. Isso não significa que devemos parar de buscar GPUs poderosas ou modelos grandes; em vez disso, devemos usá-los de forma mais criteriosa. A atual escassez de suprimentos e a explosão de custos estão forçando essa conversa. É provável que vejamos mais abordagens híbridas: por exemplo, um serviço de IA pode usar GPUs Blackwell Ultra para o processamento pesado de inferência de modelo, mas somente após um sistema frontal leve ter destilado a solicitação, recuperado dados relevantes e determinado que o modelo grande realmente precisa ser executado. Dessa forma, os ciclos caros de GPU são gastos apenas quando necessário, melhorando o rendimento geral por dólar.

Conclusão

O advento das GPUs Blackwell Ultra da NVIDIA marca um momento decisivo na infraestrutura de IA – proporcionando melhorias de desempenho impressionantes no raciocínio e inferência de IA, mas também destacando os novos desafios do sucesso: escassez de suprimentos, custos elevados e o apetite crescente por poder computacional. Vimos como a Blackwell Ultra aumenta significativamente o desempenho (especialmente em baixa precisão) e a eficiência (desempenho por watt), permitindo saltos como 50× maior produção de IA e mídia generativa em tempo real que eram inalcançáveis há apenas um ano[54][5]. Sua memória HBM3e robusta e arquitetura avançada eliminam gargalos, mas ao mesmo tempo, a escala e o consumo de energia dessas sistemas introduzem desafios logísticos e econômicos – desde etiquetas de preço de $3M até racks de 100kW que precisam de resfriamento especializado.

A “crise de oferta de GPUs de IA” é um problema real e presente: essencialmente toda a produção da NVIDIA está comprometida, e "esgotado" se tornou a norma[8]. Essa escassez, com GPUs alcançando preços de $30k+, faz com que investidores e profissionais estejam hiperfocados em como melhor utilizar o hardware que temos. Isso enfatiza um ponto importante: para a indústria em geral, não é sustentável depender apenas de escala bruta. É por isso que a eficiência – seja através de melhor hardware como o Blackwell Ultra ou software mais inteligente como frameworks de agentes leves – é o nome do jogo daqui em diante.

A curto prazo, o Blackwell Ultra da NVIDIA continuará a dominar manchetes e planos de implantação, e podemos esperar que a loucura por esses GPUs persista até que a oferta alcance a demanda (o que pode não acontecer até que a próxima arquitetura seja lançada e as fábricas se expandam). Para as organizações que estão desenvolvendo capacidade de IA, a lição é dupla: se você conseguir hardware de ponta, isso lhe dará uma vantagem, mas também é necessário arquitetar sua pilha de IA de forma inteligente para aproveitar ao máximo cada FLOP. Isso pode significar misturar modelos menores, otimizar o código para novas precisões ou investir em gestão de dados – qualquer coisa para evitar computação desperdiçada, que nesse contexto é dinheiro desperdiçado.

Ao olharmos para o futuro, a trajetória do hardware de IA sugere um desempenho ainda maior (o hipotético “H300” e a próxima geração Rubin) e provavelmente uma demanda contínua alta. Assim, o desafio da indústria será equilibrar essa incrível capacidade com acessibilidade. Eficiência, escalabilidade e inovação no nível de software serão fundamentais para garantir que a revolução da IA impulsionada por GPUs como a Blackwell Ultra seja uma em que uma ampla gama de participantes possa participar – não apenas aqueles com os maiores bolsos ou os maiores data centers. Em resumo, a mais recente maravilha da NVIDIA abriu novas fronteiras, mas também nos lembra que na IA (assim como na computação em geral), o uso inteligente dos recursos é tão importante quanto a potência bruta.

Fontes: Documentação técnica e de produtos da NVIDIA[54][1][16], relatórios de notícias da indústria[8][43], e análises de especialistas[28][27] detalhando o desempenho do Blackwell Ultra, a cadeia de suprimentos e o impacto na economia de IA.


[1] [3] [4] [9] [10] [11] [12] [13] [14] Por dentro da NVIDIA Blackwell Ultra: O Chip que Impulsiona a Era das Fábricas de IA | Blog Técnico da NVIDIA

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] Projetado para Desempenho e Eficiência em Raciocínio de IA | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia: Blackwell Ultra lidera crescimento de 62 por cento para receita recorde

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] A receita da Nvidia dispara para um recorde de $57 bilhões por trimestre — todas as GPUs estão esgotadas | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15] Super Micro Computer, Inc. - Supermicro inicia remessas em volume dos Sistemas Ultra NVIDIA Blackwell e Soluções de Data Center em Escala Rack Plug-and-Play

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] Arquitetura NVIDIA Hopper em Detalhes | Blog Técnico da NVIDIA

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] Introduzindo NVFP4 para Inferência de Baixa Precisão Eficiente e Precisa

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell vs. Blackwell Ultra B300: Deveria Comprar ou Esperar?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] A NVIDIA espera enviar 5,2 milhões de GPUs Blackwell em 2025, 1,8 milhões em 2026 e 5,7 milhões de GPUs Rubin em 2026 : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] GPUs Blackwell e a Nova Economia de Preços de IA em Nuvem | por elongated_musk | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] O sistema de refrigeração para um único rack Nvidia Blackwell Ultra NVL72 custa impressionantes $50.000 — com previsão de aumento para $56.000 com os racks NVL144 de próxima geração | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] Servidores NVIDIA Blackwell AI Expostos à "Escassez de Componentes", Oferta Limitada Esperada no Q4 2024

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] CEO da Nvidia, Huang, vê forte demanda por chips Blackwell | Reuters

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] Nvidia aumenta o pedido de wafer da TSMC em 50% para chips Blackwell - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] Sam Altman: "Estamos sem GPUs. O ChatGPT tem atingido um novo recorde de usuários todos os dias. Temos que fazer essas escolhas difíceis agora. Temos modelos melhores, e simplesmente não podemos oferecê-los porque não temos a capacidade. Temos outros tipos de novos produtos e serviços que adoraríamos oferecer." : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron