
May-akda: Boxu Li
Ang pinakabagong platform ng GPU ng NVIDIA, ang Blackwell Ultra, ay nagpabago sa mundo ng AI – napakalaki ng epekto kaya nagdudulot ito ng seryosong kakulangan sa suplay. Ang mga analyst ng Wall Street at mga mananaliksik ng AI sa social media ay nag-uusap tungkol sa rekord na performance, tumataas na presyo, at walang kapantay na demand para sa mga chips na ito. Sa detalyadong pagsusuring ito, susuriin natin kung bakit ang Blackwell Ultra ay balitang viral, pag-aaralan ang mga breakthrough sa performance-per-watt at memory bandwidth, tatalakayin ang cluster economics ng pag-deploy ng mga GPU na ito sa malakihang sukat, at isasaalang-alang kung bakit ang kasikatan nito ay nagtutulak ng muling pag-iisip sa mga magagaan na AI framework. Sa kabuuan, susuportahan natin ang mga katotohanan gamit ang maaasahang mga mapagkukunan at tututok sa mga detalyeng teknikal para sa isang matalinong audience.
Walang Kapantay na Pagganap: Ang Blackwell Ultra GPUs ng NVIDIA ay nagdadala ng malaking pag-angat sa kakayahan ng AI inference. Ang mga unang benchmark ay nagpapakita ng 7.5× na mas mataas na throughput ng mababang-precision kumpara sa naunang henerasyong Hopper H100 GPUs[1]. Sa katunayan, ang Blackwell Ultra ay makakagawa ng dense 4-bit precision math (NVFP4 format) sa 15 PFLOPS, kumpara sa mga 2 PFLOPS sa isang H100 (FP8) – isang 7.5× na pagtaas sa raw throughput[1]. Ang pag-angat na ito ay nagreresulta sa mas mabilis na AI model inference. Halimbawa, iniulat ng NVIDIA na ang isang Blackwell Ultra–based system ay nakakamit ng 50× na kabuuang pagtaas sa AI “factory” output (throughput ng mga tugon) kumpara sa isang Hopper-based na platform, salamat sa humigit-kumulang 10× na mas mataas na per-user na pag-responsibilidad at 5× na mas mataas na throughput kada megawatt ng kuryente[2]. Sa madaling salita, ang Blackwell Ultra ay hindi lamang nagdadagdag ng brute force – ginagawa nito ito nang mas mahusay, na nagbubunga ng 5× na mas maraming pagganap kada watt sa malakihang mga deployment[2].
Mga Bagong Kakayahan sa Inference: Ang Blackwell Ultra ay nagpakilala ng bagong 4-bit precision na format na tinatawag na NVFP4 na nagbibigay-daan sa sobrang bilis ng inference nang hindi masyadong sinasakripisyo ang katumpakan. Ang format na ito ay gumagamit ng matalinong dalawang antas ng scaling upang mapanatili ang katumpakan, na nakakamit ang halos kalidad na katumbas ng FP8 na may mas mababang gastos sa memorya at compute[3]. Ang resulta ay ang mga Tensor Core ng Blackwell Ultra ay kayang magsagawa ng mga low-precision na kalkulasyon sa antas na dati ay imposible – 1.5× ang FP4 throughput ng karaniwang Blackwell GPUs, at mas mabilis nang maraming beses kaysa sa mga naunang arkitektura[1]. Dinoble rin ng NVIDIA ang throughput ng special function unit para sa mga pangunahing operasyon ng transformer attention, kaya ang mga attention layer ay tumatakbo ng hanggang 2× na mas mabilis kaysa sa base Blackwell chips[4]. Ang mga pag-unlad na ito ay nakatuon sa mga pangunahing bottleneck ng malalaking language model at generative AI inference, na nagbibigay-daan sa mga bagay tulad ng real-time na generative video. Sa katunayan, isang demo ang nagpakita ng Blackwell Ultra na bumubuo ng 5-segundong AI video 30× na mas mabilis kaysa sa Hopper GPUs, na ginagawang real-time output ang isang 90-segundong trabaho[5].
Wall Street at Twitter Hype: Hindi nakaligtas ang mga pagtaas ng performance na ito. Ang stock ng NVIDIA ay tumaas sa mga inaasahan ng rekord na kita na pinapagana ng Blackwell. Sa Q3 2025, ang kita sa data-center ay umabot sa $51.2 bilyon (90% ng benta ng NVIDIA), na malaki ang pasasalamat sa pag-angat ng Blackwell Ultra – na sinasabi ng kumpanya na ngayon ay ang kanilang “nangungunang arkitektura sa lahat ng kategorya ng mga customer”[6][7]. Ipinahayag ni CEO Jensen Huang na “ang mga benta ng Blackwell ay hindi kapanipaniwala, at ubos na ang mga cloud GPU”, na ang demand ay mas mataas kaysa sa supply[8]. Ang mga AI lab at mga cloud provider ay nag-uunahan upang makuha ang mga chips na ito, at puno ang social media ng mga kwento ng matitinding backorders at mga markup sa pangalawang merkado. Ang kakulangan na dulot ng kaguluhan na ito ay nagtutulak pataas sa mga presyo at ginagawang trending topic ang Blackwell Ultra sa parehong tech at finance na mga bilog.
Larawan: Ang throughput ng mababang-precision AI ay tumaas nang malaki sa Blackwell Ultra. Ang bawat Blackwell Ultra GPU ay nagdadala ng 15 PFLOPS ng dense 4-bit AI compute, isang 1.5× na pagtaas sa dati nang makapangyarihang Blackwell chip, at halos 7.5× ang FP8 throughput ng naunang Hopper generation ng NVIDIA (H100/H200)[1]. Ang malaking paglukso sa compute power na ito ay isang pangunahing tagapagdala ng kasalukuyang pag-usbong ng AI infrastructure.
Sa puso ng Blackwell Ultra ay isang makabagong disenyo na partikular na ginawa para sa AI inference sa malakihang sukat. Ang bawat GPU ay talagang binubuo ng dalawang GPU dies sa isang package, na konektado ng isang 10 TB/s high-bandwidth interconnect[9]. Ang multi-die na pamamaraang ito (katulad ng chiplet architectures) ay nagbibigay-daan sa NVIDIA na mag-impake ng napakalaking dami ng processing capability sa isang “GPU.” Ang buong Blackwell Ultra chip ay mayroong 160 Streaming Multiprocessors (SMs) na hinati sa 8 GPC clusters, para sa kabuuang 640 ikalimang henerasyong Tensor Cores kada GPU[10][11]. Ang mga Tensor Cores na ito ang nagtatrabaho para sa AI, at sa Blackwell Ultra, sila ay na-optimize para sa FP8, FP6, at ang bagong NVFP4 precisions. Ang bawat SM ay mayroon ding 256 KB ng “Tensor Memory” (TMEM) on-chip, isang maliit na high-speed scratchpad na nagpapahintulot sa GPU na muling gamitin ang data para sa matrix calculations nang mas mahusay[12][13]. Ang memoryang ito sa antas ng SM, kasama ang mga bagong dual-block processing modes, ay tumutulong sa pagbawas ng off-chip memory traffic at panatilihing pinapakain ang Tensor Cores, pinapabuti ang mabisang throughput at power efficiency[13].
HBM3e Memory – Malawak at Mabilis: Ang pagpapakain ng data sa mga compute units na ito ay isang napakalaking pool ng memorya. Ang Blackwell Ultra GPUs ay may kasamang 288 GB ng HBM3e high-bandwidth memory bawat isa[14]. Iyan ay 1.5× na mas maraming memorya kaysa sa karaniwang Blackwell data center GPU (na may ~192 GB)[15], at higit sa 3.5× ang memorya ng isang Hopper H100 (80 GB). Mahalaga ito dahil ang mga malalaking modelo ng wika ngayon at iba pang AI workloads ay madalas na nangangailangan ng napakalawak na haba ng konteksto at laki ng modelo. Ang mas malaking memorya ay nagbibigay-daan sa mas malalaking batch sizes at mas mahahabang mga sequence na maproseso nang sabay-sabay, na nagpapabuti ng throughput para sa mga komplikadong modelo[16]. Ang bandwidth ng memorya ay kapansin-pansin din – nasa 8 TB/s bawat GPU (salamat sa 12 stacks ng HBM3e)[14]. Sa paghahambing, ang isang H100 SXM module ay nagbigay ng mga 3 TB/s[17], at kahit na ang pansamantalang pag-upgrade ng H200 na may HBM3e ay umabot lamang sa ~4.8 TB/s[18][19]. Sa Blackwell Ultra, ang memory subsystem ay hindi na ang bottleneck para sa maraming mga workload: ang mga modelo ay maaaring mas malaki, o ma-access nang mas mahusay, nang hindi palaging binabalasa ang external na memorya.
Grace Hopper tungo kay Grace Blackwell: Ang disenyo ng NVIDIA ay mahigpit ding nagsasama ng mga CPU at networking sa mga GPU para sa mas mahusay na pagganap sa cluster-scale. Ang bawat Blackwell Ultra “node” ay ipinares ang mga GPU sa mga Grace CPU ng NVIDIA sa pamamagitan ng ultra-mabilis na mga NVLink-C2C na koneksyon (900 GB/s CPU–GPU bandwidth)[14]. Ang Grace CPU ay may 2,592 Arm cores at mataas na memory bandwidth nito (LPDDR5X) upang mapakain ang mga GPU[20][21]. Ang kombinasyong ito, na minsang tinatawag na Grace Blackwell, ay nagsisiguro na ang GPU compute ay hindi nabibigyan ng kakulangan sa CPU o I/O. Sa katunayan, ang NVIDIA GB300 system (detalye sa ibaba) ay may 36 Grace CPUs na nagtutulungan sa 72 GPU sa bawat rack, lahat ay konektado sa pamamagitan ng 5th-gen NVLink sa nakakagulat na 130 TB/s ng all-to-all bandwidth[22][20]. Ang fabric na ito, kasama ang Quantum X InfiniBand o Spectrum-X Ethernet ng NVIDIA sa pagitan ng mga node, ay nangangahulugan na kahit ang multi-rack na “AI factories” ay maaaring mag-operate na may mabilis na inter-GPU communication. Ang huling layunin ay i-scale up ang AI inference tulad ng isang cloud service – na tinatawag ng NVIDIA na konsepto ng AI Factory – kung saan maraming modelo at kahilingan ang tumatakbo ng sabay-sabay sa isang meshed cluster ng mga accelerators.
Isa sa mga pinaka-kapansin-pansing aspeto ng Blackwell Ultra ay kung gaano nito pinapabuti ang kahusayan sa enerhiya para sa mga AI workload. Oo, bawat GPU ay kumukuha ng maraming kapangyarihan (pag-uusapan natin ang mataas na TDP sa sandaling ito), ngunit ang performance-per-watt ay lubos na tumaas kumpara sa mga naunang henerasyon. Ayon sa sariling mga sukatan ng NVIDIA, sa malaking sukat, ang mga sistema ng Blackwell Ultra ay naghahatid ng 5× ang throughput bawat megawatt ng kapangyarihan kumpara sa mga sistemang nakabatay sa Hopper[2]. Ito ay dahil sa ilang mga salik na nagtutulungan:
Mahalagang tandaan na ang mga pagpapabuti sa performance-per-watt ay hindi lamang pang-akademiko; direktang naaapektuhan nito ang gastos sa operasyon para sa mga data center. Kung makakakuha ka ng 5× na throughput para sa parehong energy input, malaking bawas iyon sa gastos kada query o kada inference. Dahil marami sa mga AI model ay inilalagay sa web scale (isipin ang milyon-milyong query kada araw), ang mga efficiency gains na ito ay mahalaga para mapanatili ang mga gastusin sa kuryente at pagpapalamig. Nagbibigay pa nga ang NVIDIA ng isang energy efficiency calculator para sa kanilang mga GPU[25], na binibigyang-diin kung gaano kahalaga ang metriko na ito para sa mga customer.
Mula sa ibang pananaw, AMD at iba pang mga kakumpitensya ay nagtatampok din ng perf-per-watt para sa AI, ngunit pagdating ng huli ng 2025, mukhang ang NVIDIA ay nakalundag nang mas mataas sa Blackwell Ultra. Halimbawa, ang pangunahing AMD MI300X (isang kakumpitensyang GPU para sa AI inference) ay nasa teknolohiyang 5nm-class pa rin at nakatuon sa mga 8-bit at 16-bit na operasyon; ang agresibong hakbang ng NVIDIA sa 4-bit inference gamit ang espesyal na hardware ay nagbibigay dito ng bagong bentahe sa kahusayan. Ito rin ang dahilan kung bakit ang mga cloud provider ay nasasabik na mamuhunan sa Blackwell Ultra sa kabila ng mataas na paunang gastos – ang kabuuang halaga ng pagmamay-ari ay bumubuti kapag mas marami kang nagagawa gamit ang mas kaunting kapangyarihan sa paglipas ng panahon.
Ang malalaking AI na modelo ay kilala sa kanilang matinding pangangailangan para sa memory at bandwidth, at diretsahang tinutugunan ito ng Blackwell Ultra sa pamamagitan ng arkitektura ng memoryang HBM3e. Tulad ng nabanggit, bawat GPU ay may dalang 288 GB ng HBM3e memorya sa board[14]. Ito ay isang napakalaking dami ng mabilis na memorya, kahit na ikumpara sa mga kamakailang GPU tulad ng H100 80GB o ang pansamantalang H200 141GB na nagpakilala ng HBM3e[18][19].
Ang agarang benepisyo ng 288 GB kada GPU ay ang kakayahang maglingkod o mag-fine-tune ng napakalalaking modelo sa memorya (tulad ng multi-hundred-billion na parameter models o high-context LLMs) nang hindi hinahati ang modelo sa mga GPUs. Posible rin ang mas malaking batch processing, na nagpapataas ng paggamit. Partikular na binabanggit ng NVIDIA na ang 1.5× mas malaking memorya sa Blackwell Ultra (kumpara sa nauna nito) ay “nagpapalakas ng throughput ng AI reasoning para sa pinakamalalaking haba ng konteksto.” Para sa mga AI applications tulad ng mahahabang dokumentong tanong-sagot o mahahabang pag-uusap sa AI assistant, kayang hawakan ng GPU ang mas maraming tokens nang sabay-sabay, na nagpapahusay sa bilis at kalidad ng mga resulta.
Ang bandwidth ay ang kabilang panig ng barya. Sa pagkakaroon ng 12 HBM stacks na tumatakbo nang sabay-sabay, ang memory subsystem ng Blackwell Ultra ay napakalawak. Sa pinakamataas na antas, kaya nitong magtulak ng humigit-kumulang ~8 TB/s ng datos[14]. Ito ay isang astronomikal na bilang – sa paghahambing, ang isang high-end na PC GPU na may GDDR6 ay maaaring magkaroon ng 0.5 TB/s, at kahit na ang mga data center GPUs ng nakaraang henerasyon ay nasa 2–3 TB/s na saklaw[17]. Ano ang ibig sabihin nito sa praktika? Ibig sabihin nito ay ang mga GPU cores ay patuloy na nasusuplayan ng datos kahit sa mga memory-heavy na gawain. Ang mga neural network ay madalas na may kasamang malalaking matrix multiplies (na hinahawakan ng Tensor Cores) na pasalit-salit sa mga memory-bound na operasyon (tulad ng attention weightings, embedding lookups, at iba pa). Sa mas maraming bandwidth, ang mga memory-bound na hakbang ay bumibilis, kaya't ang kabuuang gawain ay nakakaranas ng mas kaunting pagkakaantala. Ang disenyo ng Blackwell Ultra ay mahalagang binabalanse ang napakalaking compute nito sa kapantay na kahanga-hangang memory throughput, na iniwasan ang senaryo kung saan ang mga compute units ay walang ginagawa habang naghihintay ng datos.
Upang mailarawan ito nang mas malinaw, isaalang-alang ang isang transformer model na bumubuo ng mahabang pagkakasunod-sunod: ang mekanismo ng atensyon ay kailangang magbasa ng malalaking key/value matrices mula sa memorya. Sa Hopper H100, ito ay maaaring naging limitasyon para sa napakahabang mga pagkakasunod-sunod, ngunit sa Blackwell Ultra na may HBM3e, kayang ipasok ng GPU ang mga matriks na iyon sa dobleng bilis o higit pa. Kasama ng mga 2× mas mabilis na yunit ng pagkalkula ng atensyon, nakakamit nito ang mas mataas na tuloy-tuloy na pagganap sa mga gawain tulad ng GPT-style na pagbuo ng teksto na may mahabang konteksto. Ang konsepto ng NVIDIA na “AI Factory” ay nangangahulugan din na ang memorya ay pinagsama-sama sa antas ng cluster – sa isang 72-GPU rack, iyon ay mahigit 20 TB ng GPU memory na pinagsama-sama, na may kabuuang bandwidth ng memorya sa saklaw na daan-daang TB/s na magagamit sa NVLink-connected na domain[22][20]. Ito ay karaniwang nagpapahintulot sa isang AI cluster na umakto na parang isang higanteng GPU na may dose-dosenang terabytes ng mabilis na memorya, isang perpektong senaryo para sa paglilingkod ng maraming pagkakataon ng malalaking modelo nang sabay-sabay.
Sa saklaw ng pagganap at kahusayan, kailangan nating talakayin ang praktikal na aspeto ng pag-deploy ng Blackwell Ultra: ang gastos at imprastraktura na kinakailangan. Ang mga GPU na ito ay karaniwang ibinebenta bilang bahagi ng mas malalaking sistema tulad ng NVIDIA’s GB300 NVL72 rack o HGX B300 server blades. Ang isang GB300 NVL72 unit ay naglalaman ng 72 Blackwell Ultra GPUs at 36 Grace CPUs sa isang rack, kumpleto sa high-speed switches at paglamig[26][20]. Ito ay epektibong isang AI supercomputer sa isang kahon, at hindi ito mura. Ayon sa mga ulat ng industriya, ang NVIDIA ay nagpepresyo ng isang buong GB300 NVL72 rack sa humigit-kumulang $3 milyon[27]. Iyon ay katumbas ng isang average na $40,000 bawat GPU, na naaayon sa tinatayang listahan ng presyo na $30k–$40k na ipinahiwatig ng NVIDIA para sa mga indibidwal na Blackwell units[28]. (Kapansin-pansin, iminungkahi ni Jensen Huang na hindi sila magbebenta ng mga standalone chips o cards lamang sa mga end customers – mas gusto nilang ibenta ang buong integrated systems[28]. Ang estratehiyang ito ng pagbubundol ay nagpapataas ng paunang gastos ngunit tinitiyak na ang mga mamimili ay makakakuha ng kumpleto at optimized na solusyon.)
Para sa sinumang nagbabalak ng AI cluster, napakalaki ng capital expenditure (CapEx). Ang isang rack lang ay nagkakahalaga ng $3M, at maraming deployments ang nangangailangan ng maraming racks. Ang CoreWeave, OpenAI, Meta, Microsoft – lahat ng malalaking manlalaro – ay sinasabing bumibili hangga't kaya nila. Ang mga may mas kaunting kakayahan sa pagbili (mga startup, academic labs) ay nahaharap sa mataas na presyo sa secondary market, kung saan ang mga H100s ay dating binebenta sa mas mataas na presyo kaysa sa MSRP dahil sa kakulangan, at nakikita natin ang parehong trend sa Blackwell. Noong huli ng 2024, ang mga H100 80GB cards ay naibebenta ng $30k–$40k bawat isa sa ilang pagkakataon kapag ang supply ay hindi makasabay sa demand. Ang Blackwell Ultra ay sumusunod sa ganitong direksyon, na epektibong doblehin ang “AI gold rush” pricing. Sa madaling salita, tanging ang mga organisasyong may malalalim na bulsa o cloud credits ang makakaya sa ganitong antas ng hardware sa ngayon.
Mga Gastos sa Kuryente at Pagpapalamig: Bukod sa presyo ng pagbili, ang mga gastos sa operasyon (OpEx) ng pagpapatakbo ng mga cluster na ito ay malaki. Ang bawat Blackwell Ultra GPU ay maaaring gumamit ng hanggang sa ~1400 W sa rurok kapag ganap na ginagamit – doble o higit pa sa karaniwang 700W TDP ng isang H100 SXM. Sa isang rack na may 72 GPU, nangangahulugan ito na ang mga GPU lamang ay maaaring kumonsumo ng humigit-kumulang 100 kW ng kuryente (hindi pa kasama ang overhead para sa mga CPU, networking, atbp.). Sa katunayan, ang isang ganap na napunong NVL72 cabinet na may 18 GPU trays ay kumukuha ng humigit-kumulang >100 kW at nangangailangan ng advanced na pagpapalamig. Pinili ng NVIDIA ang liquid-cooling sa mga sistemang ito, ngunit kahit na iyon ay may gastos: isang kamakailang pagsusuri ng Morgan Stanley ay tinukoy ang bill of materials para sa liquid cooling system sa ~$50,000 kada rack. Kasama dito ang mga custom na cold plate, pump, heat exchanger, atbp. At habang tumataas ang kapangyarihan ng mga susunod na henerasyong sistema (balita: ang susunod na henerasyong “Vera Rubin” ay maaaring umabot ng 1.8kW kada GPU), inaasahan na tataas ang gastos sa pagpapalamig kada rack sa ~$56k.
Sa madaling salita, bukod sa $3M para sa silicon, maaari kang gumastos ng sampu-sampung libo para sa plumbing at heat management. Dagdag pa ang bill sa kuryente: 100 kW na tumatakbo 24/7 ay humigit-kumulang 2.4 MWh kada araw. Sa mga rate ng komersyal na data center, maaari itong umabot sa $200–$400 kada araw sa gastos sa kuryente bawat rack (higit sa $100k kada taon), hindi kasama ang cooling at infrastructure overhead. Maliwanag, ang pagpapatakbo ng AI supercluster ay hindi para sa mahina ang loob o kulang sa budget.
Gayunpaman, dito nagiging makatarungan ang cluster economics: throughput at TCO. Kung ang isang Blackwell Ultra rack ay nagde-deliver ng, halimbawa, 50× ang output ng isang nakaraang-gen na rack (tulad ng iminungkahi ng NVIDIA para sa ilang mga workload)[2], maaaring kailanganin ng isang data center ang mas kaunting kabuuang racks (at sa gayon ay mas kaunting kabuuang kuryente/pagpapalamig) upang makamit ang isang target na workload. Ang pinahusay na kahusayan ay nangangahulugan na bawat query, ang gastos sa enerhiya ay maaaring mas mababa sa kabila ng mas mataas na absolutong power draw, dahil ang bawat GPU ay nagse-serve ng mas maraming query nang sabay-sabay. Para sa mga provider ng ulap na inuupahan ang oras ng GPU, nangangahulugan ito na maaari silang mag-alok ng mas maraming performance sa mga customer para sa parehong halaga, o kumita ng mas magandang margin. Isang pagsusuri ng Medium ang nagmungkahi na kung ang mga Blackwell GPU ay nagbibigay ng mas maraming performance para sa halos parehong presyo ng upa gaya ng H100s, ang gastos sa ulap bawat AI compute (bawat TFLOP-hour) ay bababa, sa sandaling umabot ang supply[33]. Maaari nitong gawing mas abot-kaya ang access sa malalaking modelo kung ang mga presyo ay mag-normalize. Siyempre, sa maikling panahon, ang mga limitasyon sa supply ay nangangahulugang ang mga presyo ng renta ay nananatiling mataas – maraming mga ulap na GPU instance ang mahal o nasa waiting list dahil lahat ay nais ang bagong hardware na ito.
Sa buod, ang ekonomiya ng Blackwell Ultra sa antas ng cluster ay may kasamang malalaking paunang pamumuhunan ngunit nangangako ng makabuluhang pangmatagalang kahusayan at pag-unlad ng kakayahan. Ang mga kumpanya na makakakuha ng mga sistemang ito nang maaga ay nakakakuha ng kompetitibong bentahe sa pag-unlad at pag-deploy ng AI model – kung kaya't ang pag-aagawan sa pagbili ng GPUs ay itinutulad sa isang “arms race.” Ito rin ang dahilan kung bakit sumabog ang kita ng NVIDIA sa data center ng 66% YoY sa kwartong iyon[34]: halos lahat ng pangunahing kompanya ng teknolohiya at AI startup ay naglalagak ng kapital sa GPU infrastructure, kahit pa nangangahulugan ito ng pagtanggap ng mataas na presyo at naantalang mga paghahatid.
Ang lahat ng ito ay humahantong sa pagtaas ng demand na pumapailalim sa viral na usapan. Sa madaling salita, ang demand ay lubos na lumalampas sa supply para sa mga AI accelerators ng NVIDIA sa kasalukuyan. Binanggit ni Colette Kress, CFO ng NVIDIA, sa isang kamakailang earnings call na “sold out ang clouds” – ang mga pangunahing cloud provider ay lubos nang naka-book ang kanilang kapasidad sa GPU – at kahit ang mga dating henerasyon ng GPUs tulad ng H100 at Ampere A100 ay “ganap na ginagamit” sa buong naka-install na base. Kinilala ng NVIDIA na limitado ang kanilang supply at sila ay nagsisikap na pataasin ang produksyon sa lalong madaling panahon (na may inaasahang malaking pagtaas pagsapit ng ikalawang kalahati ng 2024). Sinabi ni Jensen Huang, sa kanyang pagbisita sa TSMC sa Taiwan, na hiningi niya sa kanilang foundry ang mas maraming wafers hangga't maaari upang matugunan ang “napakalakas na demand” para sa mga Blackwell chips. Ang CEO ng TSMC ay tinawag pa si Jensen na “five-trillion-dollar man” habang umabot ang market cap ng NVIDIA sa $5 trilyon dahil sa optimismo sa AI. Sa madaling sabi, ang NVIDIA ay nagbebenta ng bawat chip na kanilang magawa, at pinupursige ang mga kasosyo na pabilisin ang produksyon – ngunit hindi pa rin ito sapat sa ngayon.
Maraming salik ang nagdudulot ng bottleneck:
Ang pagbanggit ng “H300” sa talakayan ay malamang na tumutukoy sa susunod na malaking pag-upgrade ng GPU na paparating. Ang roadmap ng NVIDIA pagkatapos ng Blackwell ay sinasabing may code name na Vera Rubin (nakuha mula sa astronomo) – ilang mga tagahanga ang hindi opisyal na tinawag ang hipotetikal na serye na ito na “H300” alinsunod sa estilo ng pagpapangalan ng Hopper. Habang ang Blackwell Ultra ay nandito na, ang mga kumpanya ay nangangarap na kung ano ang susunod. Halimbawa, isipin sa paligid ng 2027, maaaring mag-release ang NVIDIA ng isa pang hakbang, e.g. isang “H300” GPU na ginawa sa 3nm o 2nm na proseso, siguro 10–15% mas epektibo kaysa sa Blackwell Ultra (ayon sa isang komentaryong Reddit)[49][50]. Gagaan ba agad nito ang pangangailangan? Hindi malamang. Karamihan sa malalaking manlalaro ay nagpoproseso pa rin ng kanilang mga Blackwell deployment sa panahong iyon; hindi nila itatapon ang bilyun-bilyong dolyar ng hardware para sa kaunting pagtaas[49][50]. Kaya kahit na lumabas ang isang “H300” o Rubin GPU, ang demand ay patuloy na lalampas sa suplay sa nakikita na hinaharap dahil ang pag-aampon ng AI ay patuloy na bumibilis sa mga industriya. Tulad ng sinabi ng isang analyst, ang NVIDIA ay pumasok sa isang “magandang siklo ng AI” – mas maraming paggamit ang nagtutulak ng mas mataas na demand para sa compute, na nagbibigay-daan sa mas maraming aplikasyon, at iba pa[8].
Sa praktikal na mga termino, ang gabay ni Jensen Huang ay na ang supply ay mananatiling masikip sa susunod na taon. Ang mga tagagawa ng memorya tulad ng SK Hynix ay nabenta na ang kanilang HBM production sa susunod na taon dahil sa AI boom[51][52]. Ang sariling forecast ng NVIDIA para sa Q4 ay $65 bilyong kita – isa pang pagtaas – na nangangahulugang kaya nilang i-ship ang bawat Blackwell na magagawa nila[53]. Kaya, ang "supply crunch" ay hindi agad magtatapos; kung meron man, mananatiling mataas ang presyo at ang mga GPU ay mananatiling allocation-bound hanggang 2025. Maaaring hindi tayo makakita ng ginhawa hanggang sa posibleng magdesisyon ang mga second-tier cloud providers o mas maliliit na kumpanya na masyadong mataas ang gastos at mag-pause ng mga order – pero sa ngayon, lahat ay nasa land-grab mode para sa AI compute. Ang estratehiya ng NVIDIA na magbenta ng buong sistema ay nangangahulugan din na kung gusto mo ng mga GPU na ito, madalas kailangan mong bumili ng buong mahal na server o kahit buong pods, na lalo pang nagko-concentrate kung sino ang makakakuha ng mga ito.
Sa harap ng napakalaking gastos at limitasyon sa suplay para sa mga pinakabagong hardware ng AI, sulit na isaalang-alang kung paano maaaring umangkop ang software at arkitektura. Isang nakakaintrigang pananaw ay ang argumento para sa magagaan na agent frameworks – sa esensya, pagdidisenyo ng mga AI system na umaasa sa maramihang espesyalista, mas maliliit na modelo o “agents” na nagtutulungan sa halip na isang napakalaking monolitikong modelo na nangangailangan ng super-GPU. Dito pumapasok ang mga pamamaraan tulad ng Macaron, na nagtataguyod ng mas mahusay at memorya-matalinong AI agents.
Bakit ito maaaring bagay na bagay ngayon? Dahil kung ang compute ay ang bagong langis, ang pag-maximize ng magagawa mo sa isang ibinigay na dami ng compute ay napakahalaga. Ang Blackwell Ultra ay nagbibigay ng malaking tulong, ngunit hindi lahat ay makakakuha ng mga GPU na iyon. Kahit ang mga makakakuha ay nais gamitin ito sa pinaka-mabisa. Ang mga Lightweight AI agents ay tungkol sa pagiging matalino sa paggamit ng compute: - Maaari silang i-disenyo upang pamahalaan ang mga gawain sa isang modular na paraan, gumagamit lamang ng kinakailangang modelo para sa isang sub-gawain, sa halip na patakbuhin ang isang napakalaking modelo mula simula hanggang dulo para sa bawat query. - Madalas nilang ginagamit ang mga teknik tulad ng retrieval (paghila ng kaugnay na konteksto lamang kapag kinakailangan) o caching ng mga resulta, na nagpapabawas sa hindi kailangan na computation. - Ang mas maliit na mga modelo ay kadalasang maaaring patakbuhin sa mas mura o mas madaling makuhang hardware (kahit na sa mas lumang GPU o CPU), na isang malaking bentahe kapag ang mga top-tier na GPU ay kakaunti o napaka-mahal.
Halimbawa, sa halip na isang 175B parameter model na gumagawa ng lahat, maaaring mayroon kang koleksyon ng 10 mas maliliit na modelo (sabihin nating 5B hanggang 20B bawat isa) na pinino para sa mga partikular na domain (isa para sa coding, isa para sa matematika, isa para sa usapan, atbp.), na pinamamahalaan ng isang agent framework. Ang mga ito ay maaaring gumamit ng mas kaunting memorya at compute para sa isang ibinigay na query, dahil ang agent ay matalinong nagruruta ng query sa tamang eksperto. Ang ganitong uri ng pamamaraan ay maaaring maging mas matipid sa gastusin na patakbuhin – lalo na kung limitado ang iyong hardware resources. Parang microservices sa cloud computing: gamitin ang tamang maliit na serbisyo para sa trabaho, sa halip na isang higanteng aplikasyon na humahawak ng lahat ng gawain nang hindi epektibo.
Ang mga proyekto gaya ng Macaron AI ay nagsusuri ng mas malalim na memorya at mga agentic na arkitektura kung saan ang isang AI system ay bumubuo ng mga solusyon sa pamamagitan ng pagtawag sa iba't ibang kasanayan o base ng kaalaman (tulad ng kung paano maaaring kumonsulta ang mga tao sa isang espesyalista para sa isang tiyak na tanong). Sa isang mundo kung saan hindi lahat ay may Blackwell Ultra cluster, ang mga ganitong disenyo ay maaaring magbigay-daan sa mas maraming tao na makagawa ng mga advanced na AI tasks sa katamtamang hardware. Ito ay isang praktikal na tugon sa kasalukuyang bottleneck ng hardware.
Bukod pa rito, kahit sa mataas na antas, ang kahusayan ay mabuti para sa negosyo. Ang mga hyperscalers na bumibili ng Blackwell Ultra nang maramihan ay nag-iinvest din sa mga optimisasyon ng software – mula sa mas mahusay na compilers hanggang sa distributed frameworks – upang makuha ang maximum na throughput mula sa bawat oras ng GPU (dahil sa halagang $40k bawat isa, mahalaga ang bawat paggamit). Isang magaan na agent framework na maaaring, halimbawa, bawasan ang haba ng konteksto na ipinapasok sa isang malaking modelo sa pamamagitan ng pre-processing ng mga query (kaya nakakatipid sa compute), o na maaaring maglipat ng ilang lohika sa mas murang makina, ay direktang makakapagtipid ng pera. Nakikita namin ang mga pahiwatig nito sa mga umuusbong na sistema kung saan ang isang malaking modelo ay pinapalakas ng mas maliliit na mga tool o isang database; ang malaking modelo ay ginagamit lamang kapag talagang kinakailangan. Ang pilosopiyang iyon ay mahusay na umaayon sa argumento ng Macaron na hindi dapat gamitin ang AI bilang solusyon sa lahat ng problema, kundi isang hanay ng mga martilyo at scalpel.
Sa kabuuan, ang Macaron fit dito ay tungkol sa pagkilala na habang ang pinakabago at pinakamahusay ng NVIDIA ay nagbibigay-daan sa mga kamangha-manghang gawain, kailangan din ng industriya na gawing accessible at sustainable ang AI. Ang pagtutok lamang sa mas malalaking modelo sa mas magastos na hardware ay may bumababang pagbalik para sa maraming aplikasyon. May pagkakataon (at marahil pangangailangan) para sa inobasyon sa kung paano natin idinisenyo ang mga solusyon ng AI upang maging mas magaan, mas modular, at mas hindi masinsin sa mga mapagkukunan. Hindi ito nangangahulugan na titigil tayo sa paghangad ng makapangyarihang GPU o malalaking modelo; sa halip, gagamitin natin ang mga ito nang mas maingat. Ang kasalukuyang kakulangan sa supply at pagsabog ng gastos ay pumipilit sa usapang iyon. Malamang na makakita tayo ng higit pang hybrid na mga diskarte: halimbawa, ang isang AI na serbisyo ay maaaring gumamit ng Blackwell Ultra GPUs para sa mabigat na gawain ng model inference, ngunit pagkatapos lamang na ang isang magaan na front-end system ay magdistila ng kahilingan, kumuha ng kaugnay na data, at matukoy na ang malaking modelo ay talagang kailangan na patakbuhin. Sa ganoong paraan, ang mahal na GPU cycles ay gagamitin lamang kapag kinakailangan, na nagpapabuti sa kabuuang throughput kada dolyar.
Ang pagdating ng NVIDIA’s Blackwell Ultra GPUs ay nagmamarka ng isang panibagong yugto sa imprastraktura ng AI – nagbibigay ng nakamamanghang pagtaas sa pagganap sa AI reasoning at inference, ngunit binibigyang-diin din ang mga bagong hamon ng tagumpay: kakulangan sa suplay, pagtaas ng gastos, at ang palaging lumalaking pangangailangan para sa kapangyarihan ng pag-compute. Nakita natin kung paano nagbibigay ng malaking pag-angat ang Blackwell Ultra sa pagganap (lalo na sa mababang presisyon) at kahusayan (pagganap bawat watt), na nagpapahintulot ng mga paglukso tulad ng 50× mas mataas na output ng AI at real-time generative media na hindi maabot isang taon lamang ang nakalipas[54][5]. Ang malakas nitong HBM3e memory at advanced na arkitektura ay nag-aalis ng mga bottleneck, ngunit kasabay nito, ang laki at kapangyarihan ng mga sistemang ito ay nagdadala ng mga logistik at ekonomikong balakid – mula sa $3M na presyo hanggang sa 100kW racks na nangangailangan ng espesyal na paglamig.
Ang “kakulangan sa suplay ng AI GPU” ay isang totoong isyu: halos lahat ng produksyon ng NVIDIA ay nakareserba na, at ang “sold out” ay naging karaniwan[8]. Ang kakulangan na ito, na may mga GPU na umaabot sa presyo ng $30k+, ay nagiging dahilan upang ang mga mamumuhunan at praktisyoner ay mag-focus ng husto kung paano pinakamahusay na magamit ang hardware na mayroon tayo. Ipinapakita nito ang isang mahalagang punto: para sa mas malawak na industriya, hindi sustainable na umasa lamang sa brute-force scale. Ito ang dahilan kung bakit ang kahusayan – maging sa pamamagitan ng mas mahusay na hardware tulad ng Blackwell Ultra o mas matalino na software tulad ng lightweight agent frameworks – ang magiging mahalaga sa hinaharap.
Sa malapit na hinaharap, ang Blackwell Ultra ng NVIDIA ay patuloy na mangunguna sa mga headline at plano ng deployment, at maaasahan natin na ang feeding frenzy para sa mga GPU na ito ay magpapatuloy hanggang makasabay ang supply (na maaaring hindi mangyari hanggang sa dumating ang susunod na arkitektura at lumawak ang mga pabrika). Para sa mga organisasyong nagtatayo ng kakayahan sa AI, ang takeaway ay dalawa: kung makakakuha ka ng pinakabagong hardware, magkakaroon ka ng bentahe, ngunit kailangan mo ring matalinong i-arkitekto ang iyong AI stack upang masulit ang bawat FLOP. Maaaring mangahulugan ito ng paghahalo ng mas maliliit na modelo, pag-optimize ng code para sa mga bagong precisions, o pamumuhunan sa pamamahala ng data – anumang bagay upang maiwasan ang nasayang na computation, na sa kontekstong ito ay nasayang na pera.
Habang tinitingnan natin ang hinaharap, ang landas ng AI hardware ay nagmumungkahi ng mas mataas na pagganap (ang hypothetical na “H300” at ang paparating na henerasyong Rubin) at malamang na patuloy na mataas na demand. Kaya't ang hamon ng industriya ay ang pagbalansehin ang kamangha-manghang kakayahang ito sa accessibility. Ang kahusayan, scalability, at inobasyon sa antas ng software ay magiging susi upang matiyak na ang rebolusyong AI na pinalakas ng mga GPU tulad ng Blackwell Ultra ay isang rebolusyon na maaaring salihan ng mas malawak na hanay ng mga manlalaro—hindi lamang yaong may pinakamalalim na bulsa o pinakamalalaking data center. Sa madaling salita, ang pinakabagong kababalaghan ng NVIDIA ay nagbukas ng mga bagong hangganan, ngunit pinapaalala rin nito sa atin na sa AI (gaya sa computing sa pangkalahatan), ang matalinong paggamit ng mga mapagkukunan ay kasinghalaga ng hilaw na lakas ng makina.
Mga Pinagmulan: Dokumentasyon ng produkto at teknikal ng NVIDIA[54][1][16], mga ulat balita sa industriya[8][43], at mga pagsusuri mula sa mga eksperto[28][27] na nagdedetalye sa pagganap, kadena ng suplay, at epekto ng Blackwell Ultra sa ekonomiya ng AI.
[1] [3] [4] [9] [10] [11] [12] [13] [14] Sa Loob ng NVIDIA Blackwell Ultra: Ang Chip na Nagpapatakbo ng Panahon ng AI Factory | Blog Teknikal ng NVIDIA
[2] [5] [16] [20] [21] [22] [25] [26] [54] Dinisenyo para sa AI Reasoning Performance & Efficiency | NVIDIA GB300 NVL72
https://www.nvidia.com/en-us/data-center/gb300-nvl72/
[6] [7] [34] [35] Nvidia: Nangunguna ang Blackwell Ultra sa Pagpapaandar ng 62 Porsyentong Paglago Tungo sa Rekord na Kita
[8] [53] Umangat nang husto ang kita ng Nvidia sa rekord na $57 bilyon kada quarter — ubos na ang lahat ng GPUs | Tom's Hardware
[15] Super Micro Computer, Inc. - Nagsisimula na ang Supermicro sa Malakihang Pagpapadala ng NVIDIA Blackwell Ultra Systems at Rack Plug-and-Play na mga Solusyon para sa Data Center-Scale
[17] NVIDIA Hopper Architecture In-Depth | NVIDIA Technical Blog
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB
[23] Pagpapakilala ng NVFP4 para sa Mahusay at Tumpak na Mababang-Presisyon na Inference
[24] NVIDIA Blackwell vs. Blackwell Ultra B300: Dapat Ka Bang Bumili o Maghintay?
https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/
[27] [46] [47] Inaasahang magpapadala ang NVIDIA ng 5.2M Blackwell GPUs sa 2025, 1.8M sa 2026, at 5.7M Rubin GPUs sa 2026 : r/AMD_Stock
https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/
[28] [29] [33] Blackwell GPUs at ang Bagong Ekonomiya ng Presyo ng Cloud AI | ni elongated_musk | Medium
[30] [31] [32] Ang sistema ng pagpapalamig para sa isang Nvidia Blackwell Ultra NVL72 rack ay nagkakahalaga ng nakakagulat na $50,000 — tataas pa ito sa $56,000 sa susunod na henerasyon ng NVL144 racks | Tom's Hardware
[36] [40] [41] [42] [43] [44] Ang mga NVIDIA Blackwell AI Servers ay Nahaharap sa "Kakulangan ng Komponent", Limitadong Suplay Inaasahan sa Q4 2024
https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/
[37] [38] [39] [48] [51] [52] Nakikita ni CEO ng Nvidia na si Huang ang malakas na demand para sa Blackwell chips | Reuters
https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/
[45] Pinalalakas ng Nvidia ang order ng wafer mula sa TSMC ng 50% para sa Blackwell chips - LinkedIn
[49] [50] Sam Altman: "Ubus na ang aming GPUs. Bawat araw ay pumapalo ang ChatGPT ng bagong mataas na bilang ng mga gumagamit. Kailangan naming gumawa ng mga masaklap na desisyon ngayon. Mayroon kaming mas magagandang modelo, at hindi namin maibigay dahil kulang kami sa kapasidad. Mayroon kaming iba pang mga bagong produkto at serbisyo na gusto naming ihandog." : r/accelerate
https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/