
작성자: Boxu Li
NVIDIA의 최신 Blackwell Ultra GPU 플랫폼이 AI 세계를 휩쓸고 있습니다. 이로 인해 심각한 공급 부족 사태가 발생하고 있습니다. 월스트리트 분석가들과 소셜 미디어의 AI 연구자들은 기록적인 성능, 급등하는 가격, 전례 없는 수요에 대해 떠들썩합니다. 이 심층 분석에서는 Blackwell Ultra가 왜 화제인지, 성능 대비 전력 및 메모리 대역폭의 혁신을 살펴보고, 대규모로 이 GPU를 배치할 때의 클러스터 경제에 대해 논의하며, 이 열풍이 경량 AI 프레임워크에 대한 재고를 촉발하는 이유를 고려합니다. 전반적으로, 신뢰할 수 있는 소스로 사실을 뒷받침하며, 기술적인 세부 사항에 초점을 맞춰 지식 있는 독자를 위한 내용을 제공합니다.
비할 데 없는 성능: NVIDIA의 Blackwell Ultra GPU는 AI 추론 능력에서 엄청난 도약을 이룹니다. 초기 벤치마크에 따르면, 이전 세대의 Hopper H100 GPU에 비해 7.5배 높은 저정밀 처리량을 보여줍니다[1]. 사실, Blackwell Ultra는 4비트 정밀도의 밀집 수학 연산(NVFP4 포맷)을 15 PFLOPS로 수행할 수 있으며, H100(FP8)의 약 2 PFLOPS와 비교했을 때 7.5배 증가한 원시 처리량을 자랑합니다[1]. 이 도약은 AI 모델 추론을 극적으로 가속화합니다. 예를 들어, NVIDIA는 Blackwell Ultra 기반 시스템이 Hopper 기반 플랫폼에 비해 AI “팩토리” 출력(응답의 처리량)에서 50배의 전체 증가를 달성한다고 보고하며, 사용자당 응답성이 약 10배, 메가와트당 처리량이 5배 더 높습니다[2]. 다시 말해, Blackwell Ultra는 단순히 강력한 성능을 더하는 것이 아니라, 훨씬 더 효율적으로 이를 수행하여 대규모 배포에서 와트당 5배 더 높은 성능을 제공합니다[2].
새로운 추론 기능: Blackwell Ultra는 NVFP4라는 새로운 4비트 정밀도 형식을 도입하여 정확도를 크게 손상시키지 않고 극한의 추론 속도를 가능하게 합니다. 이 형식은 두 단계의 정교한 스케일링을 사용하여 정확도를 유지하며, 메모리와 계산 비용을 크게 줄이면서도 거의 FP8 수준의 품질을 달성합니다[3]. 그 결과 Blackwell Ultra의 텐서 코어는 이전보다 불가능했던 수준으로 저정밀 계산을 수행할 수 있으며, 표준 Blackwell GPU의 FP4 처리량보다 1.5배 높고, 이전 아키텍처보다 여러 배 빠릅니다[1]. NVIDIA는 또한 중요한 변환기 주의 작업을 위한 특수 기능 유닛 처리량을 두 배로 늘려, 주의 레이어가 기본 Blackwell 칩보다 최대 2배 빠르게 실행되도록 했습니다[4]. 이러한 발전은 대형 언어 모델과 생성 AI 추론의 핵심 병목 현상을 겨냥하여 실시간 생성 비디오와 같은 기능을 가능하게 합니다. 실제로 한 데모에서는 Blackwell Ultra가 Hopper GPU보다 30배 빠르게 5초 길이의 AI 비디오를 생성하여 90초 작업을 실시간 출력으로 전환했습니다[5].
Wall Street and Twitter Hype: Such performance gains have not gone unnoticed. NVIDIA’s stock has surged on expectations of record revenues fueled by Blackwell. In Q3 2025, data-center revenue hit $51.2 billion (90% of NVIDIA’s sales), largely thanks to Blackwell Ultra ramping up – which the company says is now its “leading architecture across all customer categories”[6][7]. CEO Jensen Huang noted that “Blackwell sales are off the charts, and cloud GPUs are sold out”, with demand far exceeding supply[8]. AI labs and cloud providers are racing to get these chips, and social media is filled with anecdotes of extreme backorders and secondary market markups. This scarcity-fueled frenzy is driving up prices and making Blackwell Ultra a trending topic in both tech and finance circles.
그림: 저정밀 AI 처리량이 블랙웰 울트라로 급상승했습니다. 각 블랙웰 울트라 GPU는 15 PFLOPS 의 고밀도 4비트 AI 연산을 제공하며, 이미 강력한 블랙웰 칩보다 1.5배 향상되었고, NVIDIA의 이전 호퍼 세대(H100/H200)보다 약 7.5배 의 FP8 처리량을 제공합니다[1]. 이 엄청난 세대적 연산력의 도약은 현재 AI 인프라 붐의 주요 원동력입니다.*
Blackwell Ultra의 핵심은 대규모 AI 추론을 위해 특별히 설계된 최첨단 디자인입니다. 각 GPU는 실제로 하나의 패키지에 듀얼 GPU 다이가 포함되어 있으며, 10 TB/s의 고대역폭 인터커넥트로 연결되어 있습니다[9]. 이러한 다이 구조(칩렛 아키텍처와 유사함)는 NVIDIA가 하나의 “GPU”에 방대한 처리 능력을 집약할 수 있도록 합니다. 전체 Blackwell Ultra 칩은 **8개의 GPC 클러스터에 걸쳐 160개의 스트리밍 멀티프로세서(SM)**가 분산되어 있으며, GPU당 640개의 5세대 텐서 코어를 포함하고 있습니다[10][11]. 이러한 텐서 코어는 AI의 핵심 동력이며, Blackwell Ultra에서는 FP8, FP6 및 새로운 NVFP4 정밀도로 최적화되어 있습니다. 각 SM은 또한 온칩 “텐서 메모리”(TMEM) 256 KB를 포함하고 있으며, 이는 매트릭스 계산을 보다 효율적으로 수행하기 위해 GPU가 데이터를 재활용할 수 있는 고속 메모리입니다[12][13]. 이러한 SM 수준의 메모리는 새로운 듀얼 블록 처리 모드와 함께 칩 외부 메모리 트래픽을 줄이고 텐서 코어에 데이터를 공급하여 유효 처리량과 전력 효율을 향상시킵니다[13].
HBM3e 메모리 – 방대하고 빠름: 이 연산 장치에 데이터를 공급하는 것은 거대한 메모리 풀입니다. Blackwell Ultra GPU는 각각 288 GB의 HBM3e 고대역폭 메모리를 갖추고 있습니다[14]. 이는 표준 Blackwell 데이터 센터 GPU(약 ~192 GB)[15]의 메모리보다 1.5배 많고, Hopper H100(80 GB)의 메모리보다 3.5배 이상 많습니다. 이는 오늘날의 대형 언어 모델 및 기타 AI 워크로드가 종종 방대한 컨텍스트 길이와 모델 크기를 요구하기 때문에 중요합니다. 더 큰 메모리는 더 큰 배치 크기와 더 긴 시퀀스를 한 번에 처리할 수 있어 복잡한 모델의 처리량을 향상시킵니다[16]. 메모리 대역폭 또한 인상적입니다 – GPU당 8 TB/s 수준입니다(12개의 HBM3e 스택 덕분에)[14]. 비교를 위해, H100 SXM 모듈은 약 3 TB/s를 제공했으며[17], HBM3e를 갖춘 H200 임시 업그레이드도 ~4.8 TB/s로 제한되었습니다[18][19]. Blackwell Ultra와 함께라면, 메모리 서브시스템이 많은 워크로드의 병목현상이 더 이상 발생하지 않습니다: 모델은 더 커질 수 있고 외부 메모리를 지속적으로 교체하지 않고도 더 효율적으로 접근할 수 있습니다.
그레이스 호퍼에서 그레이스 블랙웰로: NVIDIA의 설계는 클러스터 규모의 성능을 향상시키기 위해 CPU와 네트워킹을 GPU와 긴밀하게 통합합니다. 각 블랙웰 울트라 “노드”는 초고속 NVLink-C2C 연결(900 GB/s CPU–GPU 대역폭)을 통해 GPU와 NVIDIA의 그레이스 CPU를 연결합니다[14]. 그레이스 CPU는 2,592개의 Arm 코어와 자체 고속 메모리 대역폭(LPDDR5X)을 제공하여 GPU를 지원합니다[20][21]. 그레이스 블랙웰이라고도 불리는 이 조합은 GPU 연산이 CPU나 I/O 제한으로 인해 방해받지 않도록 보장합니다. 실제로 NVIDIA GB300 시스템(아래 세부 사항 참조)에는 각 랙에서 72개의 GPU와 함께 작동하는 36개의 그레이스 CPU가 있으며, 모두 5세대 NVLink를 통해 130 TB/s의 놀라운 전체 대역폭으로 연결됩니다[22][20]. 이 구조와 NVIDIA의 퀀텀 X 인피니밴드 또는 노드 간 스펙트럼-X 이더넷 덕분에 다중 랙 “AI 공장”도 빠른 GPU 간 통신을 할 수 있습니다. 최종 목표는 AI 추론을 클라우드 서비스처럼 확장하는 것인데, NVIDIA는 이를 AI Factory 개념이라고 부르며, 여러 모델과 요청이 가속기의 메시드 클러스터 전체에서 병렬로 실행됩니다.
Blackwell Ultra의 가장 놀라운 점 중 하나는 AI 작업에 대한 에너지 효율성을 얼마나 향상시키는가입니다. 각 GPU가 많은 전력을 소모하긴 하지만(높은 TDP에 대해서는 잠시 후에 논의하겠습니다), 와트당 성능은 이전 세대에 비해 상당히 증가했습니다. NVIDIA의 자체 지표에 따르면, 대규모 환경에서 Blackwell Ultra 시스템은 Hopper 기반 시스템에 비해 메가와트당 5배의 처리량을 제공합니다[2]. 이는 여러 요인이 함께 작용한 결과입니다:
성능 대 전력비 향상이 단순한 학문적 개념에 그치지 않고 데이터 센터의 운영 비용에 직접적인 영향을 미친다는 점을 주목할 필요가 있습니다. 동일한 에너지 입력으로 5배의 처리량을 얻을 수 있다면, 쿼리나 추론당 비용을 크게 줄일 수 있습니다. 많은 AI 모델이 웹 규모로 배포되고 있다는 점을 고려할 때(하루 수백만 건의 쿼리를 생각해 보세요), 이러한 효율성 향상은 전기 및 냉각 비용을 억제하는 데 필수적입니다. NVIDIA는 심지어 GPU에 대한 에너지 효율성 계산기를 제공하여 이 지표가 고객에게 얼마나 중요한지를 강조합니다.
다른 관점에서 보면, AMD 및 다른 경쟁업체들도 AI를 위한 성능 대 전력비를 자랑하고 있지만, 2025년 후반부에 NVIDIA가 Blackwell Ultra로 한 단계 앞서 나간 것으로 보입니다. 예를 들어, AMD의 주력 제품인 MI300X(인공지능 추론을 위한 경쟁 GPU)는 여전히 5nm급 기술에 기반하여 8비트 및 16비트 연산에 중점을 두고 있습니다. NVIDIA의 4비트 추론을 위한 특수 하드웨어로의 공격적인 이동은 효율성 면에서 새로운 우위를 제공합니다. 바로 이러한 이유로 클라우드 제공업체들이 높은 초기 비용에도 불구하고 Blackwell Ultra에 투자하려고 열심인 것입니다. 시간이 지남에 따라 더 적은 전력으로 더 많은 작업을 수행할 수 있기 때문에 총 소유 비용이 개선됩니다.
대규모 AI 모델은 메모리와 대역폭을 많이 소모하는 것으로 악명 높습니다. Blackwell Ultra는 HBM3e 메모리 아키텍처를 통해 이를 해결합니다. 언급했듯이, 각 GPU에는 288 GB의 HBM3e 메모리가 탑재되어 있습니다[14]. 이는 H100 80GB나 H200 141GB와 같은 최근의 GPU와 비교해도 엄청난 양의 빠른 메모리입니다. HBM3e를 도입한 중간 단계의 H200 141GB도 포함됩니다[18][19].
GPU당 288 GB의 즉각적인 이점은 매우 큰 모델(수백억 개의 매개변수를 가진 모델이나 높은 컨텍스트의 LLM 등)을 메모리 내에서 분할 없이 서빙하거나 미세 조정할 수 있는 능력입니다. 더 큰 배치 처리도 가능해져 활용도를 높입니다. NVIDIA는 Blackwell Ultra의 1.5배 더 큰 메모리가 (전작에 비해) AI 추론 처리량을 "가장 긴 컨텍스트 길이에서" 향상시킨다고 명시하고 있습니다[16]. 긴 문서 질문-응답이나 AI 어시스턴트와의 긴 대화와 같은 AI 애플리케이션에서 GPU는 한 번에 더 많은 토큰을 처리할 수 있어 속도와 결과의 품질을 개선합니다.
대역폭은 동전의 양면입니다. 12개의 HBM 스택이 병렬로 실행되면서 Blackwell Ultra의 메모리 서브시스템은 매우 넓습니다. 최대 성능으로 ~8 TB/s의 데이터를 처리할 수 있습니다[14]. 이는 천문학적인 수치입니다. 비교하자면, GDDR6를 사용하는 고급 PC GPU는 0.5 TB/s일 수 있으며, 이전 세대의 데이터 센터 GPU도 2–3 TB/s 범위에 있었습니다[17]. 실질적으로 이것이 의미하는 바는 무엇일까요? 이는 GPU 코어가 메모리 집약적 작업에서도 데이터를 지속적으로 공급받을 수 있다는 것입니다. 신경망은 종종 큰 행렬 곱셈(이를 Tensor Cores가 처리함) 사이에 메모리에 의존하는 작업(예: 주의 가중치, 임베딩 조회 등)을 포함합니다. 더 많은 대역폭이 있으면 이러한 메모리 의존적 단계가 빨라져 전체 작업의 지연이 줄어듭니다. Blackwell Ultra의 설계는 엄청난 연산 능력을 강력한 메모리 처리량과 균형을 맞춰, 연산 유닛이 데이터를 기다리며 유휴 상태에 빠지는 상황을 방지합니다.
구체적으로 말하자면, 트랜스포머 모델이 긴 시퀀스를 생성할 때 주의 메커니즘은 메모리에서 큰 키/값 행렬을 읽어야 합니다. Hopper H100에서는 매우 긴 시퀀스에 이 제한이 있을 수 있지만, Blackwell Ultra의 HBM3e에서는 GPU가 이러한 행렬을 두 배 이상의 속도로 전송할 수 있습니다. 2배 빠른 주의 계산 유닛과 결합하여 GPT 스타일의 긴 문맥 텍스트 생성과 같은 작업에서 훨씬 높은 지속 성능을 달성합니다. NVIDIA의 “AI Factory” 개념은 또한 메모리가 클러스터 규모에서 집계됨을 의미합니다. 72-GPU 랙에서는 NVLink 연결 도메인에서 수백 TB/s 범위의 총 메모리 대역폭을 가진 20 TB 이상의 GPU 메모리가 풀링됩니다[22][20]. 이는 본질적으로 AI 클러스터가 수십 테라바이트의 빠른 메모리를 가진 단일 거대 GPU처럼 작동하게 하여 대규모 모델의 여러 인스턴스를 동시에 제공하기에 이상적인 시나리오를 제공합니다.
성능과 효율성이 확보된 만큼, 이제 Blackwell Ultra를 배포하는 데 있어 실용적인 측면을 다뤄야 합니다: 필요한 비용과 인프라입니다. 이러한 GPU는 일반적으로 NVIDIA의 GB300 NVL72 랙이나 HGX B300 서버 블레이드와 같은 더 큰 시스템의 일부로 판매됩니다. 단일 GB300 NVL72 유닛은 72개의 Blackwell Ultra GPU와 36개의 Grace CPU를 랙에 통합하여 고속 스위치와 냉각 시스템을 완비하고 있습니다[26][20]. 이는 효과적으로 하나의 상자 안에 AI 슈퍼컴퓨터를 담은 것이며 저렴하지는 않습니다. 업계 보고에 따르면, NVIDIA는 전체 GB300 NVL72 랙의 가격을 약 300만 달러로 책정하고 있습니다[27]. 이는 GPU당 평균 40,000달러에 해당하며, 이는 NVIDIA가 개별 Blackwell 유닛에 대해 암시한 대략적인 가격인 30~40k 달러와 일치합니다[28]. (특히, Jensen Huang은 단독 칩이나 카드를 최종 고객에게 판매하지 않겠다고 제안했으며, 전체 통합 시스템을 판매하는 것을 선호한다고 밝혔습니다[28]. 이러한 번들링 전략은 초기 비용을 증가시키지만 구매자에게 완전하고 최적화된 솔루션을 제공합니다.)
AI 클러스터를 계획하는 사람들에게 **자본 지출(CapEx)**은 거대합니다. 단 하나의 랙도 $3M이 들며, 많은 배포에는 여러 랙이 포함됩니다. CoreWeave, OpenAI, Meta, Microsoft 등 주요 기업들이 가능한 한 많이 구매하고 있다고 합니다. 구매력이 적은 회사들(스타트업, 학술 연구소)은 이차 시장에서 높은 가격에 직면합니다. H100이 희소성으로 인해 MSRP보다 수만 달러 더 높은 가격에 재판매되었고, Blackwell에서도 유사한 추세가 보입니다. 2024년 말에는 공급이 수요를 따라가지 못하는 경우, H100 80GB 카드가 각 $30k–$40k에 판매되었습니다[29]. Blackwell Ultra도 같은 길을 따르고 있으며, 사실상 “AI 골드 러시” 가격을 두 배로 늘리고 있습니다. 요약하자면, 현재 이 하드웨어 계층에 참여할 수 있는 것은 자금력이 풍부한 조직이나 클라우드 크레딧을 가진 조직뿐입니다.
Power and Cooling Costs: Alongside the purchase price, the operational costs (OpEx) of running these clusters are significant. Each Blackwell Ultra GPU can draw up to ~1400 W at peak when fully utilized[15] – double or more the typical 700W TDP of an H100 SXM. In a 72-GPU rack, that means just the GPUs could consume around 100 kW of power (not counting overhead for CPUs, networking, etc.). Indeed, a fully loaded NVL72 cabinet with 18 GPU trays draws on the order of >100 kW and requires advanced cooling. NVIDIA opted for liquid-cooling in these systems, but even that has a cost: a recent analysis by Morgan Stanley pegged the bill of materials for the liquid cooling system at ~$50,000 per rack[30]. This includes custom cold plates, pumps, heat exchangers, etc. And as next-gen systems increase in power (rumor: the follow-on “Vera Rubin” generation might push 1.8kW per GPU), the cooling cost per rack is expected to rise to ~$56k[31][32].
즉, 300만 달러의 실리콘 외에도 배관과 열 관리에 수만 달러를 쓸 수 있습니다. 게다가 전기 요금: 24시간 100kW를 가동하면 하루 약 2.4MWh가 소모됩니다. 상업용 데이터 센터 요금 기준으로 보면, 랙당 전력 비용이 하루에 약 200~400달러(연간 10만 달러 이상)에 이를 수 있으며, 냉각 및 인프라 비용은 포함되지 않습니다. 분명히, AI 슈퍼클러스터 운영은 가벼운 마음이나 예산으로 할 일이 아닙니다.
그러나 여기에서 클러스터 경제학이 정당화되는 이유는 **처리량과 총 소유 비용(TCO)**입니다. 예를 들어, 하나의 블랙웰 울트라 랙이 이전 세대 랙의 출력의 50배를 제공한다면(특정 워크로드에 대해 NVIDIA가 제안한 대로)[2], 데이터 센터는 목표 워크로드를 달성하기 위해 전체 랙 수를 줄일 수 있습니다(따라서 총 전력/냉각도 감소). 이렇게 효율성이 증가하면 쿼리당 에너지 비용이 절대 전력 소모가 더 높음에도 불구하고 실제로 낮아질 수 있습니다. 각 GPU가 훨씬 더 많은 쿼리를 병렬로 처리하기 때문입니다. GPU 시간을 대여하는 클라우드 제공자에게 이는 잠재적으로 동일한 비용으로 더 많은 성능을 고객에게 제공하거나 더 나은 이윤을 얻을 수 있음을 의미합니다. 미디엄 분석에 따르면 블랙웰 GPU가 H100과 비슷한 대여 가격으로 훨씬 더 많은 성능을 제공한다면, 클라우드의 **AI 컴퓨트 비용(테라플롭 시간당)**이 감소할 수 있으며, 공급이 충족되면 적어도 그렇게 될 것입니다[33]. 이러한 가격이 정상화되면 대형 모델에 대한 접근성이 민주화될 수 있습니다. 물론 단기적으로는 공급 제약으로 인해 대여 가격이 높게 유지되고 있으며, 많은 클라우드 GPU 인스턴스가 비싸거나 대기 중인 상태입니다. 이 새로운 하드웨어를 모두 원하기 때문입니다.
요약하자면, 클러스터 규모에서 Blackwell Ultra의 경제성은 막대한 선행 투자와 상당한 장기적 효율성과 역량 증가를 약속합니다. 이 시스템을 일찍 확보할 수 있는 기업들은 AI 모델 개발 및 배포에서 경쟁 우위를 차지하게 됩니다. 이는 바로 GPU 구매 경쟁이 '군비 경쟁'에 비유되는 이유입니다. 또한 NVIDIA의 데이터 센터 수익이 그 분기에 전년 대비 66% 폭증한 이유이기도 합니다[34]: 거의 모든 주요 기술 기업과 AI 스타트업이 높은 가격과 배송 지연을 감수하면서도 GPU 인프라에 자본을 투자하고 있습니다.
모든 것이 바이럴 버즈를 뒷받침하는 공급 부족으로 이어집니다. 간단히 말해, 현재 NVIDIA의 AI 가속기에 대한 수요가 공급을 훨씬 초과하고 있습니다. NVIDIA의 CFO Colette Kress는 최근 실적 발표에서 주요 클라우드 제공업체들이 GPU 용량을 완전히 예약했다고 언급하며, "클라우드가 매진되었습니다"라고 말했습니다. 이전 세대의 GPU인 H100과 Ampere A100조차 설치 기반에서 "완전히 활용되고" 있습니다[35]. NVIDIA는 공급이 제한되어 있음을 인정하고 있으며, 2024년 하반기까지 상당한 증가를 기대하면서 가능한 한 빨리 생산을 늘리고 있습니다[36]. TSMC를 방문 중이던 Jensen Huang은 "Blackwell 칩에 대한 매우 강한 수요"를 충족시키기 위해 가능한 많은 웨이퍼를 요청했다고 말했습니다[37][38]. TSMC의 CEO는 NVIDIA의 시장 가치가 AI에 대한 낙관으로 5조 달러에 도달하자 Jensen을 "오조 달러의 남자"라고 별명을 붙였습니다[39]. 요컨대, NVIDIA는 생산 가능한 모든 칩을 판매하고 있으며 파트너들에게 생산 가속화를 요구하고 있지만, 단기적으로는 여전히 충분하지 않습니다.
여러 가지 요인이 병목 현상에 기여합니다:
논의 중에 언급된 “H300”은 아마도 다가오는 차세대 주요 GPU 업그레이드를 가리키는 것일 가능성이 높습니다. NVIDIA의 Blackwell 이후 로드맵은 Vera Rubin(천문학자 이름을 딴)이라는 코드명으로 소문이 돌고 있으며, 일부 애호가들은 이 가상의 미래 시리즈를 Hopper 명명 스타일에 따라 비공식적으로 “H300”이라고 부르고 있습니다. Blackwell Ultra가 현재 출시되었지만, 기업들은 이미 다음에 올 것에 대해 추측하고 있습니다. 예를 들어, 2027년쯤 NVIDIA가 또 다른 도약을 이룰 수도 있습니다. 예를 들어 3nm 또는 2nm 공정으로 제작된 “H300” GPU가 Blackwell Ultra보다 10-15% 효율적일 가능성이 있습니다(한 Reddit 댓글 작성자가 상상한 것처럼)[49][50]. 그로 인해 즉시 위기가 완화될까요? 아마 아닐 겁니다. 대부분의 대기업들은 그때까지도 Blackwell 배포를 소화하고 있을 것이며, 약간의 이익을 위해 수십억 달러의 하드웨어를 단번에 폐기하지는 않을 것입니다[49][50]. 따라서 “H300” 또는 Rubin GPU가 등장하더라도, 수요는 당분간 계속 공급을 초과할 것입니다. 이는 AI 채택이 여전히 산업 전반에 걸쳐 가속화되고 있기 때문입니다. 한 분석가의 말처럼, NVIDIA는 “AI의 선순환”에 진입했으며, 더 많은 사용이 컴퓨팅에 대한 더 많은 수요를 촉발하고, 이는 더 많은 애플리케이션을 가능하게 하는 식으로 계속되고 있습니다[8].
실질적으로 Jensen Huang의 지침은 내년까지 공급이 계속 부족할 것이라는 점입니다. SK하이닉스와 같은 메모리 제조업체들은 이미 AI 붐으로 인해 내년까지 HBM 생산을 매진했습니다[51][52]. NVIDIA의 4분기 예상 수익은 650억 달러로 또 다른 도약을 예상하며, 이는 그들이 만들 수 있는 모든 Blackwell을 출하할 수 있다는 가정에 기반합니다[53]. 따라서 “공급 부족”은 즉시 끝나지 않을 것이며, 오히려 가격은 계속 높게 유지되고 GPU는 2025년까지 할당이 제한될 것입니다. 우리는 아마도 2차 클라우드 제공업체나 소규모 기업들이 비용이 너무 높다고 판단하고 주문을 중단할 때까지는 안심할 수 없을 것입니다. 하지만 현재로서는 모든 기업이 AI 컴퓨팅을 위한 영토 확보 모드에 있습니다. NVIDIA의 전체 시스템 판매 전략도 이러한 GPU를 원한다면 종종 전체 고가의 서버 또는 심지어 전체 포드를 구매해야 하며, 이는 누가 이를 얻을 수 있는지를 더욱 집중시킵니다.
최첨단 AI 하드웨어의 높은 비용과 공급 제한을 고려할 때, 소프트웨어와 아키텍처 측면에서의 적응 방안도 고려할 가치가 있습니다. 흥미로운 관점 중 하나는 경량 에이전트 프레임워크에 대한 주장입니다. 이는 하나의 거대한 단일 모델이 아니라 여러 개의 전문화된 작은 모델 또는 '에이전트'가 함께 작동하는 방식으로 AI 시스템을 설계하는 것입니다. 여기서 Macaron과 같은 접근 방식이 등장하여, 더욱 효율적이고 메모리에 민감한 AI 에이전트를 옹호합니다.
왜 지금 이러한 접근 방식이 적합할까요? 컴퓨팅이 새로운 석유라면, 주어진 컴퓨팅 자원으로 최대한 많은 것을 해내는 것이 중요하기 때문입니다. Blackwell Ultra는 큰 성능 향상을 제공하지만, 모든 사람이 이러한 GPU를 얻을 수 있는 것은 아닙니다. 사용할 수 있는 사람들도 최대한 효율적으로 활용하고자 할 것입니다. 경량 AI 에이전트는 컴퓨팅을 영리하게 사용하는 것에 관한 것입니다: - 모듈식으로 작업을 처리하도록 설계될 수 있으며, 각 쿼리에 대해 거대한 모델을 처음부터 끝까지 실행하는 대신, 하위 작업을 위해 필요한 모델만 활성화할 수 있습니다. - 필요할 때만 관련 컨텍스트를 가져오거나 결과를 캐싱하는 등의 기술을 자주 사용하여 불필요한 계산을 줄입니다. - 작은 모델은 종종 더 저렴하거나 더 쉽게 구할 수 있는 하드웨어(심지어 오래된 GPU나 CPU에서도)에서 실행될 수 있으며, 이는 최상위 GPU가 부족하거나 매우 비쌀 때 큰 이점입니다.
예를 들어, 하나의 175B 파라미터 모델이 모든 작업을 수행하는 대신, 특정 도메인에 맞춰 조정된 10개의 작은 모델(각각 5B에서 20B 사이)을 에이전트 프레임워크가 조정하여 사용할 수 있습니다. 이러한 접근 방식은 주어진 쿼리에 대해 에이전트가 쿼리를 적절한 전문가에게 지능적으로 전달하기 때문에 메모리와 컴퓨팅 자원을 훨씬 적게 사용할 수 있습니다. 이는 특히 하드웨어 자원이 제한된 경우 실행 비용이 더 저렴할 수 있습니다. 이는 클라우드 컴퓨팅에서의 마이크로서비스와 유사합니다. 하나의 거대한 애플리케이션이 모든 작업을 비효율적으로 처리하는 대신, 작업에 맞는 작은 서비스를 사용하십시오.
Macaron AI와 같은 프로젝트는 AI 시스템이 다양한 기술이나 지식 기반을 호출하여 솔루션을 구성하는 심층적인 메모리 및 에이전트 아키텍처를 탐구해 왔습니다(사람들이 특정 질문에 대해 전문가에게 상담하는 것과 유사하게). 모든 사람이 Blackwell Ultra 클러스터를 가지고 있지 않은 세상에서, 이러한 설계는 더 많은 사람들이 중간 수준의 하드웨어로 고급 AI 작업을 수행할 수 있게 할 수 있습니다. 이는 현재의 하드웨어 병목에 대한 현실적인 대응입니다.
게다가 고급에서도 효율성은 비즈니스에 유리합니다. Blackwell Ultra를 대량 구매하는 하이퍼스케일러들은 각 GPU 시간을 최대한 활용하기 위해 더 나은 컴파일러부터 분산 프레임워크까지 소프트웨어 최적화에도 투자하고 있습니다(개당 4만 달러인 만큼, 모든 활용도가 중요합니다). 가볍고 효율적인 에이전트 프레임워크는 예를 들어, 쿼리를 사전 처리하여 큰 모델에 공급되는 컨텍스트 길이를 줄임으로써 계산을 절약하거나 일부 로직을 더 저렴한 기계로 오프로드하여 직접적으로 비용을 절감할 수 있습니다. 대형 모델이 소형 도구나 데이터베이스로 보강되어 필요할 때에만 대형 모델을 호출하는 신흥 시스템에서 이러한 힌트를 볼 수 있습니다. 이 철학은 모든 문제에 AI 망치를 사용하는 것이 아니라 망치와 메스를 결합한 도구 세트를 사용하는 Macaron의 주장과 잘 맞아떨어집니다.
요약하자면, Macaron fit은 NVIDIA의 최신 기술이 놀라운 성과를 가능하게 하지만, 업계가 AI를 접근 가능하고 지속 가능하게 만들어야 한다는 점을 인식하는 것입니다. 더 크고 비싼 하드웨어에 의존하는 것은 많은 응용 프로그램에 대해 점점 더 적은 수익을 가져옵니다. AI 솔루션을 더 가볍고, 모듈식이며, 자원을 덜 소모하는 방식으로 설계하는 데 혁신의 기회가 있습니다 (그리고 필요성이 있다고 할 수 있습니다). 이는 강력한 GPU나 대형 모델을 추구하지 말라는 것이 아닙니다; 오히려 더 현명하게 사용하는 것입니다. 현재의 공급 부족과 비용 폭등은 이러한 논의를 촉발하고 있습니다. 우리는 더 많은 하이브리드 접근 방식을 보게 될 것입니다: 예를 들어, AI 서비스는 Blackwell Ultra GPU를 사용하여 모델 추론의 무거운 작업을 처리할 수 있지만, 먼저 경량 전면 시스템이 요청을 정리하고 관련 데이터를 검색하며 대형 모델이 정말로 실행되어야 하는지를 결정한 후에만 사용합니다. 그렇게 하면 비싼 GPU 주기는 필요할 때에만 사용되어, 전체적인 비용 대비 처리량이 개선됩니다.
NVIDIA의 Blackwell Ultra GPU의 등장은 AI 인프라에서 중대한 전환점을 의미합니다. 이 제품은 AI 추론과 추론에서 놀라운 성능 향상을 제공하지만, 성공의 새로운 도전 과제도 부각됩니다: 공급 부족, 급등하는 비용, 그리고 점점 커지는 계산 능력에 대한 갈망입니다. Blackwell Ultra가 성능(특히 저정밀도에서)과 효율성(와트당 성능)을 크게 향상시키는 것을 보았으며, 이는 불과 1년 전만 해도 손에 닿지 않던 50배 이상의 AI 출력과 실시간 생성 미디어와 같은 도약을 가능하게 합니다[54][5]. 강력한 HBM3e 메모리와 고급 아키텍처는 병목현상을 제거하지만, 동시에 이러한 시스템의 엄청난 규모와 전력 소모는 물류 및 경제적 장애물을 초래합니다 – $3M의 가격표부터 전문 냉각이 필요한 100kW 랙까지.
“AI GPU 공급 부족”은 현실적이고 현재 진행 중인 문제입니다. 본질적으로 NVIDIA의 모든 생산은 이미 예약되었고, '매진'이 새로운 표준이 되었습니다[8]. GPU가 $30,000 이상의 가격을 요구하는 이 희소성은 투자자와 실무자 모두가 우리가 가진 하드웨어를 최대한 활용하는 방법에 집중하게 만들었습니다. 이는 더 넓은 산업계에서 단순히 힘만으로 규모를 키우는 것이 지속 가능하지 않다는 중요한 점을 강조합니다. 따라서 더 나은 하드웨어인 Blackwell Ultra나 경량 에이전트 프레임워크와 같은 더 스마트한 소프트웨어를 통한 효율성이 앞으로의 게임의 이름입니다.
단기적으로 NVIDIA의 Blackwell Ultra는 계속해서 헤드라인과 배포 계획을 지배할 것이며, 이 GPU에 대한 필사적인 수요는 공급이 따라잡힐 때까지 (다음 아키텍처가 도입되고 제조 시설이 확장될 때까지) 지속될 것입니다. AI 역량을 구축하는 조직에게 주어진 결론은 두 가지입니다: 최첨단 하드웨어를 확보할 수 있다면, 그것이 당신에게 우위를 줄 것입니다, 하지만 또한 당신의 AI 스택을 지능적으로 설계하여 모든 FLOP를 최대한 활용해야 합니다. 이는 작은 모델을 혼합하거나, 새로운 정밀도에 맞춘 코드를 최적화하거나, 데이터 관리에 투자하는 것을 의미할 수 있습니다. 이 컨텍스트에서 불필요한 계산은 곧 낭비된 돈이 되기 때문입니다.
앞을 내다보면, AI 하드웨어의 궤적은 더 큰 성능을 시사합니다(가상의 “H300”과 다가오는 Rubin 세대) 그리고 계속되는 높은 수요가 예상됩니다. 따라서 산업의 과제는 이 놀라운 능력을 접근성과 균형 잡는 것입니다. 소프트웨어 수준에서의 효율성, 확장성, 혁신이 핵심이 되어 Blackwell Ultra와 같은 GPU로 구동되는 AI 혁명이 가장 큰 자금력이나 데이터 센터를 가진 사람들만이 아닌 다양한 참여자가 참여할 수 있도록 해야 합니다. 요컨대, NVIDIA의 최신 혁신은 새로운 지평을 열었지만, AI에서 (그리고 전반적인 컴퓨팅에서) 자원의 스마트한 사용이 순수한 성능만큼이나 중요하다는 것을 상기시킵니다.
출처: NVIDIA 제품 및 기술 문서[54][1][16], 업계 뉴스 보고서[8][43], 및 전문가 분석[28][27]에서 Blackwell Ultra의 성능, 공급망 및 AI 경제에 미치는 영향을 자세히 설명합니다.
[1] [3] [4] [9] [10] [11] [12] [13] [14] NVIDIA Blackwell Ultra 내부: AI 공장 시대를 이끄는 칩 | NVIDIA 기술 블로그
[2] [5] [16] [20] [21] [22] [25] [26] [54] AI 추론 성능 및 효율성을 위한 설계 | NVIDIA GB300 NVL72
https://www.nvidia.com/en-us/data-center/gb300-nvl72/
[6] [7] [34] [35] Nvidia: Blackwell Ultra, 62% 성장 주도하며 기록적인 수익 달성
[8] [53] 엔비디아의 수익이 분기당 570억 달러로 급등하며 기록을 세웠습니다 — 모든 GPU가 매진되었습니다 | Tom's Hardware
[15] 슈퍼마이크로 컴퓨터, Inc. - 슈퍼마이크로가 NVIDIA Blackwell Ultra 시스템과 랙 플러그 앤 플레이 데이터 센터 규모 솔루션의 대량 출하를 시작합니다
[17] NVIDIA 호퍼 아키텍처 심층 분석 | NVIDIA 기술 블로그
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB
[23] 효율적이고 정확한 저정밀 추론을 위한 NVFP4 소개
[24] NVIDIA Blackwell vs. Blackwell Ultra B300: 구매할까요 아니면 기다릴까요?
https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/
[27] [46] [47] NVIDIA가 2025년에는 520만 개의 Blackwell GPU를, 2026년에는 180만 개, 그리고 2026년에는 570만 개의 Rubin GPU를 출하할 것으로 예상됩니다 : r/AMD_Stock
https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/
[28] [29] [33] 블랙웰 GPU와 클라우드 AI 가격의 새로운 경제학 | 작성자: elongated_musk | Medium
[30] [31] [32] 하나의 Nvidia 블랙웰 울트라 NVL72 랙을 위한 냉각 시스템 비용은 무려 $50,000입니다 — 차세대 NVL144 랙으로 증가하여 $56,000가 될 예정입니다 | Tom's Hardware
[36] [40] [41] [42] [43] [44] NVIDIA Blackwell AI 서버, "부품 부족" 노출, 2024년 4분기에 공급 제한 예상
https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/
[37] [38] [39] [48] [51] [52] 엔비디아 CEO 황, 블랙웰 칩에 대한 강력한 수요 예상 | 로이터
https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/
[45] Nvidia가 블랙웰 칩을 위해 TSMC 웨이퍼 주문을 50% 늘리다 - LinkedIn
[49] [50] 샘 알트만: "우리는 GPU가 부족합니다. ChatGPT는 매일 새로운 사용자 최고치를 기록하고 있습니다. 우리는 지금 끔찍한 선택을 해야 합니다. 더 나은 모델이 있지만 용량이 없어 제공할 수 없습니다. 우리가 제공하고 싶은 새로운 제품과 서비스도 있습니다." : r/accelerate
https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/