엔비디아-마이크로소프트-AMD-인텔

엔비디아 GB300 NVL72 시스템(2025.10.13)

yjsunshine 2025. 10. 13. 11:01

2025.10.13

NVIDIA Blackwell Ultra for the Era of AI Reasoning | NVIDIA Technical Blog

 

수년 동안 인공지능(AI)의 발전은 ‘사전 학습(pretraining) 확장’이라는 명확한 경로를 따라왔습니다.

즉, 더 큰 모델, 더 많은 데이터, 더 강력한 연산 자원이 곧 획기적인 성능 향상으로 이어진다는 것입니다.

 

지난 5년간 이러한 사전 학습 확장은 연산 요구량을 무려 5천만 배나 증가시켰습니다. 그러나 이제 더 지능적인 시스템을 구축하는 일은 단순히 모델을 더 크게 만드는 문제를 넘어섰습니다. 핵심은 모델을 정교하게 다듬고, ‘생각하게 만드는 것’입니다.

 

모델을 특정 과업에 맞춰 정제(refine)하는 ‘사후 학습(post-training) 확장’은 모델의 대화 능력을 향상시키는 새로운 단계입니다. 도메인 특화 데이터나 인공(synthetic) 데이터를 이용한 튜닝은 모델이 미묘한 맥락을 이해하고 더 정확한 출력을 내도록 돕습니다.

 

특히 합성 데이터는 사실상 무한히 생성할 수 있기 때문에, 사후 학습 확장은 방대한 연산 자원을 필요로 합니다.

 

이제 또 하나의 새로운 확장 법칙이 등장했습니다. 바로 ‘테스트 타임 확장(test-time scaling)’입니다.

‘장시간 사고(long thinking)’라고도 불리는 테스트 타임 확장은 AI가 추론을 수행할 때, 즉 추론 단계(inference) 에서 동적으로 연산량을 늘려 더 깊은 사고를 가능하게 합니다.

 

이러한 ‘AI 추론 모델’은 단일 패스로 단순히 답변을 내놓는 것이 아니라, 여러 가능성을 탐색하고, 평가하며, 실시간으로 답변을 정제합니다. 이는 AI가 독립적으로 사고하고 행동할 수 있는 ‘에이전틱 지능(agentic intelligence)’으로 나아가는 단계라 할 수 있습니다.

 

이처럼 사후 학습 확장과 테스트 타임 확장으로의 전환은 기하급수적으로 더 많은 연산 자원, 실시간 처리 능력, 고속 인터커넥트를 요구합니다. 맞춤형 파생 모델을 개발하는 사후 학습에는 사전 학습 대비 최대 30배의 연산이 필요하며, 복잡한 문제를 해결하기 위한 장시간 사고 과정에서는 단일 추론 패스보다 최대 100배의 연산이 요구될 수 있습니다.

 

이 수요에 대응하기 위해 엔비디아(NVIDIA)는 Blackwell Ultra를 발표했습니다. 이는 학습(pretraining), 사후 학습(post-training), 그리고 테스트 타임 확장(test-time scaling)까지 모두 아우르는 ‘AI 추론 시대’를 위한 가속 컴퓨팅 플랫폼입니다.

 

Blackwell Ultra는 대규모 AI 추론 연산에 최적화되어 있으며, 더 스마트하고 빠르며 효율적인 AI를 구현하면서도 총소유비용(TCO)을 최소화하도록 설계되었습니다.

 

Blackwell Ultra는 NVIDIA GB300 NVL72 시스템의 핵심을 이룹니다. 이 시스템은 액체 냉각(liquid-cooled) 기반의 랙 규모 솔루션으로, 36개의 NVIDIA Grace CPU72개의 Blackwell Ultra GPU를 단일 NVLink 도메인으로 연결합니다. 이를 통해 72개의 GPU가 하나의 거대한 GPU처럼 동작하며, 총 130TB/s에 달하는 NVLink 대역폭을 제공합니다.

 

 

 

 

Blackwell Ultra는 실시간 다중 에이전트(AI multi-agent) 시스템 파이프라인과 장문맥(long-context) 추론을 위한 AI 추론 성능을 한층 더 강화했습니다.

 

새로운 Blackwell Ultra Tensor Core는 기존 Blackwell GPU 대비 1.5배 더 높은 AI 연산(FLOPS) 성능을 제공하며, GB300 NVL72 시스템 기준으로는 HGX H100 대비 70배의 AI 연산 성능을 달성합니다.

 

또한 Blackwell Ultra는 다양한 FP4 커뮤니티 포맷을 지원해, 최신 AI 모델에 최적화된 메모리 효율을 제공합니다.

 

각 GPU에는 최대 288GB의 HBM3e 메모리가 탑재되며, GB300 NVL72 랙 전체 기준으로는 GPU와 CPU가 공유(coherent)하는 고속 메모리가 최대 40TB에 달합니다. 이를 통해 AI, 과학 연구, 실시간 분석 등 다양한 분야에서 새로운 혁신이 가능해집니다.

 

대규모 메모리 용량은 여러 대형 모델을 동시에 서비스하고, 다수의 사용자로부터 발생하는 복잡한 연산 요청을 동시에 처리할 수 있게 하여 성능을 높이고 지연 시간을 줄입니다.

 

또한 Blackwell Ultra Tensor Core는 Blackwell 대비 2배 향상된 어텐션 레이어(acceleration) 성능을 제공하여, 수백만 개의 입력 토큰을 처리해야 하는 실시간 에이전틱(agentic) 및 추론형 AI 애플리케이션에 필요한 초장문맥(end-to-end) 처리 능력을 대폭 향상시켰습니다.

 

대규모 다노드 추론 최적화 (Optimized large-scale, multi-node inference)

AI 팩토리(AI factory) 환경에서 운영비를 최소화하고 토큰 기반 수익을 극대화하려면, 대규모 GPU 인프라 전반에 걸쳐 AI 추론 요청을 효율적으로 조정하고 오케스트레이션(Orchestration) 하는 것이 필수적입니다.

 

이를 위해 Blackwell UltraPCIe Gen6 인터페이스NVIDIA ConnectX-8 800G SuperNIC을 탑재하여 GPU 간 네트워크 대역폭을 800Gb/s로 확장했습니다. 네트워크 대역폭이 넓을수록 대규모 환경에서의 성능이 향상됩니다.

 

이러한 고성능 네트워크 인프라는 NVIDIA Dynamo와 결합되어 더욱 큰 효율을 발휘합니다. Dynamo는 오픈소스 기반의 추론 확장 라이브러리로, 다노드 환경에서 AI 모델 추론 서비스를 확장(scale up) 하기 위해 설계된 모듈형 추론 프레임워크입니다.

 

Dynamo는 GPU 노드 전반에 추론 작업을 분산 배치하고, GPU 워커(worker)를 동적으로 할당하여 트래픽 병목 현상을 완화합니다.

 

또한 Dynamo의 분리형 서비스(disaggregated serving) 기능은 대형 언어모델(LLM)의 추론 과정에서 컨텍스트(prefill) 단계와 생성(decode) 단계를 GPU 간에 분리하여, 성능 최적화·확장성 강화·비용 절감을 동시에 달성합니다.

 

각 GPU가 800Gb/s의 데이터 처리량을 지원하는 GB300 NVL72 시스템은 NVIDIA Quantum-X800NVIDIA Spectrum-X 네트워킹 플랫폼과 완벽하게 통합되어, AI 팩토리와 클라우드 데이터센터가 사전 학습(pretraining), 사후 학습(post-training), 테스트 타임 스케일링(test-time scaling)세 가지 확장 법칙(Three Scaling Laws) 의 요구를 완벽히 충족할 수 있도록 합니다.

 

 

50x more AI factory output  AI 팩토리 성능 50배 향상

 

 

 

 

AI 팩토리 성능 50배 향상 (50x more AI factory output)

그림 1은 AI 팩토리의 생산성을 극대화하기 위해 고려해야 할 두 가지 핵심 변수를 보여줍니다.


세로축은 1메가와트(MW) 규모 데이터센터에서 초당 처리 가능한 토큰(throughput tokens per second)을 나타내며,
가로축은 단일 사용자 기준의 응답성(responsiveness), 즉 초당 토큰 처리량(TPS: Tokens Per Second) 을 의미합니다.

 

NVIDIA GB300 NVL72를 활용한 AI 팩토리는 기존 Hopper 기반 시스템 대비

  • 사용자당 TPS 성능을 10배 향상시키고,
  • 전력 효율(TPS per MW)을 5배 개선하여,
    결과적으로 AI 팩토리 전체 출력(performance output)을 최대 50배까지 향상시킬 수 있습니다.

요약 (Summary)

Blackwell Ultra를 기반으로 한 더 빠른 AI 추론 능력은

  • 실시간 인사이트 제공,
  • 더 지능적이고 반응성이 뛰어난 챗봇,

  • 향상된 예측 분석,
  • 그리고 더 효율적이고 생산적인 AI 에이전트를 가능하게 합니다.

이러한 기능은 금융, 의료, 전자상거래 등 다양한 산업에서 즉각적인 효과를 발휘하며,
대규모 모델과 복잡한 AI 추론 작업을 속도 저하 없이 처리할 수 있도록 지원합니다.


이를 통해 고급 AI 역량이 보다 현실적이고 실용적인 형태로 보급될 수 있습니다.

NVIDIA Blackwell Ultra 제품군
2025년 하반기부터 파트너사를 통해 공급될 예정이며,


모든 주요 클라우드 서비스 제공업체와 서버 제조사들의 지원을 받을 예정입니다.

자세한 내용은 NVIDIA의 공식 자료를 참고하면 됩니다.