본문 바로가기

마이크로소프트 -엔비디아-AMD-인텔

엔비디아,GB200 랙 공급망 추가 최적화 필요, 2025년 2분기~3분기 최대 출하 예상 (2024.12.17)

2024.12.17

 

DRAMeXchange - 【Market View】GB200 Rack Supply Chain Requires Further Optimization, Peak Shipments Expected Between 2Q25 and 3Q25, Says TrendForce

 

GB200 랙 공급망 추가 최적화 필요, 2025년 2분기~3분기 최대 출하 예상 – 트렌드포스(TrendForce)

(설명: 서버 랙은 데이터센터에서 서버, 스토리지 장치, 네트워크 장비 등을 설치하고 관리하기 위해 사용되는 표준화된 금속 프레임 또는 캐비닛입니다. 일반적으로 랙은 IT 장비를 효율적으로 배치하고 전력, 냉각, 연결 관리를 쉽게 하기 위해 사용됩니다. 랙은 **U(Unit)**라는 표준 단위를 사용하여 높이를 측정하며, 보통 42U 또는 48U 크기의 랙이 많이 사용됩니다.)

 

GB200 Rack Supply Chain Requires Further Optimization, Peak Shipments Expected Between 2Q25 and 3Q25, Says TrendForce

GB200 랙 공급망 추가 최적화 필요, 2025년 2분기~3분기 최대 출하 예상 – 트렌드포스(TrendForce)

 

As the market closely follows the progress of NVIDIA’s GB200 rack-mounted solution, TrendForce’s latest research indicates that the supply chain requires additional time for optimization and adjustment. This is largely due to the higher design specifications of the GB200 rack, including its requirements for high-speed interconnect interfaces and thermal design power (TDP), which significantly exceed market norms. Consequently, TrendForce projects that mass production and peak shipments are unlikely to occur until between Q2 and Q3 of 2025.

 

트렌드포스의 최신 연구에 따르면 NVIDIA의 GB200 랙 장착 솔루션의 진행 상황을 주목하는 시장에서 공급망의 추가 최적화와 조정에 시간이 필요하다고 밝혔습니다. 이는 GB200 랙이 시장 표준을 크게 초과하는 고속 인터커넥트 인터페이스와 열 설계 전력(TDP) 같은 높은 설계 사양을 요구하기 때문입니다. 이에 따라 대량 생산과 최대 출하 시점은 2025년 2분기와 3분기 사이에 발생할 것으로 전망됩니다.

 

The NVIDIA GB rack series, which includes the GB200 and GB300 models, features more complex technology and higher production costs, making it a preferred solution for large CSPs. Other potential users include Tier-2 data centers, national sovereign cloud providers, and academic research institutions engaged in HPC and AI applications. 

 

NVIDIA의 GB 랙 시리즈는 GB200 및 GB300 모델로 구성되며, 더 복잡한 기술과 높은 생산 비용이 특징입니다. 이러한 제품은 대형 CSP(클라우드 서비스 제공업체)에 선호되는 솔루션으로 자리 잡고 있으며, Tier-2 데이터 센터, 국가 주권 클라우드 제공업체, HPC(고성능 컴퓨팅) 및 AI 애플리케이션에 참여하는 학술 연구 기관 등도 잠재적인 사용자로 포함됩니다.

 

The GB200 NVL72 is expected to become the most widely adopted model in 2025, potentially accounting for up to 80% of total deployments as NVIDIA ramps up its market push. 

 

NVIDIA는 2025년 GB200 NVL72 모델이 가장 널리 채택될 것으로 예상하며, 이는 전체 배포량의 최대 80%를 차지할 가능성이 있습니다.

 

NVIDIA aims to boost the computational performance of AI and HPC server systems with its proprietary NVLink technology, enabling high-speed interconnections between GPU chips. The GB200 employs the fifth-generation NVLink, offering a significantly higher total bandwidth than PCIe 5.0—the current industry standard.

 

NVLink 기술로 성능 강화

NVIDIA는 독자적인 NVLink 기술을 통해 AI 및 HPC 서버 시스템의 계산 성능을 높이고 GPU 칩 간 고속 상호 연결을 지원합니다. GB200은 5세대 NVLink를 채택하여 현재 업계 표준인 PCIe 5.0보다 훨씬 높은 총 대역폭을 제공합니다.

 

The TDP of the 2024-dominant HGX AI server typically ranges from 60 kW to 80 kW per rack, but the GB200 NVL72’s TDP reaches a staggering 140 kW per rack, effectively doubling power demands. Manufacturers are accelerating the adoption of liquid cooling solutions, as traditional air cooling methods are no longer sufficient for such high thermal loads.

 

GB200 NVL72의 TDP 및 냉각 솔루션

2024년에 주로 사용되는 HGX AI 서버의 랙당 TDP는 일반적으로 60~80kW 범위이지만, GB200 NVL72의 TDP는 무려 140kW에 달해 전력 수요를 두 배로 증가시킵니다. 이러한 높은 열 부하를 감당하기 위해 제조업체들은 전통적인 공랭 방식이 아닌 액체 냉각 솔루션의 채택을 가속화하고 있습니다.

 

The advanced design requirements for the GB200 have raised concerns over potential delays in component availability and system shipments. TrendForce reports that the production of Blackwell GPU chips is progressing largely as expected, with only limited shipments in 4Q24.

 

 GB200에 대한 고급 설계 요구 사항으로 인해 부품 가용성과 시스템 출하의 잠재적인 지연에 대한 우려가 제기되고 있습니다. 트렌드포스는 Blackwell GPU 칩 생산이 대부분 예상대로 진행되고 있으나, 2024년 4분기에는 제한된 출하량만 있을 것으로 보고했습니다.

 

Production volume is anticipated to ramp up gradually from 1Q25 onward. However, as components of the AI server system are still undergoing supply chain adjustments, 2024 year-end shipments are expected to fall short of industry expectations. Consequently, TrendForce forecasts that the peak shipment period for the GB200 full-rack system will be postponed to between Q2 and Q3 of 2025.

 

2025년 생산 및 출하 전망

생산량은 2025년 1분기부터 점진적으로 증가할 것으로 예상됩니다. 그러나 AI 서버 시스템 구성 요소가 여전히 공급망 조정 중이므로 2024년 연말 출하량은 업계 기대에 미치지 못할 가능성이 높습니다. 이에 따라 GB200 풀 랙 시스템의 최대 출하 시기는 2025년 2분기에서 3분기 사이로 연기될 것으로 전망됩니다.

 

Liquid cooling has become essential with the GB200 NVL72’s 140 kW TDP surpassing the limits of traditional air-cooled solutions. The adoption of liquid-cooling components is gaining momentum, with major industry players investing heavily in R&D for liquid cooling technologies.

Notably, coolant distribution unit suppliers are working to improve cooling efficiency by expanding rack sizes and developing more efficient cold plate designs.

액체 냉각 기술의 발전

GB200 NVL72의 140kW TDP가 전통적인 공랭 솔루션의 한계를 초과함에 따라 액체 냉각 기술이 필수적이 되었습니다. 주요 업계 플레이어들은 액체 냉각 기술 연구 개발에 막대한 투자를 하고 있으며, 쿨런트 분배 장치(CDU) 공급업체들은 냉각 효율성을 높이기 위해 랙 크기를 확장하고 더 효율적인 콜드 플레이트 설계를 개발하고 있습니다.

 

Sidecar CDUs are capable of dissipating between 60 kW and 80 kW, but future designs are expected to double or even triple cooling capacity. Meanwhile, the development of liquid-to-liquid in-row CDU systems has enabled cooling performance to exceed 1.3 mW, with further improvements anticipated as demands for computational power continue to rise.

 

현재 사이드카 CDU는 60~80kW의 열을 방출할 수 있지만, 미래 설계에서는 냉각 용량이 두 배 또는 세 배로 증가할 것으로 기대됩니다. 또한, 인로우 CDU 시스템의 액체-액체 설계가 냉각 성능을 1.3mW 이상으로 향상시키는 데 기여하고 있으며, 계산 성능 수요가 계속 증가함에 따라 추가적인 개선이 예상됩니다.

 

-------------------------------------------------

 

Coolant Distribution Unit (CDU)

Coolant Distribution Unit(CDU)는 데이터센터와 같은 환경에서 **액체 냉각 시스템(Liquid Cooling System)**의 핵심 구성 요소로 사용됩니다. CDU는 냉각수를 서버 랙에 분배하고 다시 수집하며, 이를 통해 고온의 열을 효율적으로 제거합니다.

 

고성능 컴퓨팅(HPC), AI 서버, 데이터센터 등 열 밀도가 높은 환경에서 전통적인 공랭 방식이 아닌 액체 냉각 방식이 요구됨에 따라 CDUs의 중요성이 커지고 있습니다.


주요 역할

  1. 냉각수 분배 및 회수:
    • CDUs는 중앙 냉각 시스템에서 공급받은 냉각수를 서버 랙의 냉각 장치(예: 콜드 플레이트 또는 열교환기)로 전달합니다.
    • 냉각된 물을 보내고, 서버에서 열을 흡수한 뜨거운 물을 다시 회수하는 역할을 합니다.
  2. 열 제거:
    • 회수된 뜨거운 물을 외부 냉각 시스템(냉각탑 또는 칠러)으로 전달하여 열을 제거합니다.
    • 효율적인 열 전달을 통해 서버의 과열을 방지합니다.
  3. 압력 및 유량 제어:
    • 냉각수의 압력과 흐름을 조절하여 각 서버 랙이 균일하고 안정적인 냉각 성능을 유지하도록 보장합니다.
  4. 모니터링 및 관리:
    • CDU는 온도, 압력, 유량 등을 실시간으로 모니터링하고 관리합니다.
    • 이상 상황 발생 시 데이터센터 운영자가 문제를 빠르게 해결할 수 있도록 경고를 제공합니다.

구조

CDU는 일반적으로 다음과 같은 구성 요소로 이루어져 있습니다:

  • 펌프: 냉각수를 순환시키는 핵심 장치.
  • 열교환기: 서버에서 회수된 뜨거운 물의 열을 외부로 전달하는 장치.
  • 제어 시스템: 냉각수의 온도, 압력, 유량을 실시간으로 조절.
  • 배관 및 밸브: 냉각수를 서버 랙으로 분배하고 회수하는 관로.

CDU의 주요 유형

  1. Sidecar CDU (랙 측면 설치형):
    • 랙의 측면에 설치되어 각 랙별로 독립적으로 운영.
    • 일반적으로 60~80kW의 냉각 용량을 제공.
  2. In-Row CDU (행 내 설치형):
    • 랙과 랙 사이에 배치되어 여러 랙을 동시에 냉각.
    • 냉각 용량이 더 크며, 1.3mW 이상의 냉각 성능을 제공할 수 있음.
  3. Rack-Integrated CDU:
    • 개별 랙에 내장되어 있으며, 특정 랙의 냉각 성능을 강화.

장점

  • 효율성: 공랭 방식보다 더 높은 열 제거 능력을 제공.
  • 에너지 절감: 데이터센터의 전력 소비를 줄이고 운영 비용 절감.
  • 확장성: 고밀도 서버 랙에서 발생하는 높은 열 부하를 처리 가능.
  • 환경 친화적: 폐열을 외부로 배출하거나 재활용할 수 있는 가능성.

적용 사례

CDU는 특히 다음과 같은 고성능 환경에서 사용됩니다:

  • NVIDIA GB200 NVL72와 같은 고열 발생 서버.
  • AI 훈련 및 추론을 위한 데이터센터.
  • HPC(고성능 컴퓨팅) 클러스터.
  • 클라우드 서비스 제공업체(CSP)의 대규모 데이터센터.

CDU는 데이터센터의 냉각 성능과 에너지 효율성을 크게 향상시키며, 고열 밀도를 처리하는 차세대 서버 인프라에서 필수적인 역할을 하고 있습니다.