엔비디아-마이크로소프트-AMD-인텔

엔비디아 GB300 서버의 대규모 출하가 9월부터 시작될 것으로 예상(2025.07.18)

yjsunshine 2025. 8. 30. 15:33

2025.07.18

요약:

델(Dell)과 다른 엔비디아 파트너들이 이미 GB300 기반 서버의 초기 생산을 시작했지만,

이들 기계의 대규모 출하는 2025년 9월에야 본격적으로 시작될 것으로 예상된다.

 

DigiTimes는 2025년 4분기에 출하량이 본격적으로 크게 증가할 것으로 전망했다.

-----------------------

 

Large-scale shipments of Nvidia GB300 servers tipped to start in September — GB200 demand remains 'robust' despite widespread coolant leak reports | Tom's Hardware

 

엔비디아 GB300 서버의 대규모 출하가 2025년9월부터 시작될 것으로 예상되며,

광범위한 냉각수 누수 보고에도 불구하고 GB200 수요는 여전히 ‘견조하다’는 평가가 나왔다.

 

DigiTimes 보도에 따르면, 델(Dell)과 아마도 다른 엔비디아 파트너들이 이미 GB300 기반 서버의 초기 생산을 시작했지만,

이들 기계의 대규모 출하는 2025년 9월에야 본격적으로 시작될 것으로 예상된다.

 

이번 출시 과정은 전략적 설계 재사용과 공급망 전반의 개선된 협력 덕분에 이전 세대보다 원활하게 진행될 것으로 전망된다. 다만, 액체 냉각은 여전히 ODM(주문자설계생산)들에게 도전 과제로 남아 있다.

 

Blackwell Ultra 전환

DigiTimes에 따르면 전환 속도를 빠르게 만드는 핵심 요인 중 하나는 엔비디아가 현재 GB200 플랫폼에서 사용된 마더보드 설계를 그대로 유지하기로 한 결정이다. 그러나 그것만이 전부는 아니다. SemiAnalysis에 따르면 엔비디아는 GB300에서 이전보다 훨씬 더 많은 자유를 파트너들에게 부여하면서, 보다 모듈형(modular) 접근 방식을 취하고 있다.

 

GB300에서는 완전히 조립된 마더보드를 제공하는 대신, 엔비디아가 B300 GPU를 SXM Puck 모듈 형태로, Grace CPU를 별도의 BGA 패키지로, 그리고 Axiado의 HMC(Hardware Management Controller)를 따로 공급한다. 고객사들은 나머지 마더보드 부품을 직접 조달하게 되며, CPU 메모리는 다양한 업체에서 구매 가능한 표준 SOCAMM 메모리 모듈을 사용한다.

(GB300에는 블랙웰울트라 GPU 2개와 그레이스 CPU 1개가 조합을 이루는데, 여기서 블랙웰울트라 GPU와 결합하는 것이 HBM3E 12단 메모리이고 그레이스  CPU와 결합하는 것이 소캠 메모리 모듈이다, 소캠 이전에는 DDR5메모리가 결합됐었다.)

 

다만 엔비디아는 기존과 마찬가지로 스위치 트레이와 구리 백플레인은 계속 제공한다. 이러한 재사용 전략은 전체 재설계의 필요성을 없애 생산 과정을 단순화하고 위험을 줄인다.

 

반면 GB200의 경우 엔비디아가 ‘Bianca’ 마더보드 전체를 제공했는데, 여기에는 B200 GPU, Grace CPU, 512GB LPDDR5X 메모리, 전력 공급 부품 등이 단일 PCB(인쇄회로기판)에 통합되어 있었다. 이 시스템에서도 엔비디아는 스위치 트레이와 구리 백플레인을 함께 제공했다.

 

현재 GB300이 검증 및 초기 생산 단계에 들어선 가운데, ODM 업체들은 특별한 장애 요소가 없다고 보고하고 있다고

DigiTimes는 전했다. 파트너사들의 피드백에 따르면 부품 인증이 계획대로 진행되고 있으며, 엔비디아는 3분기 내내

생산량을 꾸준히 늘려갈 준비가 되어 있다. DigiTimes는 2025년 4분기에 출하량이 본격적으로 크게 증가할 것으로 전망했다.

 

컴퓨트 보드의 핵심 공급업체인 위스트론(Wistron)은 세대 교체기인 GB200과 GB300의 겹침으로 인해 이번 분기 매출은

정체될 것이라고 밝혔다. 그러나 긍정적인 점은, 이번 전환 과정이 이전 세대 플랫폼 전환 때보다 훨씬 원활하게

진행되고 있다는 점이다.

 

당시에는 엔비디아의 실리콘 문제, 고밀도 서버 설계, 냉각 요건 등으로 인해 여러 차례 지연을 겪었지만,

이제 서버 ODM들은 이러한 도전 과제를 관리하는 방법을 상당 부분 학습한 것으로 보인다.

 

냉각 누수 문제

DigiTimes에 따르면 GB200은 대규모로 데이터센터에 출하되고 있지만, 액체 냉각 시스템에서 지속적인 문제가 발생하고 있다. 주요 고장은 ‘퀵 커넥트(quick-connect) 피팅’ 부품에서 발생하는데, 이들은 공장 내 스트레스 테스트를 거쳤음에도 불구하고 누수가 발생하는 경향을 보이고 있다.

 

이에 데이터센터 운영자들은 국소적 셧다운(localized shutdown)이나 대규모 누수 테스트 같은 대응책을 도입했으며, 사실상 하드웨어의 안정성보다는 배치 속도와 성능을 우선시하는 방향으로 운영하고 있는 상황이다.

 

GB300 이후

엔비디아는 차세대 AI 서버 플랫폼인 코드명 Vera Rubin을 준비하고 있다. 이 플랫폼은 두 단계로 출시될 예정이다.

 

첫 번째 단계에서는 Grace CPU가 Vera CPU로, Blackwell GPU가 Rubin GPU로 교체되지만, 현행 오베론(Oberon) 랙은 그대로 유지된다. 다만 새로운 NVL144라는 이름으로 불리게 되며, 이는 72개의 듀얼 컴퓨트 칩렛 GPU 패키지를 사용한다.

 

두 번째 단계에서는 완전히 새로운 Kyber 랙이 도입되는데, 여기에는 Vera CPU와 4개의 컴퓨트 칩렛을 갖춘 Rubin Ultra GPU가 탑재된다.

 

루빈(Rubin) GPU는 블랙웰(Blackwell) GPU보다 전력 소모가 더 클 것으로 예상되기 때문에, 차세대 플랫폼은 액체 냉각 의존도가 한층 더 높아질 전망이다. DigiTimes 보도에 따르면 성능 확보를 위해 액체 냉각은 필수적이지만, 안정적으로 구현하는 것은 여전히 어려운 과제로 남아 있다.

 

GB200 시스템 사례에서도 배관(plumbing) 구성이나 배치 환경별 수압 차이 때문에 누수를 완전히 없애기 어렵다는 점이 드러났으며, 이로 인해 배치 이후 상당한 서비스 작업과 인건비가 추가로 발생하는 상황이 이어지고 있다.