엔비디아의 최신 기술, 데이터센터를 하나의 거대한 GPU로(2025.08.22)
2025.08.22
Nvidia's latest tech will let companies turn data centers into one massive GPU
엔비디아의 최신 기술로 기업들은 데이터센터를 하나의 거대한 GPU로 만들 것이다.
( 엔비디아 최신 기술로 기업들은 데이터센터를 하나의 거대한 GPU처럼 활용할 수 있다.)
Tech companies are building massive data centers around the world as they race to meet booming AI demand. But some data centers, especially older ones, can only pump in so much power to keep those GPUs and servers humming. Nvidia’s (NVDA) solution: combine the performance of multiple data centers to create one massive GPU.
AI 수요가 폭발적으로 증가하면서 전 세계적으로 초대형 데이터센터가 지어지고 있다. 그러나 일부 구형 데이터센터는 전력 공급에 한계가 있어 GPU와 서버를 원하는 만큼 가동하기 어렵다. 엔비디아(NVDA)의 해법은 여러 데이터센터의 성능을 결합해 하나의 거대한 GPU처럼 만드는 것이다.
이 계획의 핵심은 새롭게 공개된 Spectrum-XGS 네트워크 스위치다. 여기서 ‘GS’는 기가스케일(gigascale)을 의미한다. 기존의 Spectrum-X 스위치는 단일 데이터센터 안에서 여러 GPU 서버 노드를 묶어 하나의 네트워크형 GPU처럼 동작시킬 수 있었다.
반면, Spectrum-XGS는 이를 넘어 여러 데이터센터를 연결한다. 엔비디아 측은 Spectrum-XGS가 새로운 하드웨어가 아니라 기존 장비와 새로운 알고리즘을 활용해 더 먼 거리에서도 데이터를 전송할 수 있도록 한다고 설명했다.
엔비디아 가속컴퓨팅 제품 담당 이사 데이브 살바토르는 다음과 같이 말했다.
“많은 데이터센터가 실제로 전력 제한에 걸려 있습니다. 즉, 한 데이터센터 안에 상당한 컴퓨팅 파워를 넣을 수는 있지만 결국 전력 공급 한계에 부딪히게 됩니다. 이런 문제의 해법 중 하나가 바로 멀티 사이트 데이터센터 스케일입니다. 이번 스위치는 여러 데이터센터가 서로 통신하면서 사실상 하나의 거대한 GPU처럼 동작하도록 설계된 것이죠.”
엔비디아에 따르면 이러한 초대형 데이터센터 구조는 시간이 지남에 따라 개발자들이 훨씬 더 야심적인 ‘에이전틱 AI(Agentic AI)’ 애플리케이션을 학습·배포할 수 있도록 한다. 이는 데이터센터를 적게 지어도 된다는 의미는 아니지만, 새로 짓는 데이터센터들을 서로 결합해 훨씬 높은 성능을 낼 수 있다는 뜻이다.
이번 발표는 엔비디아가 2분기 실적을 공개하기 불과 며칠 전 나온 것이다. 실적 발표는 월가에 엔비디아의 지속적인 매출 성장과 AI 시장 전반의 건전성을 가늠할 기회를 제공할 전망이다.
---------------------------------
이번에 발표된 엔비디아 Spectrum-XGS 기술의 심화적인 기술적 의미를 설명드리겠습니다.
1. 기존 Spectrum-X와의 차이
- Spectrum-X: 단일 데이터센터 내부에서 여러 GPU 서버 노드를 묶어 네트워크로 연결해 “하나의 GPU 클러스터”처럼 동작시킵니다.
- Spectrum-XGS (Gigascale): 데이터센터 간 연결까지 확장합니다. 즉, 데이터센터 경계를 넘어 수백 km 떨어진 시설들까지 하나의 거대한 GPU 자원처럼 묶을 수 있습니다.
이 차이는 데이터 전송 알고리즘의 개선과 네트워크 프로토콜 최적화를 통해 가능해졌습니다.
단순히 케이블만 연결하는 것이 아니라, 지연(latency) 최소화, 패킷 손실 방지, 동기화 알고리즘을 적용해야 합니다.
2. 전력 제약 해결 방식
오늘날 많은 데이터센터가 전력 공급 한계에 직면합니다. GPU 서버를 더 추가하고 싶어도, 변전소 용량이나 냉각 효율 때문에 불가능한 경우가 많습니다.
- 엔비디아의 해법은 멀티 사이트 분산 배치입니다.
- 전력을 분산해 여러 지역 데이터센터를 건설하고, 이를 Spectrum-XGS 네트워크로 묶으면 마치 하나의 거대한 슈퍼컴퓨터처럼 동작합니다.
- 이는 “하이퍼스케일 데이터센터” 개념을 한 단계 더 발전시켜, 초지역적(super-regional) GPU 인프라로 확장한 것이라 볼 수 있습니다.
3. 네트워크 아키텍처와 알고리즘
Spectrum-XGS의 핵심은 기존 하드웨어를 활용하면서, 소프트웨어와 펌웨어 알고리즘 개선을 통해 성능을 끌어올린 점입니다.
- RoCE (RDMA over Converged Ethernet) 기반 최적화 → GPU 간 대량 데이터를 빠르게 교환 가능
- 분산 스케줄링 알고리즘 → 여러 데이터센터의 GPU 메모리와 연산을 하나의 자원 풀처럼 관리
- 지연 보정(latency compensation) → 지리적으로 떨어진 데이터센터 간의 시간차를 줄여 안정적인 AI 훈련 가능
이런 기술은 단순한 데이터 전송이 아니라, **AI 모델 학습 시 필요한 동기화(예: 파라미터 업데이트, 그래디언트 교환)**를 효율적으로 처리하는 데 핵심입니다.
4. 응용 분야 – Agentic AI
엔비디아가 강조하는 **“에이전틱 AI(Agentic AI)”**는 단순한 챗봇이나 이미지 생성이 아닌, 자율적으로 의사결정하고 복잡한 작업을 수행하는 AI를 의미합니다.
- 이 AI는 훨씬 더 많은 데이터와 모델 파라미터가 필요합니다.
- 단일 데이터센터 규모로는 한계가 있으므로, 멀티 데이터센터 슈퍼GPU가 필요합니다.
- 예: 대규모 시뮬레이션, 글로벌 언어 모델 학습, 로봇 자율성 강화, 디지털 트윈 구축 등
5. 경쟁 및 시장 영향
- 엔비디아는 GPU-서버-네트워크-소프트웨어까지 수직 통합 전략을 취하고 있습니다.
- Spectrum-XGS는 네트워크 장비 분야에서 Cisco, Arista 같은 기업과의 경쟁으로 이어질 수 있습니다.
- 동시에, AI 슈퍼컴퓨터를 직접 구축하려는 마이크로소프트, 구글, 아마존 같은 클라우드 기업들에게 매력적인 선택지가 됩니다.
정리하자면, **Spectrum-XGS는 단순히 네트워크 장비가 아니라 “멀티 데이터센터를 하나의 GPU로 묶는 슈퍼컴퓨팅 아키텍처”**입니다. 앞으로 엔비디아가 AI 인프라 시장에서 GPU뿐 아니라 네트워크까지 지배하려는 의도가 뚜렷하게 드러나는 기술이라 볼 수 있습니다.
----------------
Spectrum-XGS는 여러 개의 데이터센터를 ‘스케일-어크로스(scale-across)’로 묶어 하나의 거대한 AI 팩토리처럼 동작하게 하는 이더넷 네트워킹 기술입니다.
엔비디아는 거리-적응 혼잡제어, 정밀 지연 관리, E2E 텔레메트리로 지리적으로 분산된 클러스터에서 NCCL 성능을 ‘거의 2배’까지 끌어올린다고 밝혔고, 코어위브(CoreWeave)가 초기 도입사로 언급됐습니다.
이건 단일 부지의 전력 한계 때문에 막혔던 GPU 확장을 ‘멀티 사이트’로 풀어주는 해법이라, 총 GPU 설치량과 가동률(=실제 돌려 쓰는 시간)을 함께 끌어올릴 가능성이 큽니다. 그만큼 HBM 수요엔 구조적 순풍입니다. NVIDIA Newsroom
왜 HBM 수요에 직접적인 플러스인가
- 전력 한계 우회 → 총 GPU 수 증가
미국·유럽의 전력망 제약과 접속 지연 때문에 단일 캠퍼스에서 더 못 늘리던 GPU를 권역별로 나눠 짓고 네트워크로 묶어 한 클러스터처럼 쓰게 됩니다.
이는 결과적으로 가동 가능한 GPU 수를 키우는 방향이고, GPU 한 개당 HBM 용량이 커지는 추세(예: 블랙웰 세대의 대용량 구성)와 곱해지면 HBM 비트 수요는 기하급수적으로 불어납니다. 전력망 병목은 최근 보도에서도 반복적으로 확인되고 있습니다. Reuters+1 - 대규모·장주기 학습이 쉬워짐 → 메모리 대역폭/용량 의존도 상승
멀티-사이트에서도 집단통신(NCCL) 성능을 크게 끌어올렸다는 점은, 모델/샤드가 거대할수록 중요해집니다. 초거대·에이전틱 AI 학습은 본질적으로 메모리 대역폭과 용량에 민감하고, 시스템 성능의 병목은 점점 메모리 서브시스템으로 쏠립니다. 그래서 HBM의 전략적 중요성은 더 커집니다. NVIDIA NewsroomSemiconductor Engineering - 이더넷 가속의 보급력 → 구축 속도↑, 총 수요 저변 확대
Spectrum-X는 800Gbps급 포트까지 지원하는 최신 스펙트럼 SN5000 시리즈 스위치와 ConnectX SuperNIC을 묶은 ‘가속 이더넷’ 철학입니다. 인피니밴드 대비 조달·운영 생태계가 넓은 이더넷의 장점이 멀티-사이트까지 확장되면, 신규 AI 팩토리의 착공-준공 속도가 빨라지고 HBM이 실수요로 전환되는 속도도 붙습니다. NVIDIA
참고로 HBM TAM은 2024년 약 180억 달러 → 2025년 약 350억 달러로 ‘두 배’ 근접 성장을 전망한다는 경영진 발언도 있어, 네트워크 측 확장이 이 흐름을 더 밀어줄 가능성이 큽니다. The Next Platform