엔비디아의 차세대 GPU가 어떻게 AI 추론 시장의 초대형 성장 사이클을 견인하고 있는가(2025.05.29)

yjsunshine 2025. 5. 30. 13:23

2025.05.29

How Nvidia's next-gen GPUs are fueling an inference supercycle

엔비디아, 2026 회계연도 1분기 실적에서 데이터센터 부문 사상 최대 매출 발표

AI 추론과 AI 팩토리 확산이 폭발적 성장 견인

2025년 5월 28일, 엔비디아는 2026 회계연도 1분기 실적 발표에서 데이터센터 부문 매출이 390억 달러를 기록했다고 밝혔다. 이는 전년 동기 대비 73% 증가한 수치로, AI 워크로드 채택 가속화, AI 추론(인퍼런스) 수요 급증, 그리고 전 세계 고객들의 AI 팩토리 구축이 주요 성장 동력으로 작용했다.

블랙웰 아키텍처, 사상 가장 빠른 전환 속도 기록

엔비디아는 이번 분기부터 본격적으로 도입된 신형 블랙웰(Blackwell) 아키텍처가 폭발적 성장을 이끈 핵심이라고 밝혔다. 블랙웰은 엔비디아 역사상 가장 빠른 도입 속도를 기록했으며, 2026년 1분기 데이터센터 컴퓨트 매출의 **약 70%**를 차지했다. 이는 기존 호퍼(Hopper) 아키텍처에서 블랙웰로의 전환이 거의 완료되었음을 보여준다.

GB200 NVL 시스템, 인퍼런스 토큰당 비용 최적화

엔비디아는 이번 실적 발표에서 GB200 NVL 시스템을 “AI 팩토리용 컴퓨팅 아키텍처의 근본적 전환”으로 평가했다.

이 시스템은 대규모 데이터센터 워크로드에 최적화되어 있으며, 인퍼런스 토큰당 비용을 최소화하는 것이 특징이다.

생산 수율은 점차 개선 중이며, 고객사로의 랙 단위 출하도 가속화되고 있다. 현재 GB200 NVL 랙은 모델 개발자, 대기업, 주권국가 등 다양한 고객에게 일반 공급되고 있다.

Major hyperscalers are deploying nearly 1,000 NVL72 racks (72,000 Blackwell GPUs) per week on average and plan to further ramp output in the second quarter of 2026. Microsoft, for example, has already deployed tens of thousands of Blackwell GPUs and plans to ramp to hundreds of thousands.

대형 클라우드 기업들, 주당 1,000대 이상 NVL72 랙 도입 중

마이크로소프트 등 주요 하이퍼스케일러들은 현재 주당 평균 1,000개 NVL72 랙(72,000개 블랙웰 GPU)를 배치 중이며,

회계년도 2026년 2분기에는 공급량을 더욱 확대할 계획이다.
마이크로소프트는 이미 수만 개의 블랙웰 GPU를 설치했으며, 향후 수십만 개로 확대 배치할 계획이다.

참고로 대만의 서버업체 ASRock Inc.는 2024년 한 해 동안 256억 대만달러(약 8억 5,500만 미 달러)의 매출을 기록했습니다.

이 실적은 엔비디아 H100 및 H200 기반의 AI 서버 출하량 증가에 힘입은 것입니다.

특히 2025년 1월부터 4월까지 불과 4개월 만에 156억 대만달러의 매출을 올리며, 작년 전체 매출의 60% 이상을 이미

달성했습니다. 이는 ASRock이 AI 서버 시장에서 빠르게 성장하고 있음을 보여주는 지표로 평가됩니다.

GB300 및 Blackwell Ultra도 출시 준비

엔비디아는 제품 로드맵 또한 차질 없이 진행 중이라고 밝혔다. Blackwell Ultra 및 GB300 시스템은 현재 주요 클라우드 사업자(CSP)에서 샘플링 중이며, 이번 분기 안에 양산 출하를 시작할 예정이다. GB300은 GB200과 같은 아키텍처 및 크기를 유지하면서, HBM이 50% 더 탑재된 B300 GPU를 기반으로 한다.

이에 따라 FP4 추론 성능은 B200 대비 약 50% 향상될 것으로 예상된다.

엔비디아는 2028년까지 매년 신제품을 출시하는 연간 로드맵을 유지할 계획이다.

인퍼런스 수요 폭발 → Reasoning AI, Agentic AI 본격 도입

AI 인프라 수요를 이끄는 가장 핵심 요인은 인퍼런스(추론) 수요의 폭발적 증가다.
오픈AI, 마이크로소프트, 구글 등 고객사는 토큰 생성량이 단계적으로 급증하고 있다고 전했다.

예를 들어 마이크로소프트는 2026년 1분기에만 Azure OpenAI에서 100조 개 이상의 토큰을 처리했는데, 이는 전년 대비 5배 증가한 수치다. 이와 같은 급증은 **문제 해결, 계획 수립, 도구 사용까지 가능한 추론형 AI(Reasoning AI)**와 **자율 에이전트형 AI(Agentic AI)**의 부상과 직접적으로 연결된다. 이러한 모델은 이전 세대보다 수백~수천 배 더 많은 연산량을 요구한다.

Blackwell은 Reasoning AI에 최적화된 ‘생각하는 컴퓨터’

엔비디아는 GB200 NVL72 시스템이 ‘생각하는 컴퓨터’를 구현하기 위한 최적의 플랫폼이라고 강조했다.
기존 호퍼 대비 블랙웰은 인퍼런스 성능이 최대 40배 향상되었으며, 특히 추론 처리량과 속도 면에서 대폭 개선되었다.

또한 엔비디아의 소프트웨어 최적화 기술인 ‘Dynamo’는 블랙웰 NVL72에서 작동하는 신형 Reasoning 모델(Llama 3.1 등)의

처리량을 최대 30배까지 끌어올리는 성과를 보여주었다.

엔비디아는 Hopper 아키텍처에서도 2년간 4배 향상된 전례를 바탕으로, 앞으로도 지속적인 성능 향상을 예고했다.
다양한 AI 스타트업들은 B200을 기반으로 고부가가치 Reasoning 모델을 운영하며 토큰 생산량 및 매출을 빠르게 확대하고 있다.

저작자표시 비영리 (새창열림)