엔비디아의 루빈과 루빈 CPX(2025.09.13)

엔비디아-마이크로소프트-AMD-인텔

엔비디아의 루빈과 루빈 CPX(2025.09.13)

yjsunshine 2025. 9. 13. 13:17

2025.09.13

출시 시기
NVIDIA Rubin CPX는 2026년 말 출시될 예정입니다.

-------------------------

2025.09.09

NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference | NVIDIA Newsroom

엔비디아, 대규모 컨텍스트 추론을 위해 설계된 새로운 클래스의 GPU ‘Rubin CPX’ 공개

뉴스 요약:

NVIDIA Rubin CPX GPU는 백만 토큰 규모의 코딩 및 생성형 비디오 애플리케이션을 처리하기 위해 특별히 설계되었습니다.

NVIDIA Vera Rubin NVL144 CPX 플랫폼은 단일 랙에서 **8 엑사플롭스(ExaFLOPS)**의 AI 성능과

100TB의 초고속 메모리를 제공합니다.

기업들은 1억 달러 투자당 50억 달러의 토큰 매출을 창출할 수 있을 만큼 전례 없는 규모로 수익을 창출할 수 있습니다.

Cursor, Runway, Magic과 같은 AI 혁신 기업들이 Rubin CPX를 활용해 자사 애플리케이션을 가속화할 방법을 모색하고 있습니다.

AI 인프라 서밋(AI Infra Summit) — 엔비디아®는 오늘, 대규모 컨텍스트 처리를 위해 특별히 설계된 새로운 클래스의 GPU NVIDIA Rubin CPX를 발표했습니다. 이를 통해 AI 시스템은 백만 토큰 규모의 소프트웨어 코딩 및 생성형 비디오 작업을 혁신적인 속도와 효율성으로 처리할 수 있습니다.

Rubin CPX는 새로운 NVIDIA Vera Rubin NVL144 CPX 플랫폼 내부에서 NVIDIA Vera CPU 및 Rubin GPU와 긴밀히 연동됩니다.

이 통합형 NVIDIA MGX 시스템은 단일 랙에서 **8 엑사플롭스(ExaFLOPS)**의 AI 연산 성능을 제공해, NVIDIA GB300 NVL72 시스템 대비 7.5배 더 높은 AI 성능을 발휘하며, 100TB의 초고속 메모리와 초당 1.7PB의 메모리 대역폭을 갖추고 있습니다. 또한 기존 Vera Rubin NVL144 시스템을 재사용하려는 고객을 위해 전용 Rubin CPX 연산 트레이도 제공될 예정입니다.

( NVL144 CPX 랙은 144개의 Rubin CPX와 144개의 Rubin GPU가 1:1로 배치되어, 총 288 GPU + 36 Vera CPU가 단일 랙 안에서 함께 동작하는 완전한 추론 전용 플랫폼을 형성합니다.)

엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “Vera Rubin 플랫폼은 AI 컴퓨팅의 최전선을 또 한 번 도약시키며, 차세대 Rubin GPU와 CPX라는 새로운 프로세서 카테고리를 함께 선보이게 될 것”이라며, “RTX가 그래픽스와 물리 기반 AI를 혁신했듯, Rubin CPX는 한 번에 수백만 토큰의 지식을 추론하는 ‘대규모 컨텍스트 AI’를 위해 처음으로 설계된 CUDA GPU”라고 말했습니다.

NVIDIA Rubin CPX는 긴 문맥 처리에서 최고 수준의 성능과 토큰 수익을 제공하여, 오늘날 시스템이 설계된 한계를 훨씬 뛰어넘습니다. 이를 통해 AI 코딩 어시스턴트를 단순한 코드 생성 도구에서 대규모 소프트웨어 프로젝트를 이해하고 최적화할 수 있는 정교한 시스템으로 변모시킵니다.

비디오를 처리하려면 AI 모델이 1시간 분량의 콘텐츠에 대해 최대 100만 토큰을 사용할 수 있으며, 이는 기존 GPU 연산 능력의 한계를 시험하는 수준입니다. Rubin CPX는 비디오 디코더·인코더와 긴 문맥(long-context) 추론 처리를 하나의 칩에 통합해, 비디오 검색이나 고품질 생성형 비디오 같은 장편(long-format) 애플리케이션에서 전례 없는 기능을 제공합니다.

NVIDIA Rubin 아키텍처를 기반으로 구축된 Rubin CPX GPU는 비용 효율적인 단일 다이(monolithic die) 설계를 채택했으며, 강력한 NVFP4 연산 자원을 내장하고 있어 AI 추론 작업에서 매우 높은 성능과 전력 효율을 발휘하도록 최적화되었습니다.

Rubin CPX가 제공하는 혁신

Rubin CPX는 NVFP4 정밀도 기준 최대 30 PFLOPS의 연산 성능을 제공하여 최고 수준의 성능과 정확도를 달성합니다. 또한 128GB의 비용 효율적인 GDDR7 메모리를 탑재해 가장 까다로운 컨텍스트 기반 워크로드를 가속화합니다.

여기에 더해, NVIDIA GB300 NVL72 시스템 대비 3배 빠른 어텐션(attention) 처리 속도를 제공하여, 속도 저하 없이 더 긴 컨텍스트 시퀀스를 처리할 수 있도록 지원합니다.

Rubin CPX는 Vera Rubin NVL144 CPX를 포함한 여러 구성으로 제공되며, 이를 NVIDIA Quantum-X800 InfiniBand 스케일아웃 컴퓨트 패브릭 또는 NVIDIA Spectrum-X™ 이더넷 네트워킹 플랫폼(Spectrum-XGS 이더넷 기술, NVIDIA ConnectX®-9 SuperNIC™ 지원)과 결합할 수 있습니다.

Vera Rubin NVL144 CPX는 기업이 전례 없는 규모로 수익을 창출할 수 있게 해 주며, 1억 달러 투자당 최대 50억 달러의 토큰 매출을 가능하게 합니다.

업계 리더들이 주목하는 Rubin CPX

AI 혁신 기업들은 Rubin CPX가 대규모 소프트웨어 개발부터 동적 시각 콘텐츠 분석까지 다양한 애플리케이션을 가속해, 움직이는 이미지를 더 잘 이해할 수 있도록 어떻게 도움을 줄 수 있을지 탐구하고 있습니다.

AI 기반 고급 코드 에디터를 제공하는 소프트웨어 기업 Cursor는 Rubin CPX가 지능형 코드 생성과 협업 도구를 코딩 환경에 직접 통합해, 개발자 생산성을 높이는 데 큰 이점이 있다고 보고 있습니다.

Cursor CEO 마이클 트루엘(Michael Truell)은

“NVIDIA Rubin CPX를 통해 Cursor는 번개 같은 속도의 코드 생성과 개발자 인사이트를 제공하여 소프트웨어 개발을 혁신할 수 있을 것입니다. 이를 통해 과거에는 불가능했던 아이디어 구현 속도를 열어주고, 사용자들이 새로운 수준의 생산성을 경험하게 할 것입니다.”

라고 밝혔습니다.

미국의 생성형 AI 기업 Runway는 NVIDIA 기술을 활용해 창작자들이 전례 없는 규모와 효율성으로 영화 수준의 콘텐츠와 정교한 시각 효과를 제작할 수 있도록 할 계획입니다.

Runway CEO 크리스토발 발렌수엘라(Cristóbal Valenzuela)는

“비디오 생성은 점점 더 긴 컨텍스트와 유연한 에이전트 기반 창작 워크플로우를 향해 빠르게 발전하고 있습니다. 우리는 Rubin CPX가 성능 면에서 큰 도약을 제공해 이러한 까다로운 워크로드를 지원하고, 더 범용적이고 지능적인 창작 도구를 구축할 수 있도록 도울 것이라 보고 있습니다. 이를 통해 독립 아티스트부터 대형 스튜디오까지 모든 창작자가 전례 없는 속도, 사실감, 통제력을 누리게 될 것입니다.”

라고 말했습니다.

Magic 소개 및 Rubin CPX 활용 계획

Magic은 소프트웨어 엔지니어링을 자동화할 수 있는 AI 에이전트를 구동하기 위해 **기초 모델(foundation model)**을 개발하는 AI 연구·제품 회사입니다.

Magic의 CEO 에릭 스타인버거(Eric Steinberger)는 이렇게 말했습니다.

“1억 토큰의 컨텍스트 윈도우를 활용하면, 우리 모델은 코드베이스와 수년간의 상호작용 기록, 문서, 라이브러리를 파인튜닝 없이 컨텍스트 안에서 모두 볼 수 있습니다. 이를 통해 사용자는 테스트 단계에서 대화와 환경 접근을 통해 에이전트를 코치할 수 있고, 이는 우리를 자율적 에이전트 경험에 한층 더 가깝게 만듭니다. NVIDIA Rubin CPX 같은 GPU를 사용하면 우리의 연산 워크로드가 크게 가속됩니다.”

소프트웨어 지원

NVIDIA Rubin CPX는 가속 인프라부터 엔터프라이즈급 소프트웨어까지 포함한 NVIDIA AI 스택 전체의 지원을 받습니다. NVIDIA Dynamo 플랫폼은 AI 추론을 효율적으로 확장해 처리량을 획기적으로 높이고, 응답 시간과 모델 서빙 비용을 줄여 줍니다.

이 프로세서들은 엔터프라이즈용 AI 에이전트를 위해 최첨단 추론 능력을 제공하는 NVIDIA Nemotron™ 멀티모달 모델 제품군의 최신 모델을 실행할 수 있습니다.

프로덕션급 AI를 위해 Nemotron 모델은 NVIDIA AI Enterprise 소프트웨어 플랫폼을 통해 제공되며, 이 플랫폼에는 NVIDIA NIM™ 마이크로서비스와 더불어 AI 프레임워크, 라이브러리, 도구들이 포함되어 있어 기업이 NVIDIA 가속 클라우드, 데이터센터, 워크스테이션에서 쉽게 배포할 수 있습니다.

수십 년간의 혁신을 기반으로 구축된 Rubin 플랫폼은 NVIDIA CUDA-X™ 라이브러리, 600만 명 이상의 개발자 커뮤니티, 약 6,000개의 CUDA 애플리케이션을 포함한 NVIDIA 개발자 생태계를 확장합니다.

출시 시기
NVIDIA Rubin CPX는 2026년 말 출시될 예정입니다.

자세한 내용은 9월 9일 오전 10시(태평양시간, PT) AI Infra Summit에서 진행되는 NVIDIA 하이퍼스케일·HPC 담당 부사장 **이안 벅(Ian Buck)**의 기조연설을 시청해 주십시오.
(한국 시간 기준: 9월 10일 오전 2시 KST)

--------------------------------

정리

루빈은 학습·훈련에 초점을 맞춰 고성능과 높은 대역폭이 필요한 워크로드에 적합합니다.
루빈 CPX는 추론 전용으로, 긴 문맥 처리나 대량 토큰 생성에서 속도와 효율성을 높이고, GDDR7 메모리로 비용 부담을 줄였습니다.

수치적 예측치

HBM4 스택 하나(2048-bit 인터페이스, 6.4-8.0 GT/s) → 약 2 TB/s 대역폭 가능성 제안됨.
GDDR7은 일반적으로 개별 칩 단위에서 32 Gbps/pin 시작, 이후 36-48 Gbps/pin 가능한 제품들에서 개당 대역폭이 128-192 GB/s 수준일 수 있음. Rambus+1

예를 들어 동일한 메모리 버스 폭을 가정했을 때, GDDR7 쪽이 속도(핀당)에서는 앞설 수 있지만 전체 버스 폭이 작거나 병렬 연결/패키지 수가 제한되면 HBM4 쪽이 종합 대역폭에서 우위일 가능성이 높습니다.

결론

HBM4은 극한의 대역폭, 병렬 처리, 낮은 지연, 고밀도 스택을 필요로 하는 워크로드에서는 매우 유리합니다.
특히 AI 학습, HPC, 대형 생성형 모델 학습/파인튜닝 등의 작업에서 효과가 클 것입니다.
GDDR7은 비용 대비 성능, 가성비, 추론 중심 작업, 소비 전력 제약이 있는 환경 (예: 엣지 서버, 클라우드 추론 노드)에서
유리합니다. 문맥 길이가 상대적으로 길지 않거나, 전체 시스템 메모리 대역폭 요구치가 HBM 급은 아닌 경우에는
충분한 성능을 낼 수 있습니다.

---------------------------------

NVIDIA Rubin CPX Accelerates Inference Performance and Efficiency for 1M+ Token Context Workloads | NVIDIA Technical Blog

NVIDIA Rubin CPX, 1백만 토큰 이상 문맥 처리를 위한 추론 성능 및 효율성 가속

발행일: 2025년 9월 9일 NVIDIA Developer+1
글쓴이: Joe DeLaere, Kirthi Devleker, Eduardo Alvarez NVIDIA Developer

AI에서 추론(Inference)은 이제 새로운 복잡성의 최전선으로 떠올랐습니다. 최신 모델들은 다단계 추론, 지속적 메모리, 장기 문맥(long-horizon context)을 갖춘 **에이전틱 시스템(agentic systems)**으로 진화하고 있으며, 이를 통해 소프트웨어 개발, 비디오 생성, 심층 연구 등 다양한 분야에서 복잡한 과제를 해결할 수 있게 되었습니다.

이러한 워크로드는 인프라에 전례 없는 부담을 가하며, 연산, 메모리, 네트워킹 측면에서 새로운 난제를 제기하고 있습니다. 따라서 추론을 확장하고 최적화하는 방식을 근본적으로 다시 생각해야 하는 상황입니다.

이러한 과제 중에서도, 특정 범주의 워크로드에서 **방대한 컨텍스트(context)**를 처리하는 것은 점점 더 중요해지고 있습니다. 예를 들어 소프트웨어 개발에서는 AI 시스템이 전체 코드베이스를 이해하고, 파일 간 의존성을 유지하며, 저장소 단위의 구조까지 파악해야 합니다.

이로써 코딩 보조 도구는 단순한 자동완성 기능을 넘어 지능형 협업자로 변모합니다. 비슷하게, 장편 비디오나 연구 애플리케이션도 수백만 개 토큰에 걸쳐 일관성과 메모리를 유지해야 합니다. 이런 요구사항은 현재 인프라가 감당할 수 있는 한계를 밀어붙이고 있습니다.

이 변화를 해결하기 위해 NVIDIA는 SMART 프레임워크를 제시하고 있습니다. 이 프레임워크는 확장성(scale), 다차원적 성능(performance), 아키텍처, 투자 대비 수익(ROI), 더 넓은 기술 생태계 등 전 영역에서 추론을 최적화할 수 있는 길을 제공합니다.

또한 컴퓨트와 메모리 자원을 효율적으로 배분할 수 있는 풀스택 분리형(disaggregated) 인프라를 강조합니다. NVIDIA Blackwell, NVIDIA GB200 NVL72 플랫폼, 저정밀 추론을 위한 NVFP4, 그리고 NVIDIA TensorRT-LLM과 NVIDIA Dynamo 같은 오픈소스 소프트웨어의 결합은 AI 전반의 추론 성능을 재정의하고 있습니다.

Rubin CPX는 장기 문맥(long-context) AI 워크로드의 요구를 더 높은 효율성과 ROI로 충족하기 위해 설계된 특수 GPU입니다.

분리형 추론(Disaggregated inference): AI 복잡성에 대한 확장 가능한 접근법

추론(Inference)은 **컨텍스트 단계(context phase)**와 **생성 단계(generation phase)**라는 두 개의 뚜렷이 구분되는 단계로 이루어져 있으며, 각각 인프라에 근본적으로 다른 요구를 부과합니다.

컨텍스트 단계는 연산 집약적(compute-bound)으로, 대량의 입력 데이터를 빠른 속도로 수집·분석해 첫 번째 토큰 출력 결과를 만들어내기 위해 높은 처리량(high-throughput)이 필요합니다.
반대로 생성 단계는 메모리 대역폭(memory bandwidth)에 의존적이며, 토큰별(token-by-token) 출력 성능을 유지하려면 NVLink 같은 고속 메모리 전송 및 초고속 인터커넥트가 필요합니다.

분리형 추론(disaggregated inference)은 이 두 단계를 독립적으로 처리할 수 있게 하여, 컴퓨트 자원과 메모리 자원을 각각의 요구에 맞춰 최적화할 수 있도록 해줍니다. 이러한 아키텍처적 변화는 처리량을 높이고, 지연(latency)을 줄이며, 전체 자원 활용도를 개선합니다(그림 1 참조).

하지만 분리형 아키텍처는 새로운 복잡성을 동반합니다. 초저지연 KV 캐시 전송, LLM 인식 라우팅(LLM-aware routing), 효율적인 메모리 관리 등 여러 요소가 정밀하게 조율되어야 합니다.

NVIDIA Dynamo는 이러한 구성 요소들을 조율하는 오케스트레이션 계층으로서, 최신 MLPerf Inference 결과에서 중요한 역할을 했습니다. GB200 NVL72에서 Dynamo와 함께 분리형 추론을 구현해 새로운 성능 기록을 세운 과정을 확인해 보실 수 있습니다.

분리형 추론의 장점을 최대한 활용하려면, 특히 연산 집약적인 컨텍스트 단계에서 전용 가속기가 필수적입니다. 이러한 요구를 해결하기 위해 NVIDIA는 Rubin CPX GPU를 선보이고 있습니다.

Rubin CPX는 가치 높은 긴 문맥(long-context) 추론 워크로드에서 높은 처리량 성능을 제공하도록 설계되었으며,

분리형 인프라에 매끄럽게 통합될 수 있는 솔루션입니다.

Rubin CPX: 긴 문맥(long-context) 처리를 가속하도록 설계

Rubin CPX GPU는 긴 문맥 처리 성능을 강화하도록 설계되어, 기존 인프라를 보완하면서 확장 가능한 효율성과 컨텍스트 인식 추론(context-aware inference) 배포에서 최대의 ROI(투자 대비 수익)를 제공합니다.

Rubin 아키텍처 기반으로 제작된 Rubin CPX는 추론 과정 중 연산 집약적인 컨텍스트 단계에서 획기적인 성능을 제공합니다. 이 GPU는 30 PFLOPs급 NVFP4 연산 성능, 128 GB GDDR7 메모리, 비디오 디코딩·인코딩 하드웨어 지원, 기존 NVIDIA GB300 NVL72 대비 3배 향상된 어텐션(attention) 가속을 갖추고 있습니다.

긴 시퀀스를 효율적으로 처리하도록 최적화된 Rubin CPX는 소프트웨어 애플리케이션 개발, 고해상도 비디오 생성 같은 고부가가치 추론 워크로드에서 핵심적 역할을 합니다. 기존 분리형 추론 아키텍처를 보완하도록 설계되어, 처리량과 응답성을 높이면서 대규모 생성형 AI 워크로드에서 ROI를 극대화합니다.

Rubin CPX는 생성 단계(generation phase) 처리를 담당하는 NVIDIA Vera CPU와 Rubin GPU와 협력하여 긴 문맥 워크로드를 위한 완전한 고성능 분리형 추론 솔루션을 구성합니다.

NVIDIA Vera Rubin NVL144 CPX 랙은 144개의 Rubin CPX GPU, 144개의 Rubin GPU, 36개의 Vera CPU를 통합해, 단일 랙에서 8 EFLOPs(엑사플롭스) NVFP4 연산 성능—GB300 NVL72 대비 7.5배—을 제공하며, 100 TB 고속 메모리와 초당 1.7 PB의 메모리 대역폭을 함께 제공합니다.

NVIDIA Quantum-X800 인피니밴드(InfiniBand) 또는 Spectrum-X 이더넷(Ethernet)과, NVIDIA ConnectX-9 SuperNIC을 조합하고 Dynamo 플랫폼이 이를 오케스트레이션함으로써, Vera Rubin NVL144 CPX는 차세대 백만 토큰 규모(long-context) AI 추론 워크로드를 구동할 수 있도록 설계되었습니다. 이를 통해 추론 비용을 절감하고 전 세계 개발자와 크리에이터들에게 새로운 고급 기능을 제공합니다.

대규모 배치 환경에서 이 플랫폼은 **투자 대비 30~50배의 수익(ROI)**을 달성할 수 있으며, 1억 달러의 설비 투자(CAPEX)로 최대 50억 달러의 매출을 창출할 수 있는 수준입니다.

분리형 인프라, 하드웨어 가속, 풀스택 오케스트레이션을 결합함으로써 Vera Rubin NVL144 CPX는 차세대 생성형 AI 애플리케이션을 구축하려는 기업들이 달성할 수 있는 경제성과 성능의 새로운 기준을 제시합니다.

요약

NVIDIA Rubin CPX GPU와 NVIDIA Vera Rubin NVL144 CPX 랙은 SMART 플랫폼 철학을 구현한 대표적인 사례로, 아키텍처 혁신과 생태계 통합을 통해 확장 가능한 다차원 성능과 높은 ROI를 제공합니다.

NVIDIA Dynamo에 의해 구동되고, 초대형 컨텍스트 처리를 위해 설계된 이 플랫폼은 고급 소프트웨어 코딩, 생성형 비디오 등 새로운 AI 워크로드를 위한 풀스택 AI 인프라의 새로운 기준을 세우며, 더 많은 가능성을 열어줍니다.

--------------------

엔비디아, 추론 특화 루빈 CPX 공개.. HBM대신 GDDR7 탑재

엔비디아가 AI코딩과 비디오 생성과 같은 추론에 특화된 새로운 GPU 제품을 공개했다. 기존의 베라루빈 플랫폼에 추가로 적용되는 형태로 HBM이 아닌 GDDR7이 탑재된다. 엔비디아는 9일(현지시간)

v.daum.net

저작자표시 비영리 (새창열림)