‘Groq 3 LPU’와 Groq 기반 LPX 랙을 Rubin 플랫폼에 추가(2026.03.18)

2026.03.18

Nvidia Groq 3 LPU and Groq LPX racks join Rubin platform at GTC — SRAM-packed accelerator boosts 'every layer of the AI model on every token' | Tom's Hardware

엔비디아(NVIDIA)는 ‘Groq 3 LPU’와 Groq 기반 LPX 랙을 Rubin 플랫폼에 추가하며, 차세대 AI 데이터센터의 성능을 한층 끌어올릴 준비를 하고 있다. 이 새로운 SRAM 중심 가속기는 “모든 토큰 처리 과정에서 AI 모델의 모든 레이어를 가속한다”는 특징을 내세운다.

엔비디아의 CEO 젠슨 황(Jensen Huang)이 부르는 이른바 ‘AI 공장(AI factory)’의 핵심이 될 Vera Rubin 플랫폼은, 올해 말 본격적으로 공급되기 시작하면서 차세대 AI 데이터센터의 성능을 대폭 향상시킬 것으로 예상된다.

황 CEO는 GTC 기조연설에서, 엔비디아가 지난해 Groq로부터 확보한 IP를 활용해 Rubin의 기능을 어떻게 확장하고 있는지를 공개했다. Rubin 플랫폼에는 이제 새로운 칩인 Nvidia Groq 3 LPU가 포함되는데, 이는 추론(inference) 전용 가속기로서 대량의 토큰을 낮은 지연시간으로 처리해, 최첨단 AI 모델의 상호작용성을 크게 높여준다.

기존 Rubin 플랫폼은 이미 6개의 핵심 칩을 기반으로 랙 단위 시스템을 구성하고, 이를 확장해 AI 공장으로 발전시키는 구조였다.

이 구성에는 Rubin GPU, Vera CPU, NVLink 6 스케일업 스위치, ConnectX-9 스마트 NIC, BlueField-4 데이터 처리 장치(DPU), 그리고 코패키지 광통신(CPO)을 적용한 Spectrum-X 스케일아웃 스위치가 포함된다.

여기에 Groq 3 LPU가 추가되면서, Rubin 플랫폼의 확장성과 구성 요소가 한층 강화된 셈이다.

대부분의 AI 가속기가 작업 메모리로 HBM(고대역폭 메모리)을 사용하는 것과 달리, Groq 3 LPU는 500MB의 SRAM을 탑재하고 있다. SRAM은 CPU나 GPU에서 초고속 캐시로 사용되는 메모리다.

용량만 보면 Rubin GPU가 탑재한 288GB HBM4에 비해 매우 작지만, 성능 특성은 전혀 다르다.

이 SRAM은 무려 150TB/s의 대역폭을 제공하는데, 이는 HBM의 약 22TB/s를 훨씬 뛰어넘는 수준이다.

특히 대역폭에 민감한 AI 디코딩 작업에서는, Groq 3 칩이 제공하는 이러한 압도적인 대역폭이 추론 성능에

상당한 이점을 제공할 것으로 기대된다.

이에 따라 엔비디아는 Groq 3 LPU 256개로 구성된 Groq 3 LPX 랙을 구축할 예정이다. 이 랙은 총 128GB의 SRAM과 40PB/s에 달하는 대역폭을 제공해 추론 가속에 활용되며, 랙 내부에서는 전용 스케일업 인터페이스를 통해 초당 640TB의 속도로 칩들을 서로 연결한다.

엔비디아는 Groq LPX를 Rubin 플랫폼의 코프로세서로 활용해, “모든 토큰 처리 과정에서 AI 모델의 모든 레이어”에서 디코딩 성능을 향상시킬 수 있을 것으로 보고 있다.

이는 엔비디아 하이퍼스케일 부문 부사장 이안 벅(Ian Buck)의 설명이다. 이러한 구조는 Rubin이 AI의 다음 단계, 즉 수조 개 파라미터와 수백만 토큰의 컨텍스트 윈도우를 처리하면서도 높은 상호작용 성능을 요구하는 멀티 에이전트 시스템을 지원하도록 만든다.

이러한 멀티 에이전트 시스템에서는 AI 에이전트들이 점점 더 인간이 아니라 다른 AI와 직접 상호작용하게 되면서, 요구되는 응답 속도의 기준 자체가 달라진다.

인간이 사용하는 챗봇 기준에서는 초당 생성되는 토큰 수가 충분히 빠르게 느껴질 수 있지만, AI 에이전트 간 통신에서는 그 속도가 매우 느리게(거의 정지에 가까울 정도로) 느껴진다.

이안 벅이 설명한 미래에서는 Rubin GPU와 Groq LPU의 결합을 통해, 기존에는 초당 100토큰 수준이 적절한 처리량이었다면, 앞으로는 1500 TPS(초당 토큰 수) 이상이 요구되는 환경으로 전환될 것으로 보인다.

Rubin 플랫폼에 Groq 3 LPU가 추가되면, 저지연 추론 분야에서 경쟁사들의 도전에 대응하는 데에도 도움이 될 수 있다.

예를 들어, Cerebras Systems는 대규모 SRAM과 연산을 하나로 결합한 웨이퍼 스케일 엔진을 통해 저지연 추론에 특화된 구조를 제공하며, 이 분야에서 GPU 기반 접근 방식의 한계를 지속적으로 지적해왔다.

실제로 OpenAI 같은 대형 고객도 최신 모델 일부를 더 낮은 지연 특성으로 서비스하기 위해 Cerebras의 컴퓨팅 자원을 활용하고 있는 것으로 알려져 있다.

이안 벅(Ian Buck)은 또한 Groq 3 LPU가 Rubin CPX 추론 가속기의 역할을 축소시킬 가능성도 시사했다.

현재 엔비디아는 Groq 3 LPX 랙을 Rubin 플랫폼에 통합하는 데 집중하고 있다고 밝히면서다.

구체적인 내용은 더 언급하지 않았지만, 이러한 방향 전환은 오늘날 메모리 제약이 심한 환경을 고려하면

충분히 이해되는 흐름이다.

두 칩이 모두 추론 성능 향상을 목표로 한다는 점에서 기능이 일부 겹치는데,

Groq LPU는 Rubin CPX 모듈이 요구하는 대용량 GDDR7 메모리를 필요로 하지 않는다는 차이가 있다.

이번 주 GTC 현장에서 우리는 직접 취재를 진행하고 있으며, 다양한 세션과 관계자 인터뷰를 통해

Groq와 엔비디아 IP 결합이 AI 추론의 미래에 어떤 의미를 가지는지 심층적으로 살펴볼 예정이다.

계속해서 업데이트를 지켜봐 주시기 바란다.

------------------

2026.03.18

Nvidia removes Rubin CPX accelerators from its roadmap — Groq 3 LPUs take center stage as CPX is removed | Tom's Hardware

엔비디아가 Rubin CPX 가속기를 로드맵에서 제외하고, 대신 Groq 3 LPU를 중심에 두는 방향으로 전환하고 있다.

GTC 2026에서 젠슨 황(Jensen Huang)의 기조연설을 보면, 지난해 Vera Rubin 플랫폼의 핵심 구성 요소로 강조됐던 Rubin CPX 컨텍스트 단계 가속기에 대한 언급이 전혀 없었다는 점이 특히 눈에 띈다.

발표 슬라이드에서도 Rubin CPX는 등장하지 않았고, 대신 차세대 Groq 3 LPU 프로세서와 LPX 랙이 소개되었다.

이는 엔비디아가 로드맵에서 CPX 대신 Groq 기반 구조로 방향을 전환하고 있음을 시사한다.

Rubin CPX GPU는 본래 Vera Rubin 및 Vera Rubin Ultra 플랫폼의 일부로 설계된 제품이다. 이 칩은 질의 처리 과정에서 초기 단계인 ‘컨텍스트 단계(context phase)’를 가속하는 역할을 맡는다. 즉, 입력 데이터를 처리해 첫 번째 출력 토큰을 생성하는 데 필요한 연산 집약적인 구간을 담당하는 구조였다. 이 컨텍스트 단계 가속기의 핵심 장점은 GDDR7 메모리를 사용한다는 점이었다.

GDDR7은 HBM3E나 HBM4처럼 극단적으로 높은 대역폭을 제공하지는 않지만, 전력 소모가 훨씬 낮기 때문에 추론 워크로드에서 Rubin 플랫폼의 경쟁력을 크게 높일 수 있는 요소로 평가됐다.

하지만 이번 GTC에서 공개된 슬라이드에서는 Rubin CPX 제품이 빠져 있는 반면, Groq 3 LPU가 포함되어 있었다.

이는 엔비디아가 기존의 CPX보다는 Groq 3 LPU 중심의 구조에 더 집중하고 있음을 보여주는 변화로 해석된다.

엔비디아의 Groq 3 기반 저지연 추론 가속기, 즉 엔비디아가 LPU(Low-latency Processing Unit)라고 부르는 칩은, 내부 SRAM을 중심으로 설계되어 매우 낮은 지연시간과 높은 추론 성능을 제공하도록 만들어졌다. SRAM은 정의상 어떤 종류의 DRAM보다도 더 빠르고, 지연시간이 낮으며, 전력 소모도 적다.

예를 들어, 엔비디아의 LP30 프로세서는 512MB의 SRAM을 탑재하고 있으며, FP8 기준 1.23 페타플롭스(PFLOPS)의 연산 성능을 제공한다. 이를 확장하면 Groq 3 LPX 컴퓨트 트레이 기준으로는 9.6 PFLOPS, 랙 단위로는 최대 315 FP8 PFLOPS에 달하는 성능을 낼 수 있다.

반면 Rubin CPX 가속기는 최대 30 NVFP4 페타플롭스의 연산 성능을 목표로 했지만, 지연시간 측면에서는 훨씬 불리한 구조였다.

현재로서는 엔비디아가 Rubin CPX 가속기를 실제로 출시할지, 아니면 Groq 3 기반 LPU 중심으로 전략을 전환할지는 아직 확정되지 않았다.

다만 최근 엔비디아가 스타트업 Groq의 칩 기술과 인력을 약 200억 달러 규모의 비독점 라이선스로 확보한 점을 고려하면, 이러한 전략 변화는 충분히 설득력이 있다.

또한 로드맵 슬라이드에서 Rubin CPX가 빠지고 LPU가 전면에 등장한 것은, 회사의 우선순위가 어디에 있는지를 비교적 명확하게 보여주는 신호로 해석된다.

그럼에도 불구하고 일부 고객들은 이미 해당 프로세서에 맞춰 소프트웨어를 최적화해온 만큼, Rubin CPX 가속기를 실제로 도입할 가능성도 남아 있다. 업계에서는 로드맵에서 제외된 제품이라 하더라도 특정 고객을 위해 계속 공급되는 사례가 적지 않기 때문이다.

저작자표시 비영리 (새창열림)

'엔비디아-마이크로소프트-AMD-인텔' 카테고리의 다른 글

Cerebras(2026.05.15) (0)	2026.05.11
엔비디아(NVIDIA)가 AI 학습과 추론을 모두 아우르는 제품 포트폴리오를 확대(2026.03.20) (0)	2026.03.21
엔비디아 GTC(2026.03.17) (0)	2026.03.17
NVIDIA 컴퓨트 아키텍처가 스케일업 광 인터커넥트 시대를 열다(2026.03.12) (0)	2026.03.12
알파벳,2025년4분기 어닝콜(2026.02.04) (0)	2026.03.07

주식으로 모두 부자되기

‘Groq 3 LPU’와 Groq 기반 LPX 랙을 Rubin 플랫폼에 추가(2026.03.18)

'엔비디아-마이크로소프트-AMD-인텔' 카테고리의 다른 글

티스토리툴바

‘Groq 3 LPU’와 Groq 기반 LPX 랙을 Rubin 플랫폼에 추가(2026.03.18)

'엔비디아-마이크로소프트-AMD-인텔' 카테고리의 다른 글

'엔비디아-마이크로소프트-AMD-인텔' Related Articles

티스토리툴바