본문 바로가기

엔비디아-마이크로소프트-AMD-인텔

엔비디아(NVIDIA)가 AI 학습과 추론을 모두 아우르는 제품 포트폴리오를 확대(2026.03.20)

2026.03.20

요약: AI가 생성형 모델에서 에이전트 기반 구조로 발전하면서, 토큰 생성 과정 중 디코드 단계가 지연(latency)과

메모리 대역폭 문제로 인해 주요 병목 구간으로 부상하고 있다.

 

엔비디아는 이를 해결하기 위해 Groq 팀의 기술을 통합해, 저지연 추론에 특화된 Groq 3 LPU를 도입.

이 칩은 약 500MB의 SRAM을 내장하고 있으며, 랙 단위 시스템에서는 최대 128GB의 온칩 메모리를 제공할 수 있다.

이는 삼성전자 파운드리에서 제조한다.

 

베라루빈에 Groq 3 LPU를 추가함으로써 디코드 단계에서의 병목현상을 줄이려고 했다.

 또한 Groq 3 LPU가 Rubin CPX 추론 가속기의 역할을 축소시킬 가능성도 시사했다.

--------------

 

DRAMeXchange - 【Market View】NVIDIA Expands Product Portfolio to Address AI Training and Inference, Responding to an ASIC Push from CSPs, Says TrendForce

 

엔비디아(NVIDIA)가 AI 학습과 추론을 모두 아우르는 제품 포트폴리오를 확대하며, 클라우드 서비스 사업자(CSP)들의 ASIC 개발 확대에 대응하고 있다고 트렌드포스(TrendForce)가 밝혔다.

 

트렌드포스의 최신 AI 서버 분석에 따르면, 주요 CSP들은 자체 칩 개발에 대한 투자를 늘리고 있다. 이에 대응해 엔비디아는 GTC 2026에서 기존의 클라우드 기반 AI 학습 중심 전략에서 벗어나, 다양한 산업 전반으로 AI 추론 애플리케이션을 확산하는 방향으로 전략의 초점을 이동시켰다.

 

엔비디아는 GPU, CPU, LPU를 포함한 다양한 제품군을 통해 학습과 추론 워크로드를 동시에 대응하는 전략을 추진하고 있으며, 랙 단위 통합 시스템을 통해 공급망 전반의 성장을 유도하고 있다.

 

트렌드포스에 따르면, 구글과 아마존 같은 CSP들이 자체 칩 개발을 확대하면서 ASIC 기반 AI 서버는 2026년 전체 AI 서버 출하량의 약 27.8%를 차지할 것으로 전망된다. 이 비중은 2030년에는 약 40%에 근접할 것으로 예상된다.

 

엔비디아는 CPU와 GPU를 통합한 랙 스케일 솔루션, 즉 GB300과 VR200 플랫폼을 통해 추론 워크로드 확장성을 강화하며 AI 시장에서의 리더십을 유지하려 하고 있다. GTC 2026에서는 7개의 칩과 5가지 랙 구성으로 이루어진 고도로 수직 통합된 시스템 ‘베라 루빈(Vera Rubin)’도 공개했다.

 

메모리 업체들은 2026년 2분기부터 루빈 GPU에 적용될 HBM4 공급을 시작할 것으로 예상되며,

이에 따라 엔비디아는 2026년 3분기부터 루빈 칩 출하를 시작할 전망이다.

 

한편, GB300과 VR200 랙 시스템의 출하도 순조롭게 진행되고 있다. GB300은 2025년 4분기부터 기존 GB200을 대체하며 주력 플랫폼으로 자리잡았고, 2026년에는 전체 출하 비중의 약 80%에 달할 것으로 예상된다.

 

VR200 랙 시스템은 2026년 3분기 말부터 본격적인 출하가 시작될 것으로 보이나, 실제 일정은 ODM 업체들의 생산 계획에 따라 달라질 수 있다.

 

AI가 생성형 모델에서 에이전트 기반 구조로 발전하면서, 토큰 생성 과정 중 디코드 단계가 지연(latency)과 메모리 대역폭 문제로 인해 주요 병목 구간으로 부상하고 있다.

 

엔비디아는 이를 해결하기 위해 Groq 팀의 기술을 통합해, 저지연 추론에 특화된 Groq 3 LPU를 도입했다. 이 칩은 약 500MB의 SRAM을 내장하고 있으며, 랙 단위 시스템에서는 최대 128GB의 온칩 메모리를 제공할 수 있다.

 

하지만 LPU만으로는 베라 루빈과 같은 시스템이 요구하는 대규모 모델 파라미터와 KV 캐시를 충분히 수용할 수 없다. 이에 엔비디아는 GTC 2026에서 ‘디스어그리게이티드 인퍼런스(disaggregated inference)’ 개념을 도입했는데, 이는 Dynamo라는 AI 팩토리 운영체제를 통해 추론 파이프라인을 두 단계로 분리하는 방식이다.

 

에이전트 기반 AI 워크로드에서는 대규모 연산과 KV 캐시 저장이 필요한 프리필(pre-fill) 및 어텐션 단계는 고성능·대용량 메모리를 갖춘 베라 루빈 시스템이 담당하고, 지연에 민감하고 대역폭 제약이 큰 디코드 및 토큰 생성 단계는 메모리 확장이 가능한 LPU 랙으로 분리 처리한다.

 

삼성에서 생산되는 3세대 Groq LP30 칩은 이미 양산에 돌입했으며, 2026년 하반기부터 출하가 시작될 것으로 예상된다. 또한 엔비디아는 차세대 파인만(Feynman) 아키텍처에서 더 높은 성능의 LP40 칩도 선보일 계획이다.

 

엔비디아나 AMD 같은 GPU 공급업체와 구글 아마존등의 자체 칩인 ASIC칩등의 서버 점유율을 나타낸 것이다.

GPU점유율이 2026년 69.7%에서 4년 후인 2030년 58.5%로 하락하는 것을 볼 수있다.