2026.02.26
챗GPT에 믈어 봄.
Cerebras Systems


세레브라스(Cerebras Systems)는 미국 캘리포니아에 본사를 둔 AI 전용 반도체 스타트업으로, 초대형 AI 모델 학습과 추론을 위해 **‘웨이퍼 스케일 엔진(Wafer-Scale Engine, WSE)’**이라는 독특한 칩 아키텍처를 개발한 회사입니다.
1) 핵심 차별점: 웨이퍼 전체를 하나의 칩으로
일반 GPU는 실리콘 웨이퍼를 잘라 여러 개의 칩으로 나누어 사용합니다.
반면 세레브라스는 웨이퍼 한 장을 통째로 하나의 거대한 칩으로 사용하는 방식을 택했습니다.
- 수십만 개 이상의 코어를 단일 칩에 집적
- 수십 기가바이트급 온칩 메모리 탑재
- 초고대역폭 내부 연결망을 통해 병목 최소화
이 설계는 대규모 모델에서 발생하는 GPU 간 통신 병목을 줄이는 데 초점을 둡니다.
2) 대표 제품
- WSE-2 / WSE-3: 초대형 AI 연산용 웨이퍼 스케일 칩
- CS-2 / CS-3 시스템: WSE를 탑재한 완성형 AI 서버
- 대형 언어모델(LLM) 학습 및 과학 시뮬레이션에 최적화
최근 세대(WSE-3)는 트랜지스터 수가 수조 개 수준으로, 단일 칩 기준 세계 최대급으로 알려져 있습니다.
3) 타깃 시장
- 초대형 LLM 학습 (수백억~수천억 파라미터급)
- 과학 연구(기후 모델링, 유전체 분석 등)
- 국방 및 국가 연구기관
- AI 스타트업 대상 전용 클라우드 서비스
4) NVIDIA와의 차이
구분 NVIDIA Cerebras
| 아키텍처 | 다수 GPU 클러스터 | 단일 웨이퍼 스케일 칩 |
| 확장 방식 | NVLink·네트워크 기반 스케일아웃 | 칩 내부 초고속 연결 |
| 생태계 | CUDA 중심, 매우 광범위 | 상대적으로 제한적 |
| 강점 | 범용성·생태계·추론/학습 균형 | 초대형 모델 학습 단순화 |
세레브라스는 “수천 개 GPU를 묶는 대신, 하나의 거대한 칩으로 문제를 단순화하자”는 철학을 갖고 있습니다.
5) 전략적 포지션
- AI 인프라 ‘대체 아키텍처’ 진영의 대표주자
- 정부·연구기관과 협력 확대
- 일부 AI 기업에 초고속 학습 인프라 제공
다만 생태계, 소프트웨어 지원, 공급망 규모 면에서는 여전히 NVIDIA가 압도적입니다.
한 줄 요약
세레브라스는 GPU를 여러 개 묶는 대신, 웨이퍼 전체를 하나의 거대한 AI 칩으로 만드는 파격적 설계로
초대형 AI 모델 학습 시장에 도전하는 미국 AI 반도체 기업입니다.
-------------------
세레브라스(Cerebras Systems)의 WSE(Wafer-Scale Engine)는 “웨이퍼 한 장을 통째로 하나의 거대한 가속기처럼 동작시키는” 구조이고,
기술적으로는 크게 1) 웨이퍼 전역을 잇는 온칩 패브릭, 2) 타일(tile) 단위의 연산·메모리 배치, 3) 결함을 전제로 한 리던던시(결함 허용)·리맵핑, 4) 시스템 스케일링을 단순화하는 Weight Streaming/MemoryX/SwarmX로 이해하면 제일 깔끔합니다. (Cerebras)
1) “웨이퍼 전체를 한 칩으로” 만들기: 레티클 경계(stitching)를 넘는 배선
반도체 노광 장비는 한 번에 웨이퍼 전체를 그리지 못하고, 레티클(reticle)이라는 “찍는 창” 단위로 여러 번 step-and-repeat로 노광합니다. 그래서 통상은 레티클 크기(레티클 리밋)보다 큰 단일 다이를 만들기 어렵습니다.
WSE는 여기서 한 발 더 나가, 레티클과 레티클 사이 경계를 건너도록 금속 배선층에서 경계 연결을 설계(스티칭)해 “웨이퍼 전역이 끊기지 않는 하나의 통신 패브릭”이 되게 만듭니다. 즉, 물리적으로는 레티클 단위로 만들어지지만, 논리적으로는 하나의 연속된 칩처럼 보이게 만드는 접근입니다. (arXiv)
2) 타일(tile) 기반 구조: 코어 + SRAM + 라우터가 웨이퍼 전역에 반복 배치
WSE 내부는 거대한 단일 코어가 아니라 “많은 작은 코어들의 바둑판”에 가깝습니다. 각 코어(또는 코어 블록)는 보통 다음을 포함합니다.
- 연산 코어(행렬/텐서 연산에 최적화)
- 근처에 붙어 있는 온칩 SRAM(매우 빠른 로컬 메모리)
- 2D 메시(mesh) 패브릭에 붙는 라우터(router)
핵심은 “모든 코어가 메시 네트워크의 한 노드”라는 점입니다. 세레브라스는 이 패브릭을 2D 메시 토폴로지로 구현하고, 각 코어에 라우터를 내장해 웨이퍼 전체에서 낮은 오버헤드로 통신이 가능하다고 설명합니다. (Cerebras)
이 구조 덕분에 큰 모델을 돌릴 때 흔히 문제 되는 “칩 간 통신 병목”을, 최대한 “칩 내부(정확히는 웨이퍼 내부)에서” 해결하는 방향으로 설계가 잡혀 있습니다.
3) 온칩 SRAM을 극단적으로 크게: ‘HBM에 가기 전’ 단계의 초고대역폭 작업 공간
WSE가 GPU와 가장 강하게 차별화되는 지점 중 하나가 온칩 SRAM의 규모와 대역폭입니다.
- WSE-2는 온칩 SRAM 40GB, 메모리 대역폭 20PB/s(페타바이트/초), 패브릭 대역폭 220Pb/s(페타비트/초) 같은 수치가 문헌에 정리돼 있습니다. (arXiv)
- WSE-3는 4조 트랜지스터, 90만 코어 같은 스펙을 공식 페이지에서 강조합니다. (Cerebras)
왜 SRAM이 중요하냐면, 초대형 모델에서는 “연산 그 자체”보다 “가중치/활성값을 어디서 가져오고 어디로 보내느냐”가 속도를 좌우하는 경우가 많기 때문입니다.
온칩 SRAM을 크게 가져가면, 반복적으로 재사용되는 텐서/활성값/부분 가중치를 웨이퍼 내부에서 아주 빠르게 돌릴 수 있고, 외부 메모리(HBM/DDR) 왕복을 줄일 여지가 생깁니다. (Cerebras)
4) 결함(Defect)을 전제로 설계: 리던던시 + 리맵핑으로 수율을 만든다
웨이퍼가 커질수록 “어딘가에 결함이 하나도 없을 확률”은 급격히 떨어집니다. 그래서 웨이퍼 스케일은 수율(yield)이 가장 큰 난제인데, 세레브라스는 애초에 “결함이 있다”를 전제로 하고,
결함 난 코어/메모리/링크를 우회하도록 예비 자원과 리맵핑을 통해 정상 동작 영역을 구성하는 방식으로 접근합니다.
세레브라스가 수율/결함 허용을 주제로 별도 기술 글을 낼 정도로 이 부분이 구조의 핵심입니다. (Cerebras)
쉽게 말해,
- 웨이퍼 전체를 100% 쓰는 게 목표가 아니라
- “쓸 수 있는 타일들을 골라서” 하나의 큰 논리 디바이스로 구성하는 쪽에 가깝습니다.
5) 시스템 스케일링을 단순화하는 Weight Streaming, MemoryX, SwarmX
단일 WSE가 매우 크지만, 더 큰 모델은 결국 여러 시스템으로 확장해야 합니다. 세레브라스는 여기서도 “분산을 하되, 모델 복제(replication) 부담과 복잡도를 줄이자”에 초점을 둡니다.
- Weight Streaming: 모델 가중치를 각 장치에 통째로 복제해 올려놓는 방식이 아니라, 필요한 가중치를 스트리밍해 공급하는 접근으로 설명합니다. (Kisaco Research)
- MemoryX: 가중치/옵티마이저 상태를 별도 메모리 서비스로 두고, 업데이트를 처리하는 구성으로 소개됩니다. (Kisaco Research)
- SwarmX: 여러 CS 시스템을 묶을 때의 인터커넥트/확장 기술로 언급됩니다. (microarch.org)
이 조합은 “웨이퍼 내부에서는 메시 패브릭으로 거대한 단일 장치처럼, 웨이퍼 밖으로 확장할 때는 스트리밍/메모리 서비스/인터커넥트로 분산 복잡도를 낮추는” 그림으로 이어집니다.
6) 한 문장으로 정리하면
WSE는 “코어 + SRAM + 라우터를 타일로 반복 배치하고, 레티클 경계를 넘는 스티칭 배선으로 웨이퍼 전역을 2D 메시 패브릭으로 묶은 뒤, 결함을 전제로 리맵핑해 수율을 확보하며, 시스템 확장은 Weight Streaming/MemoryX/SwarmX로 단순화하는” 웨이퍼 스케일 아키텍처입니다. (Cerebras)
----------------
Cerebras Systems의 WSE 구조를 GPU 클러스터와 비교하면서, 통신 패턴·병목 구조·실제 워크로드 영향까지 모두 연결해 설명해보겠습니다.
1️⃣ WSE 메시 패브릭에서 All-Reduce·Attention 통신이 왜 유리한가
▣ GPU 클러스터에서의 기본 문제
대형 LLM 학습에서는 다음 연산이 반복됩니다.
- All-Reduce (데이터 병렬 학습 시 그래디언트 동기화)
- Attention 연산 (토큰 간 상호작용)
- 파이프라인 병렬 구간 간 activation 교환
GPU 클러스터에서는:
GPU ↔ NVLink ↔ NVSwitch ↔ NIC ↔ InfiniBand ↔ 다른 노드
처럼 칩 밖 → 보드 밖 → 랙 밖을 거치는 다단계 통신이 필요합니다.
노드 수가 증가하면:
- Latency 증가
- Bandwidth 공유
- Collective 연산 복잡도 증가
특히 All-Reduce는 노드 수 N에 대해 O(N) 또는 O(logN) 단계 통신이 필요합니다.
▣ WSE의 접근
WSE는 웨이퍼 전체가 하나의 2D mesh 네트워크입니다.
각 타일은:
- Compute core
- Local SRAM
- Router를 포함합니다.
All-Reduce가 발생하면:
- 웨이퍼 내부 메시 패브릭에서 직접 이웃 타일로 전파
- 외부 네트워크 없음
- 칩 간 경계 없음
즉, 통신이 “칩 내부 라우팅” 문제로 축소됩니다.
왜 Attention에서 특히 유리한가?
Attention은 토큰 간 데이터 교환이 많습니다.
GPU 클러스터:
- 토큰이 다른 GPU에 있으면 PCIe/NVLink/NIC 왕복
WSE:
- 동일 웨이퍼 내에서 메시 패브릭으로 전달
결과:
- 데이터 이동 거리 감소
- 통신 오버헤드 감소
- 소프트웨어 동기화 복잡도 감소
2️⃣ GPU 클러스터 대비 병목이 어떻게 달라지는가
▣ NVIDIA 방식 (예: Blackwell 클러스터)
구조:
GPU ↔ NVLink ↔ NVSwitch ↔ IB 스위치 ↔ 다른 노드
병목 지점:
- NVLink 대역폭 한계
- NVSwitch 포트 수
- InfiniBand fabric oversubscription
- NIC latency
- Topology 설계 복잡성
노드 수가 늘어날수록 네트워크 비용 증가.
▣ WSE 방식
구조:
타일 ↔ 2D mesh ↔ 타일
칩 외부 통신 없음 (단일 웨이퍼 기준)
병목 지점:
- 온칩 메시 라우팅 충돌
- SRAM 용량 한계
- 전력·열 밀도
즉 병목이 “네트워크 레벨”이 아니라 “온칩 데이터 배치 전략” 문제로 이동합니다.
3️⃣ 온칩 SRAM·대역폭이 실제 워크로드에 주는 효과
WSE-2 기준 공개 수치:
- 40GB 온칩 SRAM
- 20PB/s 메모리 대역폭
- 220Pb/s 패브릭 대역폭
이게 왜 중요한가?
▣ GPU 구조
GPU는:
- HBM (고대역폭 메모리)
- L2 캐시
- 레지스터
HBM 접근은 빠르지만 여전히 “칩 외부 메모리”입니다.
대형 모델에서는:
연산보다 메모리 이동이 병목이 되는 경우가 많습니다.
▣ WSE의 차별점
SRAM이 웨이퍼 내부에 직접 배치됨.
특징:
- 메모리 접근 latency 매우 낮음
- activation 재사용 효율 높음
- gradient accumulation 빠름
특히 큰 배치(batch size) 학습 시:
GPU 클러스터:
- GPU 간 activation 교환 필요
WSE:
- 웨이퍼 내부 이동으로 해결
4️⃣ 실제 LLM 학습 관점에서 차이
항목 GPU 클러스터 WSE
| 확장 방식 | Scale-out | 단일 거대 칩 |
| 통신 | NVLink + IB | 온칩 메시 |
| 병목 | 네트워크 | 데이터 배치 |
| 복잡도 | 높음 | 상대적으로 단순 |
| 소프트웨어 최적화 | CUDA 중심 | 전용 컴파일러 |
5️⃣ 그럼 왜 GPU가 여전히 지배적인가?
- CUDA 생태계
- 범용성
- 대량 생산 스케일
- 추론·학습 모두 균형
- 리스크 분산 (칩 여러 개 사용)
WSE는 특정 초대형 학습에 최적화된 “전략적 무기”에 가깝습니다.
6️⃣ 구조적 철학 차이
NVIDIA:
“많은 GPU를 묶어 스케일아웃하자.”
Cerebras:
“애초에 하나의 거대한 컴퓨트 공간으로 만들자.”
------------------------------
2027~2030년 “구조적 승자”는 한 회사가 다 먹는 그림이라기보다, 워크로드(훈련 vs 추론), 전력·네트워크 제약, 메모리(HBM)·패키징 공급, 소프트웨어 생태계에 따라 승자 구도가 갈라질 가능성이 큽니다. 아래는 가장 설득력 있는 5가지 시나리오입니다.
시나리오 1: 추론이 ‘메인 시장’이 되며 엔비디아(NVIDIA)가 계속 주도
2027~2030년의 수요가 “초대형 프리트레인”보다 **대규모 추론(에이전트, 서빙, 검색·추천, 기업 내 RAG)**으로 더 빠르게 커지는 그림입니다.
이때 가장 중요하게 보는 건 “토큰당 비용, 지연시간, 운영 편의성, 안정적인 공급”이고,
엔비디아는 GPU만이 아니라 네트워킹, 시스템, 소프트웨어까지 패키지로 최적화해 이 점수를 가장 높게 가져갑니다.
이 경우 구조적 승자는 엔비디아 중심의 풀스택(가속기+네트워크+시스템+런타임)이고,
경쟁사는 특정 틈새(저가 추론, 특정 모델, 특정 클라우드)로 제한됩니다.
핵심 조건
- 대규모 추론이 CapEx의 중심으로 이동
- 네트워크/운영 자동화가 성패를 좌우
- “표준 스택을 써서 빨리 깔자”가 우선
시나리오 2: 하이퍼스케일러의 자체 칩이 ‘2등 생태계’로 자리 잡음
아마존(AWS), 구글(Google), 마이크로소프트(Microsoft), 메타(Meta) 같은 곳이 훈련 일부 + 추론 다수를 자사 칩으로 흡수합니다. GPU는 여전히 최고 성능이 필요할 때 쓰지만, 대량 추론은 비용 최적화가 가능한 내부 칩이 먹습니다.
이 그림에서 구조적 승자는 “칩 자체”라기보다 클라우드 사업자 + 그들이 설계한 가속기 + 컴파일러/런타임의 결합이고, 외부 벤더는 공급의 한 축으로 남되 마진/점유율이 압박받을 수 있습니다.
핵심 조건
- 대형 고객이 “규모의 경제 + 전력 예산” 때문에 내부화 가속
- 모델이 점점 표준화되어 커스텀 칩 최적화가 쉬워짐
- 소프트웨어가 특정 벤더 종속에서 조금씩 풀림
시나리오 3: 전력·그리드가 병목이 되며 ‘전력 효율’이 최우선 지표가 됨
데이터센터의 제한이 GPU 공급이 아니라 전력(변압기·송전·허가)과 냉각으로 바뀌는 경우입니다. 이때는 “성능”보다 와트당 토큰, 랙당 토큰, 시설당 토큰이 승부처가 됩니다.
구조적 승자는 전력 효율이 좋은 아키텍처(가속기·네트워크·메모리 계층 포함)와, 전력·열을 제품 설계에 녹여낸 시스템 업체입니다. 엔비디아가 계속 강할 수 있지만, 특정 구간에서는 ASIC류/전용 추론 칩이 점유율을 의미 있게 가져갈 수 있습니다.
핵심 조건
- 신규 전력 인입이 늦어지고, “같은 전력으로 더 뽑는” 경쟁이 심화
- 고밀도 랙 설계가 표준화
- 에이전트 추론이 상시로 돌아가 전력 총량이 폭증
시나리오 4: 네트워크가 병목이 되며 ‘스케일-업(Scale-up)’이 재평가됨
모델이 커지고, 동시에 실시간성이 중요해지면, 클러스터가 커질수록 집단 통신(collective), KV 캐시 공유, 파라미터/텐서 이동이 발목을 잡습니다. 이때 “많이 묶어서 스케일-아웃”만으로는 효율이 떨어지고, **스케일-업(더 큰 단일 시스템, 더 촘촘한 내부 패브릭)**이 일부 워크로드에서 유리해집니다.
여기서 세레브라스(Cerebras) 같은 WSE 계열은 “초대형 학습/특정 형태의 통신-heavy 워크로드”에서 존재감을 키울 수 있습니다. 다만 승자는 보통 “WSE 단독”이라기보다, 대다수는 GPU로 가고 일부는 WSE/특수 스케일-업으로 가는 이원화가 현실적입니다.
핵심 조건
- 통신 비용이 연산 비용을 지속적으로 압도
- 워크로드가 분산 최적화보다 “단순하게 크게”가 유리한 방향으로 진화
- 소프트웨어가 스케일-업을 쉽게 쓰게 해줌
시나리오 5: 메모리(HBM)·패키징이 최상위 병목이 되어 ‘공급망 승자’가 갈림
2027~2030년엔 HBM(특히 차세대 HBM)과 고급 패키징(CoWoS류, 실리콘 인터포저/고급 기판, 테스트)이 계속 빡빡하면, “좋은 칩”보다 잘 공급할 수 있는 플랫폼이 이깁니다.
이때 구조적 승자는 설계 능력뿐 아니라 메모리 업체/패키징/테스트/기판까지 엮어 공급을 안정화하는 진영입니다. AI 가속기 회사들은 여기서 “물량을 확보한 쪽”이 점유율을 가져가고, 메모리 공급의 제약을 해결 못하면 기술이 좋아도 성장 제한이 생깁니다.
핵심 조건
- HBM 비트 공급과 패키징 캐파가 장기간 타이트
- 고객이 “성능”보다 “공급 확실성”을 우선시
- 장기 계약이 시장을 재편
한 줄 결론
2027~2030년 구조적 승자는 단일 업체가 아니라, 추론 중심으로 재편되는 시장에서 전력·네트워크·메모리 병목을 가장 잘 ‘시스템’으로 풀어내는 진영이 됩니다.
그 축에서 엔비디아의 우위가 유지될 확률이 높지만, 하이퍼스케일러 내부화와 전력 제약이 강해질수록 **자체 칩/전용 추론/스케일-업(WSE 포함)**이 의미 있는 몫을 가져가는 “분화된 승자 구도”가 유력합니다.
원하시면, 위 5개 시나리오를 기준으로
- 2027~2030년 CapEx 흐름(훈련 vs 추론)
- HBM/패키징 병목이 각 진영에 미치는 영향
- 세레브라스가 커질 수 있는 ‘구체 워크로드’(예: 프리트레인, 긴 컨텍스트, 통신-heavy 모델)
이렇게 3개 축으로 더 촘촘하게 “승자 확률”을 나눠드릴게요.
'반도체-삼성전자-하이닉스-마이크론' 카테고리의 다른 글
| 삼성·SK 영업익 올해 600조·내년 1000조 전망 나왔다 (2026.02.25) (0) | 2026.02.25 |
|---|---|
| 34만전자·170만닉스 전망…맥쿼리 "메모리 공급부족 심화"(2026.02.25) (0) | 2026.02.25 |
| 삼성전자 파운드리 가동률이 2026년 1분기 80%에 도달(2026.02.23) (0) | 2026.02.23 |
| SK하이닉스, 6개월 목표주가 145만원 상향-대신(2026.02.23) (0) | 2026.02.23 |
| 최태원 "SK하이닉스 영업이익 1000억달러 넘을 수도(2026.02.22) (0) | 2026.02.22 |