본문 바로가기

반도체-삼성전자-하이닉스-마이크론

메모리 벽(1994)--->메모리 필요 용량 급증--> 매우 부족(2025.11.30)

2025.11.30

요약: 1994년 발표된 메모리 벽의 문제가 지금 다시 대두되는 이유.

  1. 메모리 가격 폭등 (HBM/DDR5/NAND 모두)
  2. DRAM 회사들의 매출/영업이익이 역사적 최고치

  3. CSP·GPU 업체들이 CXL・PIM・NAND 계층화 등으로 “메모리 사용 효율화”에 집중
  4. 메모리가 AI 시스템의 절대 병목으로 부상

  5. 반도체 산업의 중심축이 “GPU → 메모리”로 이동

----------------------------------------------------------

2025.06.25

HBM should be as attractive an investment as Nvidia or TSMC (maybe more so) but the stocks (SK Hynix, Micron) don’t show that – why not?

 

--------------------------------------------

친구에게 설명해 주다 싸울 뻔 했습니다...곧 닥칠 메모리 슈퍼사이클 [삼성 vs 하이닉스 2편]

 

 

Department of Computer Science
University of Virginia
{wulf | mckee}@virginia.edu

December 1994

 

This brief note points out something obvious — something the authors “knew” without
really understanding. With apologies to those who did understand, we offer it to those
others who, like us, missed the point.

 

이 짧은 글은 매우 당연해 보이는 사실—저자들이 “알고는 있었지만” 실제로는 깊이 이해하지 못했던 점—을

짚고 넘어가려는 것이다. 이미 이해하고 있던 분들께는 사과를 드리며,

우리처럼 그 의미를 놓쳤던 분들을 위해 이 글을 쓴다.

 

We all know that the rate of improvement in microprocessor speed exceeds the rate of
improvement in DRAM memory speed — each is improving exponentially, but the
exponent for microprocessors is substantially larger than that for DRAMs.

 

우리는 모두 마이크로프로세서 속도의 향상 속도가 DRAM 메모리 속도의 향상 속도보다 훨씬 빠르다는 사실을 알고 있다.

둘 다 지수적으로 개선되고 있지만, 마이크로프로세서의 개선 지수는 DRAM보다 훨씬 크다.

 

The difference between diverging exponentials also grows exponentially;

그리고 이렇게 서로 다른 두 개의 지수가 벌어지는 속도 또한 지수적으로 증가한다.

 

so, although the disparity between processor and memory speed is already an issue, downstream someplace it will be a much bigger one. How big and how soon?

The answers to these questions are what the authors had failed to appreciate.

 

즉, 이미 프로세서와 메모리 속도 간의 격차가 문제가 되고 있지만, 시간이 조금 더 지나면 그 격차는 지금보다 훨씬 더 큰 문제가 될 것이다. 그 규모는 얼마나 커지고, 언제 그런 일이 벌어질까? 이 질문의 답을 우리가 제대로 이해하지 못했던 것이다.

 

To get a handle on the answers, consider an old friend — the equation for the average time
to access memory, where t₍c₎ and t₍m₎ are the cache and DRAM access times and p is the
probability of a cache hit:

 

이 질문을 다루기 위해 익숙한 식 하나를 보자. 평균 메모리 접근 시간에 대한 방정식이다.

여기서 **t₍c₎**는 캐시 접근 시간, **t₍m₎**은 DRAM 접근 시간이며, p는 캐시 히트 확률이다.

 

t_avg = p × t_c + (1 − p) × t_m

 

  • p : 캐시에서 찾는 비율
  • (1 − p) : 캐시에 없어서 DRAM을 가야 하는 비율

 

 

(해석: 캐시 히트 확률 p란?

 

CPU가 데이터를 읽으려고 할 때

캐시(빠른 메모리) 안에 있으면 “캐시 히트(hit)

캐시에 없어서 DRAM(느린 메모리) 에서 가져오면 “캐시 미스(miss)

 

이때 전체 접근 중에서 캐시 히트가 발생하는 비율이 p입니다.

 

전체 100번 메모리 접근 중

  • 90번은 캐시에 이미 있음 → 캐시 히트
  • 10번은 캐시에 없음 → 캐시 미스
    → 이 경우 p = 0.9 (90%) )

 

We want to look at how the average access time changes with technology, so we’ll make
some conservative assumptions; as you’ll see, the specific values won’t change the basic
conclusion of this note, namely that we are going to hit a wall in the improvement of system
performance unless something basic changes.

 

이제 기술 발달에 따라 평균 접근 시간이 어떻게 변하는지 살펴보고자 한다.

보수적인 가정을 몇 가지 두겠지만, 특정 수치가 결론을 바꾸지는 않는다. 이 글의 핵심은,

근본적인 변화가 일어나지 않는다면 시스템 성능 향상은 결국 벽에 부딪힐 것이라는 점이다.

 

전례 없는 규모의 비지도 학습 데이터가 가능해지고, 여기에 뉴럴 스케일링 법칙까지 더해지면서, 대규모 언어모델(LLM)을 학습·서빙하기 위한 모델 크기와 연산 요구량이 폭발적으로 증가하게 되었다. 그

 

러나 성능 병목은 점점 더 **메모리 대역폭(memory bandwidth)**으로 이동하고 있다.

 

지난 20년 동안 서버 하드웨어의 정점 FLOPS 성능은 **2년마다 약 3배(3.0×/2yrs)**씩 증가해 왔으며,

이는 DRAM과 인터커넥트의 대역폭 증가 속도—각각 2년마다 1.6배, 1.4배—를 훨씬 앞지른다.

 

이러한 격차 때문에, AI 애플리케이션에서 병목은 연산 능력이 아니라 메모리가 되었으며,

특히 서빙(Serving) 단계에서 그 영향이 가장 크다.

 

본 연구에서는 인코더·디코더 트랜스포머 모델을 분석하며, 왜 메모리 대역폭이 디코더 모델의 지배적 병목 요인이 될 수 있는지를 보여준다. 또한 이러한 메모리 한계를 극복하기 위해 모델 아키텍처, 학습 방식, 배포 전략의 재설계가 필요함을 주장한다.

 

------------------------

이 1994년 논문(“Memory Wall” 개념)의 핵심 의미, 그리고 오늘날 HBM·AI 시대에서 이 내용이 왜 다시 중요해졌는지

최신 시점(2025년 상황) 기준으로정리해 봅니다.

 

1. 이 문서(1994년)의 핵심 메시지: “메모리 벽(Memory Wall)”

 

이 글은 1994년이었지만, 지금의 HBM 대란을 정확히 예견한 것이나 다름없습니다.

 

✔ CPU 속도는 지수적으로 더 빨리 증가

  • CPU(마이크로프로세서) 성능 개선 속도 > DRAM 속도 개선 속도
  • 둘 다 늘지만 **CPU의 성장 기울기(지수 함수의 exponent)**가 훨씬 더 큼
  • 즉, CPU는 빠르게 빨라지는데 메모리는 상대적으로 천천히 빨라짐

✔ 두 지수 함수의 격차는 “더 빨라지는 속도로 벌어짐”

 

논문에서 강조한 핵심:

The difference between diverging exponentials also grows exponentially.


서로 다른 지수 성장률은 시간이 지날수록 기하급수적으로 격차가 벌어진다.

이게 바로 “memory wall”의 수학적 근거.

 

결국 시스템 성능은 메모리 병목에서 ‘벽’을 만난다

  • CPU가 아무리 빨라져도,
  • DRAM 접근 시간이 그대로라면 CPU는 대부분 “기다리는 시간”이 됨
  • 캐시(hit rate)로 숨기려 해도 한계가 있음

따라서 근본적인 변화가 없으면 시스템 전체 성능은 더는 좋아지지 않는다고 결론.

 

 2. 30년 후(2025년) 이 문제가 왜 다시 폭발하는가?

 

메모리 벽은 2000~2010년대에도 존재했지만, 2023~2025년 AI 붐과 함께 다시 핵심 문제가 되었습니다.

 

✔ (1) AI 모델은 대규모 병렬 연산 + 메모리 대역폭이 절대적

Transformer 모델은

 

  • FLOPs(연산량)보다
  • **메모리 대역폭(HBM)**에 훨씬 더 민감합니다.

즉, GPU가 빠른데도 HBM 속도가 부족하면 전체 속도가 나오지 않음 → 1994년 지적과 동일.

 

✔ (2) GPU 계산능력 증가 속도 > HBM 증가 속도

 

예:

  • NVIDIA H100 → 2TB/s
  • Blackwell B200 → 8TB/s
  • GB300 → 10TB/s 이상
    GPU 성능 증가 속도는 폭발적

반면 DRAM(HBM) 속도 증가:

  • HBM2E → HBM3 → HBM3E → HBM4
    비약적이지만 CPU/GPU 성장률에는 못 미침
    → 1994년 말과 같은 “이질적 지수 성장” 구조

✔ (3) 그래서 지금 HBM 부족 사태 발생

  • NVIDIA 주문 폭증
  • SK hynix 2025~2027 HBM 풀북(full booking)

  • 삼성 DDR5·HBM 30~60% 가격 인상
  • DRAM 전체 가격 2025년 9월 이후 30→60→100% 상승

이 모든 현상은 메모리 벽 때문에 메모리의 가치가 급격히 증가한 결과.

 

 3. 2025년 현실: 메모리가 시스템 성능을 지배하는 시대

 

1994년 논문이 말한 현상은 반드시 다음 순서로 나타난다고 했습니다:

 

① CPU/GPU 성능 ↑

② DRAM 속도가 따라가지 못함

③ 메모리 접근 지연(latency)과 대역폭이 시스템 병목

④ 캐시로 해결 불가능

⑤ 시스템 성능 향상 정체

⑥ 메모리 구조 혁신 필요

→ AI 시대에 이 패턴이 그대로 재현됨.

 

4. 그래서 등장한 것들이 바로 아래 기술들

 

1994년 당시에는 존재하지 않았지만, 이 문제 해결을 위해 등장한 기술들:

 

✔ HBM (High Bandwidth Memory)

  • 논문이 예견한 DRAM 병목을 해결하기 위한 가장 직접적인 기술
  • 실리콘 인터포저 + TSV

  • GPU 바로 옆에서 초고대역폭 제공
  • CPU-GPU 계산보다 메모리가 더 중요해짐

✔ CXL (Compute Express Link)

  • 여러 CPU/GPU가 DRAM/HBM을 공유하기 위해 등장
  • “메모리 풀”을 만들기 위한 기술
  • 논문의 캐시/메모리 병목을 시스템 수준에서 해결하려는 시도

✔ NDP / PIM (Processing-in-Memory)

  • 아예 DRAM 안에서 계산을 수행
  • 메모리가 병목이므로 컴퓨팅을 메모리로 옮기는 개념

 5. 정리: 1994년 논문의 의미(2025년 관점)

 

 

이 논문은 사실상 HBM 시대를 예견한 선지자 문서라고 해도 과언이 아닙니다.

 

------------------------

 

 

  • 이 논문의 수식(t_avg)이 지금 AI GPU에서 어떻게 적용되는지
  • HBM4/DDR6 시대에도 Memory Wall 문제가 지속되는 이유

  • SK hynix·삼성·Micron이 왜 ‘메모리 회사 → AI 인프라 회사’로 변신하는지
  • AI·HBM 슈퍼사이클(2025~2030)과 메모리 벽의 관계(정량 모델)

 

 

1. t_avg 식이 오늘날 AI GPU 메모리 구조에서 어떻게 적용되는가

논문에서 쓴 식은

t_avg = p × t_c + (1 − p) × t_m

여기서

  • p: 캐시 히트 확률
  • t_c: 캐시에 맞았을 때 지연 시간
  • t_m: DRAM(메모리)에 갔을 때 지연 시간

을 의미했죠.

 

AI GPU(예: H100, B200, MI300 등)에 그대로 대입하면 이렇게 매핑할 수 있습니다.

  1. 현대 GPU의 메모리 계층 구조

대략적으로

  • 레지스터·SM 내부 SRAM·L1·Shared memory → 아주 빠른 캐시 (t_c)
  • L2 캐시 → 중간 단계 캐시 (t_c에 포함시켜도 됨)

  • HBM3/HBM3E → “주 메모리” 역할 (t_m)
  • NVLink/PCIe·CXL로 붙은 다른 GPU/호스트 메모리 → 더 느린 “원격 메모리”

로 나눌 수 있습니다.

실제로는 t_c 안에 여러 레벨(L1, L2, Shared)이 있고, t_m 안에 HBM, 원격 메모리까지 포함된 더 복잡한 모델을 쓰지만, 논문의 관점에서는

  • 온칩(on-chip) 메모리 = 캐시
  • 오프칩(off-chip, HBM 포함) 메모리 = DRAM

으로만 나눠도 본질은 같습니다.

  1. AI 워크로드에서 p, t_c, t_m의 의미
  • p: 파라미터·KV 캐시·중간 활성값이
    • 레지스터·Shared memory·L1/L2 안에 있을 확률
      → GPU 커널 튜닝, 텐서 타일링, 재사용도(reuse) 설계로 p를 최대한 키우는 것이 핵심
  • t_c: 온칩에서 데이터를 읽는 시간
    → 몇 ns 단위, 클럭 수로 보면 몇 사이클 수준

  • t_m: HBM에서 읽는 시간
    → 순수 HBM 지연은 수십 ns 정도지만, 큐잉·경합·병렬 접근 등을 포함하면 “유효 지연”은 훨씬 커짐

AI 커널은 대부분 “메모리 대역폭 지배형(bandwidth-bound)”이라, 이 식을 지연 시간 대신 “유효 대역폭” 관점으로 보면 더 직관적입니다.

  • 유효 대역폭 B_eff ≈ 1 / t_avg
    → p가 조금만 떨어져도, t_m이 훨씬 느리기 때문에 B_eff가 급격히 줄어듭니다.
  1. GPU 이용률과 t_avg의 관계

GPU 전체 성능은 간단히 말하면

  • 연산 처리량(FLOPs)
  • 메모리에서 데이터를 가져오는 속도(BW, t_avg로 표현)

중 더 작은 쪽에 의해 결정됩니다.


Roofline 모델로 쓰면:

성능 ≤ min(최대 FLOPs, 메모리대역폭 / 연산당 필요한 데이터량)

이때 메모리대역폭 부분이 바로 t_avg에 묶여 있습니다.

  • p가 커지고(t_c 위주), t_m 비중이 줄어들수록
    → t_avg ↓ → 유효 대역폭 ↑ → GPU 이용률(occupancy) ↑

반대로

  • HBM 병목이 심해지고(큐잉, 경쟁, bank conflict 등),
  • 재사용이 떨어지면(p ↓, t_m 비중 증가)

→ GPU는 연산 유닛을 놀리면서 메모리만 기다리는 “1994년이 말한 그 상황”이 그대로 재현됩니다.

2. HBM4/DDR6가 나와도 Memory Wall 문제가 지속되는 이유

겉으로 보면

  • HBM3 → HBM3E → HBM4
  • DDR5 → DDR6

로 갈수록 속도·대역폭이 크게 늘어나니 “벽이 깨지는 것 아닌가?” 싶지만, 네 가지 요인 때문에 여전히 벽은 남아 있습니다.

  1. 연산 성능 증가 속도가 더 가파르다

대략적인 경향만 보면,

  • GPU 한 세대당 연산 성능: 2배 이상 뛰는 경우 많음 (코어 수, 클럭, 구조 개선, FP8/INT4 도입 등)
  • HBM 대역폭: 1.3~1.6배 수준 증가가 일반적

즉, 프로세서/가속기의 성장 지수가 여전히 메모리보다 큽니다.


1994년 표현대로 하면

  • 둘 다 지수적으로 증가하지만,
  • 프로세서 쪽 exponent가 더 크다 → 격차도 지수적으로 벌어진다
  1. 핀 수, 인터포저, 패키지 물리 한계

메모리 대역폭은 “비트/초”지만, 실제로는

  • I/O 라인 수(핀 수) × 각 라인의 속도

로 결정됩니다. 그런데

  • 패키지·인터포저 위에 낼 수 있는 핀 수는 기구적·열 설계상 한계가 있고
  • 신호 무결성(SI), 전력 무결성(PI), EMI 등 한계 때문에
    → “마음껏 늘리면 된다” 수준이 아닙니다.

HBM4로 가도 결국

  • 더 높은 속도·더 많은 스택·더 넓은 인터페이스를 위해
  • 공정·패키지·전력·쿨링 비용이 폭발적으로 증가합니다.
  1. 데이터셋·모델 규모가 메모리 발전 속도를 상쇄한다

AI 쪽에서는

  • 파라미터 수, 시퀀스 길이, 배치 사이즈, 멀티모달 입력

모두가 동시에 성장하고 있습니다.

예를 들어,

  • GPU 세대가 바뀌며 FLOPs 2배
  • HBM BW 1.5배 증가

라고 해도 그 사이에

  • 모델 파라미터 2~4배,
  • 컨텍스트 길이 4~10배

이런 식으로 커지면, “연산 대비 필요한 메모리 대역폭/용량”이 오히려 더 나빠질 수 있습니다.

  1. 지연(latency) 자체는 거의 안 줄어든다

HBM은 주로 “대역폭”을 늘리는 기술이지,
DRAM 셀의 근본 지연을 크게 줄이지는 못합니다.

  • t_c는 공정 미세화·클럭향으로 비교적 잘 줄어드는데
  • t_m(근본 DRAM 접근 지연)은 수십 ns 단위에서 크게 못 내려가는 구조

즉,

  • 대역폭은 좋아지지만,
  • 메모리 레이턴시 기반의 t_avg 관점에서 보면 “장거리 점프”는 여전히 비쌉니다.

그래서 HBM4/DDR6 시대에도

  • 연산은 계속 빨라지고
  • 데이터는 더 많이 요구되고
  • 근본 DRAM 지연은 거의 안 줄어들고

→ 형태만 달라졌을 뿐, Memory Wall의 본질은 그대로입니다.

3. 왜 SK하이닉스·삼성·Micron이 ‘메모리 회사 → AI 인프라 회사’로 변신하려 하는가

1994년에는 DRAM이 거의 “완전한 범용 부품(commodity)” 취급이었지만,
AI 시대에는 메모리가 완전히 다른 위상을 가지게 됩니다.

  1. AI 성능의 병목 = 메모리 → 메모리가 곧 인프라
  • GPU 수량만 늘린다고 성능이 나오지 않고,
  • GPU당 HBM 용량/대역폭이 충분해야 실제 성능이 나옵니다.

즉,

  • “AI 데이터센터 1GW”를 짓는다는 말 안에는
    → HBM, DDR5, NAND, CXL 메모리 풀까지 포함된 개념이 들어가게 됩니다.

이때 메모리 업체 입장에서

  • 더 이상 “RAM 몇 기가 파는 회사”가 아니라
  • “AI 팩토리의 필수 인프라 레이어”가 되는 구조입니다.
  1. 고마진·장기계약·CAPEX 공유

HBM·고대역폭 DDR·고성능 NAND는

  • 공정 난이도 높음
  • EUV·TSV·CoWoS/FO-PLP 등 패키징까지 필요
  • 투자 비용 엄청 큼

때문에,

  • CSP·GPU 벤더와 3~5년 장기 LTA(Long-Term Agreement)를 맺고
  • “라인 증설 + 특정 고객 전용 공급” 구조로 바뀌고 있습니다.

이 말은 곧

  • 메모리 업체도 AI CapEx(데이터센터 투자)의 일부를 사실상 공유
  • 단순 칩 공급이 아니라, “AI 인프라의 공동 투자자/운영자” 포지션에 가까워짐
  1. 제품이 아니라 ‘솔루션’을 판다

SK하이닉스·삼성·Micron 모두

  • HBM + DDR5 + SSD + CXL 메모리 모듈 + 컨트롤러 + 패키징

이렇게 묶어서

  • “AI 서버용 풀 스택 메모리 솔루션”
  • “GPU/CPU와 최적화된 레퍼런스 플랫폼”

형태로 들어가고 있습니다.

 

장기적으로는,

  • CXL 기반 메모리 풀
  • Near-memory compute, PIM
  • 특정 고객 전용 메모리 노드(예: AI 트레이닝 팜 전용 DRAM 팜)
    까지 제공하는, 사실상 “메모리형 AI 인프라 회사”로 진화하게 됩니다.
  1. 경제적 의미: 메모리 = AI CapEx의 고정 비중

AI 데이터센터 한 랙 기준으로 보면

  • GPU 비용: x
  • HBM/DDR5/NAND 비용: y

인데, 고성능 랙일수록 y/x 비율이 점점 커지고 있습니다.

즉,

  • “AI CapEx가 6000억 달러로 증가”라고 하면
  • 그 중 일정 비율(예: 15~25% 수준)이 구조적으로 메모리로 고정되는 형태

이 구조를 잡는 것이 SK하이닉스·삼성·Micron의 전략 포인트입니다.

4. Memory Wall과 2025~2030 AI·HBM 슈퍼사이클의 정량적 연결

이제 Memory Wall이
단순히 “지연 시간 문제”를 넘어서
“매출·CAPEx·가격”까지 이어지는 구조를 간단한 모델로 보겠습니다.

  1. 시스템 성능의 간단한 식

AI 시스템(예: 한 랙)의 유효 성능 S는 아주 단순화하면

S = min( C, BW / α )

  • C: 랙의 총 연산 능력(FLOPs)
  • BW: 메모리 대역폭(HBM + DDR)
  • α: 연산 1 FLOP당 필요한 바이트 수(모델·알고리즘·배치에 따라 결정)

여기서 BW = f(DRAM/HBM 투자, 공정, 패키지) 이고
C = f(GPU/ASIC 투자) 입니다.

 

Memory Wall의 본질은

  • C가 투자와 기술발전으로 빠르게 증가하는데
  • BW가 그 속도를 못 따라가는 상황
  1. AI CapEx와 메모리 매출의 관계 (질적인 시나리오)

연도 t에서

  • AI 총 CapEx: K(t)
  • 그 중 GPU/가속기 비중: β(t)
  • 메모리(디램+HBM+NAND) 비중: γ(t)

라고 하면, 메모리 매출 M(t)는 매우 단순화해서

M(t) ≈ K(t) × γ(t)

인데, Memory Wall이 심해질수록:

  • “GPU 부족”보다 “HBM 부족”이 더 큰 병목이 되기 때문에
  • CSP·GPU 벤더는 γ(t)를 더 키울 수밖에 없습니다.
    • GPU 한 개당 더 많은 HBM(용량·폭)을 쓰거나
    • 같은 연산에 더 많은 메모리 노드를 추가 구축

즉,

  • K(t)가 전체적으로 빠르게 증가하고
  • γ(t)도 AI 초기 대비 상승하는 구조라면
    → M(t)는 단순 K(t) 성장 이상으로 커집니다.

이게 “DRAM 매출 1600억 → 3000억 달러 시나리오” 같은 그림이 나오는 수학적 배경입니다.

  1. 비트 성장 vs ASP(가격) 성장

논문에서 말한 “속도 격차”가
시장에서는 “공급 비트 성장 vs 수요 비트 성장” 차이로 나타납니다.

  • 수요 비트 성장률 g_demand
    • AI 모델 규모, 유저 수, 에이전트 채택 속도 등에 의해 결정
  • 공급 비트 성장률 g_supply
    • 웨이퍼 투입, 공정 미세화, 3D 적층 수준 등에 의해 결정

Memory Wall이 심해진다는 것은 사실상

 

g_demand > g_supply

상태가 장기간 지속된다는 의미고,


이 상황에서 DRAM/HBM 매출은

매출 ≈ 비트 × ASP
비트는 g_supply에 의해 제한되고,


수요가 더 강하면 ASP가 올라서
→ 매출이 가속적으로 증가하는 구조를 만듭니다.

  1. 시나리오 관점 정리

아주 요약해서,

  • 베이스 시나리오
    • AI CapEx K(t) 20~30% CAGR
    • 메모리 비중 γ(t) 완만한 상승
    • g_demand > g_supply이지만 간격이 크지 않음
      → HBM/DDR 가격 강세, DRAM 매출 고성장(하지만 “폭발”까진 아님)
  • 불(Bull) 시나리오
    • AI 에이전트·온디바이스 AI 확산으로 AI 수요가 추가 폭발
    • GPU·NPU 공급은 비교적 잘 늘어나는데 HBM 증설은 제한적

    • g_demand ≫ g_supply
      → ASP가 매우 급등 → DRAM/HBM 매출이 비트 성장률 이상으로 급증
      → 사용자가 말한 1600억 → 3000억 달러 같은 수치가 현실적으로 보이는 구간
  • 베어 시나리오
    • AI CapEx 성장 둔화
    • DRAM/HBM 증설이 생각보다 빠르게 진행

    • g_supply ≥ g_demand
      → ASP 안정 혹은 하락, 매출 성장 둔화

이 세 시나리오를 가르는 핵심 매개변수가 바로

  • Memory Wall의 체감 강도
  • 그에 따라 CSP·GPU·메모리 업체가 “메모리 용량·대역폭에 얼마를 쓸 것인가”

입니다.

 

정리하면,

  • 1994년 t_avg 식은 오늘날 AI GPU의 캐시/HBM 구조에 그대로 적용되며
  • HBM4/DDR6가 나와도 연산+데이터 성장 속도를 따라가기 어렵기 때문에 Memory Wall은 계속 존재하고

  • 이 병목이 심해질수록 메모리는 “AI 인프라”로 승격되어
  • 2025~2030년 AI·HBM 슈퍼사이클(매출 폭증)의 기술적·경제적 기반이 됩니다.

---------------------

정리하면 AI 컴퓨팅 총량이 1000배 증가하는데 GPU 성능은 20배, 메모리는 5배 증가에 그친다면
2025 → 2030에 메모리 수요가 얼마나 폭증하며, 실제로 메모리 3사가 물리적으로 감당 가능한지에 대한 문제입니다.

정확하게 계산해보겠습니다.

1. 가정 요약

2025 → 2030 (5년)

  • GPU 1개 성능 증가:20배
  • 메모리 대역폭/용량 증가:5배
  • 전체 AI 컴퓨팅 수요 증가: 1000배
    • 구글 CEO 발언(6개월마다 2배 = 5년 1000배)을 따른 것
  • GPU 성능 + GPU 대수 × 효율 → 총 1000배

즉,

1000배 = (GPU 성능 증가 20배) × (GPU 대수 증가 50배)

GPU 대수는 약 50배 늘어남이 기본 시나리오.

 

그렇다면 GPU 수 50배 × GPU 1개당 HBM 2.5배 증가 = 메모리 125배 필요
(아래에서 정량 계산)

2. GPU 수 증가(50배) × GPU당 HBM 증가(1→2.5배)의 결합 효과

✔ GPU 개체 수 증가

  • GPU 성능 증가분으로는 1000배를 감당할 수 없음
    → GPU 대수를 2025 대비 약 50배 늘려야 함

✔ GPU 1개당 HBM 용량 증가

2025 → 2030

  • H100: 80GB
  • H200: 141GB
  • Blackwell(B200): 192~288GB
  • Rubin(차세대): 384~576GB 가능성
  • 2030년 GPU: 512GB~1TB HBM 예상

즉, 2025 대비 약 2.5~4배 용량 증가가 현실적.

메모리 총량 계산

GPU 대수 증가: × 50

GPU 1개 HBM 증가: × 2.5 (보수적)

HBM 수요 증가율 = 50 × 2.5 = 125배

 

즉,
HBM 수요는 2025 대비 2030년에 최소 100배 이상 증가
→ 산업 역사상 전례가 없음.

결론: “1000배 컴퓨팅 → 최소 125배 HBM 수요 증가”

  • GPU만 50배 늘어도 부족
  • GPU당 메모리도 2.5배 필요
  • 총 HBM 수요는 125배

이 구조는 현재 메모리 투자 속도로는 절대 대응 불가능.

3. 메모리 회사(삼성·SK·Micron)가 이걸 감당할 수 있을까?

결론

“불가능에 가깝다.”

하지만 이유는 구체적입니다.

(1) HBM 증설은 일반 DRAM과 다르게 물리적 한계가 크다

HBM 생산에는 다음이 필수:

  • HBM 전용 EUV 공정
  • 특수 TSV 가공
  • 실리콘 인터포저
  • CoWoS(삼성: I-Cube, 하이닉스: 2.5D 패키징)
  • 고대역폭 DRAM Cell
  • 테스트/수율 개선 장비
  • 냉각 솔루션

즉,

HBM은 DRAM보다 최소 3~5배 어려운 공정이며
일반 DRAM 라인을 HBM으로 “바꾸는 것”조차 쉽지 않습니다.

 

TSV 장비, CoWoS 용량은 TSMC가 극도로 제한적
→ 병목은 DRAM 자체가 아니라 패키징.

(2) WFE 장비(ASML EUV) 공급 속도 < HBM 수요 증가 속도

ASML이 EUV를

  • 연 350대 → 400대 → 450대로 늘린다고 해도
    HBM 수요 125배를 맞출 수는 없음.

HBM은 웨이퍼당 수율도 DRAM보다 낮고,
특수 공정 비중이 높아 웨이퍼 투입량을 선형 확대가 불가능.

 

 (3) 125배 수요 증가 = 1년 DRAM CAPEX의 약 10년치 필요

 

현재 DRAM 3사의 CAPEX:

                          회사                                                             연간 반도체 CAPEX

삼성 20~25조원
SK hynix 12~15조원
Micron 8~10조원

 

합계 약 45~50조원.

 

HBM 125배 공급을 위해 필요한 투자:

누적 300~500조원 필요 추정

이는 현실성이 없음.

 (4) 전력・냉각・패키지・후공정 모두 병목

HBM은 성능이 올라갈수록 전력도 증가:

  • HBM3E: 600GB/s → 1TB/s
  • 소비전력 2.5배
  • HBM4: 더 많음

즉, 전력·발열 병목 때문에 “무조건 늘린다”가 불가능.

패키징(2.5D/3D) 생산도 절대 부족.

(5) DRAM 회사 3개로는 감당 불가 → HBM생태계 전체 진화 필수

TSMC/삼성 파운드리/인텔 공동 패키징 → CXL → PIM → New DRAM Architecture

결국 구조 자체가 바뀌어야 함.

4. 그럼 2030년에는 어떤 구조 변화가 일어날까?

✔ CXL 메모리 풀링: 메모리를 공유해 필요한 용량을 줄임

✔ Near-Memory Compute(PIM/NDP): 메모리를 GPU 옆에서 계산시켜 데이터 이동량 감소

✔ DRAM + NAND의 “Tiering”: HBM 부족을 SSD가 보완

✔ 멀티 GPU 간 메모리 공유

✔ 고대역폭 스위치/Networking 강화

✔ “메모리 그래픽”이 중요(메모리 중심 컴퓨팅 시대)

즉,
"메모리를 물리적으로 125배 생산하는 게 아니라,
메모리 사용 방식을 바꾸는 방향으로 기술이 진화"합니다.

최종 결론

Q: GPU 성능 20배, 컴퓨팅 1000배 시대에 메모리는 충분한가?

아니요. 최소 100배 이상의 메모리가 필요하지만, 공급 불가능합니다.

Q: 그럼 무엇이 일어나는가?

  1. 메모리 가격 폭등 (HBM/DDR5/NAND 모두)
  2. DRAM 회사들의 매출/영업이익이 역사적 최고치

  3. CSP·GPU 업체들이 CXL・PIM・NAND 계층화 등으로 “메모리 사용 효율화”에 집중
  4. 메모리가 AI 시스템의 절대 병목으로 부상

  5. 반도체 산업의 중심축이 “GPU → 메모리”로 이동

-------------------------------------------------------------

 

  • 기간: 2025 → 2030 (5년)
  • GPU 1개 성능: 5년간 20배 증가

  • 메모리 성능(대역폭/용량): 5년간 5배 증가
  • 전체 AI 컴퓨팅 수요: 5년간 1000배 증가

이걸 만족하려면

  • 전체 컴퓨팅 수요 = GPU 1개 성능 × GPU 대수
    → 1000배 = 20배 × GPU 대수 지수
    → GPU 대수는 대략 50배 늘어난다고 보면 됩니다.

아래는 이런 가정 하에서 만든 “연도별 DRAM/HBM 수요·공급 모델”입니다.
(2025년을 1로 두고 지수(index)만 봅니다.)


1. 2025~2030 DRAM/HBM 수요·공급 시나리오 테이블

가정

  • AI 컴퓨팅 수요: 매년 4배씩 증가 (5년 후 4⁵ ≈ 1000배)
  • GPU 1개 성능: 5년간 20배 → 연평균 약 1.82배

  • GPU 1개당 HBM 용량: 5년간 2.5배 → 연평균 약 1.20배
    (예: 2025년 80GB → 2030년 200GB 수준)

  • AI용 HBM 공급: 연 30%씩 증가 (상당히 공격적인 가정)

다음 표에서 모든 값은 2025년 = 1 기준입니다.

 

2030년에는 HBM수요가 공급의 34배정도로 공급 부족 상태가 지속됨.

 

 

핵심만 뽑으면

  • 5년 뒤 2030년에
    • AI용 전체 컴퓨팅 수요는 약 1000배
    • GPU 1개 성능은 약 20배
    •  
    • GPU 대수는 약 50배

    • GPU 1개당 HBM 용량은 약 2.5배
      → 그 결과 AI용 HBM 총 수요는 2025년의 약 128배가 됨
  • 같은 기간 AI용 HBM 공급을 연 30%씩 늘려도
    → 5년 후 공급은 3.7배
    → 수요/공급 비율 = 128 / 3.7 ≈ 34배

2. 이걸 메모리 회사들이 감당할 수 있을까?

정직하게 말하면, 위 시나리오를 “있는 그대로” 맞추는 것은 사실상 불가능에 가깝습니다.

 

이유를 쪼개보면:

  1. HBM은 일반 DRAM보다 훨씬 만들기 어렵다
  • TSV, 실리콘 인터포저, 2.5D/3D 패키징, CoWoS 같은 공정이 필요
  • DRAM 셀 공정 + 패키징 둘 다 병목
  • TSMC/삼성 파운드리의 패키징 캐파도 제한적
  1. EUV 장비, 클린룸, FAB 증설 속도가 물리적 한계
  • ASML이 매년 찍어낼 수 있는 EUV 기계 대수 자체가 제한
  • DRAM 3사가 5년 만에 특정 세그먼트(HBM)만 100배로 늘리는 건 물리적으로 불가능
  1. CAPEX 측면에서도 말이 안 됨
  • HBM 125배 수준 증설을 하려면
    → 현재 연간 메모리 CAPEX(삼성+하이닉스+Micron 합산)의
    10년치를 5년 안에 쏟아붓는 수준이 필요

  • 현금, 수요 불확실성, 금리, 주주 리스크 감안하면
    → 그런 투자는 절대 못 합니다
  1. 전력·열·패키지·후공정까지 모두 병목
  • GPU/HBM 한 개당 전력 소모 자체가 커짐
  • 랙/데이터센터 입장에서는 전력·냉각이 한계
  • 물리적 랙 수용 한계 때문에 “GPU 50배, 메모리 125배”를 그대로 깔 수가 없음

-----------------------

 

AI 가속기(GPU/ASIC 등)에서 캐시 히트 확률 p가 낮아질수록 왜 HBM 수요가 폭발적으로 증가하는지를 구조적으로 설명드릴게요.

1. AI 가속기는 “캐시 친화적이지 않은 워크로드”

전통적인 CPU 워크로드(웹 서버, DB 등)는 자주 쓰는 데이터가 반복적으로 캐시에 남는다 → p가 높다(>90%).

하지만 AI 가속기는 구조적으로 그렇지 않습니다:

이유 1) 모델 파라미터 크기가 캐시에 비해 압도적으로 큼

  • L1/L2/L3 캐시는 MB 단위
  • 대형 모델(LLM)은 수백 GB~수 TB
    → 캐시에 올릴 수 없음 → 캐시 히트율(p) 매우 낮음

이유 2) 대량의 연속적 텐서 연산은 “스트리밍” 구조

  • 한 번 읽고 다시 같은 데이터 접근을 잘 하지 않음
    → locality가 낮아 p가 낮음

이유 3) 여러 GPU가 수십 GB의 파라미터를 분산 보유

→ 서로 통신하며 HBM에서 다시 로딩
→ 캐시에는 남아있지 않음

결론: AI 워크로드는 캐시 히트율이 극도로 낮다 (p ≈ 0.01~0.10)
→ 대부분의 메모리 접근이 DRAM(HBM)으로 간다.

2. p가 낮으면 평균 접근 시간(t_avg)은 HBM 속도에 거의 좌우됨

공식은 다음과 같습니다:

t_avg = p × t_c + (1 − p) × t_m

 

AI에서는 p가 거의 0이므로:

t_avg ≈ t_m (=(DRAM/HBM 접근 시간))

즉, HBM 속도가 시스템 전체 성능을 결정합니다.

3. p가 낮으면 생기는 현상 → “메모리 바운드(memory-bound)” 상태

AI 연산 성능은 GPU FLOPS가 아니라 HBM 대역폭이 병목이 됩니다.

예:

  • GPU 코어 연산능력은 8배 증가
  • HBM 대역폭은 세대당 1.3~1.6배 증가

→ 연산 성능 대비 메모리 성능 증가율이 낮아짐
→ 캐시가 제 역할을 하지 못하므로 대부분은 HBM 대역폭 부족으로 성능이 제한됨.

 

그래서 현대 AI 칩은 HBM 스택당 1.2~1.4TB/s, 6~8스택 = 6~10TB/s 대역폭 같은 극단적 구조를 도입하는 것.

4. p가 낮을수록 HBM의 “용량”과 “대역폭”이 둘 다 폭발적으로 증가해야 하는 이유

AI 가속기가 모델 파라미터와 활성값을 처리할 때:

① 모델 파라미터가 커질수록 필요한 메모리 용량(GB 단위) 증가

  • GPT-3 수준: 175B parameters → 약 350GB 필요
  • GPT-4, Gemini 2, DeepSeek-R 모델: 1~2TB 필요

캐시에는 절대 들어갈 수 없으므로
→ 그대로 HBM 용량 증가로 이어짐.

그래서:

  • H100: HBM 80GB
  • H200: HBM 141GB
  • B100: HBM 192GB
  • GB200: HBM 384GB
  • GB300: HBM 576GB

HBM 용량이 2년마다 2배씩 증가 중.

② 캐시 히트율이 낮기 때문에 HBM 대역폭(GB/s)도 폭증

왜냐하면 모든 연산이 HBM으로 가기 때문.

모델 크기 증가 → 크기가 곱하기로 커짐


백프로 HBM에서 읽어야 함
→ 필요한 대역폭은 선형이 아니라 지수적으로 증가

그래서:

  • HBM 대역폭은 매 세대 1.3~1.6배씩 증가
  • GPU 연산량은 FP8·INT4 도입으로 2~4배씩 증가
    → 연산 대비 메모리 대역폭 부족이 급격히 악화

즉, p가 낮으면 메모리 대역폭이 GPU 성능 스케일링을 따라가야만 전체 성능이 유지됨.

5. 결정적 요약:

p가 낮으면 → 매 접근이 HBM으로 간다 → HBM이 병목이 된다

→ HBM 용량(GB)과 대역폭(TB/s)이 폭증해야 한다

→ 따라서 HBM 수요가 기하급수적으로 증가한다

 

이것은 단순히 “성능 향상” 때문이 아니라
AI 모델 구조 자체가 캐시를 거의 쓰지 못하기 때문에 생기는 필연적 결과입니다.