본문 바로가기

반도체-삼성전자-하이닉스-마이크론

멀티모달(multimodal)-메모리 수요 폭증(2025.12.25)

2025.12.25

multimodal [mΛltimóudl] -->1.다모드의  2.다양식의  3.다양한 

modality [moudǽləti] --1.양상 2.양태 3.법성

 

멀티모달(multimodal)은
서로 다른 종류의 데이터(모달리티)—예를 들면 텍스트, 이미지, 음성, 영상, 센서 데이터—를 함께 이해·처리·생성하는 기술

또는 AI 시스템을 말합니다.

 

멀티모달은 연산 구조를 변화시켜

  • GPU + HBM 수요 폭증
  • 영상·음성 처리 → 메모리 대역폭 의존 ↑
    ( AI 인프라·HBM 수요 확대와 직접 연결됨)

1️⃣ ‘모달리티’란?

모달리티는 정보가 표현되는 방식입니다.

  • 텍스트: 문장, 숫자, 코드
  • 이미지: 사진, 그림, 스캔 문서

  • 음성: 사람 말소리, 환경음
  • 영상: 연속 이미지 + 시간 정보

  • 센서: 온도, 압력, LiDAR, 레이더 등

👉 멀티모달 = 두 가지 이상 모달리티를 동시에 다룸

2️⃣ 싱글모달 vs 멀티모달

          구분                              예시                                                                           한계

싱글모달 텍스트만 이해하는 챗봇 이미지·소리 이해 불가
멀티모달 사진 보고 설명 + 질문 답변 현실 세계에 더 가까움

3️⃣ 멀티모달 AI는 무엇을 할 수 있나?

(1) 이해 (Understanding)

  • 사진을 보고 무엇이 있는지 설명
  • 그래프 이미지를 보고 수치 해석
  • 영상 + 자막 + 음성을 함께 이해

(2) 변환 (Cross-modal)

  • 이미지 → 텍스트 (OCR, 설명 생성)
  • 음성 → 텍스트 (STT)
  • 텍스트 → 이미지/영상 생성

(3) 추론 (Reasoning)

  • “이 사진 속 사람이 왜 위험한 상황인가?”
  • “이 그래프와 기사 내용을 종합하면 무슨 의미인가?”

(4) 행동 (Action)

  • 로봇: 카메라 + 센서 + 언어 명령을 통합해 행동
  • 자율주행: 영상·레이더·LiDAR·지도 결합

4️⃣ 직관적인 예시

  • 📸 사진 찍고 “이게 뭐야?” → 설명 생성
  • 🎤 말하면 자동으로 문서 작성

  • ✏️ “노을 진 도시 그림 그려줘” → 이미지 생성
  • 🤖 로봇이 보고(비전) 듣고(음성) 판단해 움직임

5️⃣ 왜 지금 멀티모달이 중요한가?

① 현실 세계는 원래 멀티모달

사람은 보고·듣고·읽고·촉각으로 동시에 판단함

② AI 활용 범위 폭발

  • 자율주행
  • 의료 영상 + 판독 리포트

  • 스마트 팩토리
  • AI 비서·로봇

③ 연산 구조 변화

  • GPU + HBM 수요 폭증
  • 영상·음성 처리 → 메모리 대역폭 의존 ↑
    ( AI 인프라·HBM 수요 확대와 직접 연결됨)

6️⃣ 멀티모달과 생성형 AI의 관계

  • 생성형 AI: “만든다”
  • 멀티모달: “여러 입력을 이해한다”

👉 최근 AI는 멀티모달 + 생성형이 결합됨
예: 이미지 보고 → 이해 → 텍스트/이미지/행동 생성

7️⃣ 한 줄 요약

멀티모달이란, AI가 텍스트·이미지·음성·영상 등 여러 감각 정보를 동시에 이해하고 연결해 추론·생성·행동하는 능력이다.

 

---------------------------

아래는 왜 멀티모달이 HBM/DRAM 수요를 ‘구조적으로’ 폭발시키는지연산 구조·메모리 접근 패턴·시스템 규모 관점에서

정리한 설명입니다.

한 줄 결론

멀티모달은 동시에 처리해야 할 데이터의 종류·양·연결성이 폭증해, 연산보다 ‘메모리 대역폭·용량’이 병목이 되며 HBM/DRAM 수요를 급증시킨다.

1️⃣ 입력 데이터 자체가 다차원·대용량

텍스트 대비 멀티모달 입력은 차원이 다릅니다.

 

 

 

2️⃣ 멀티 인코더 구조 = 메모리 상주 모델 수 증가

멀티모달 모델은 보통 모달별 인코더를 가집니다.

 
  • 인코더마다 파라미터 + 중간 활성화(Activation) 상주
  • 활성화는 추론 중 즉시 재사용 → 메모리 대역폭 민감

👉 “모델 하나”가 아니라 “모델 묶음”을 동시에 돌림

3️⃣ Fusion(결합) 단계가 메모리 지옥

멀티모달의 핵심은 Fusion입니다.

  • 서로 다른 임베딩을 정렬·교차 어텐션
  • 모든 모달 간 N×M 상호 참조
  • 어텐션 = 대규모 메모리 읽기/쓰기

👉 연산량보다 메모리 이동량(Byte)이 급증
👉 HBM 없으면 GPU가 놀게 됨

4️⃣ 추론(inference)에서도 메모리 요구가 줄지 않는다

기존 가정: “메모리는 학습 때만 많이 든다” ❌

멀티모달에서는:

  • 실시간 영상·음성 스트리밍
  • 컨텍스트 길이 급증
  • KV-cache (어텐션 캐시) 장기 유지

👉 추론 서버도 HBM/고대역 DRAM 필수

5️⃣ 배치 효율이 낮아진다 = 메모리 더 필요

텍스트 LLM:

  • 배치 크게 묶기 쉬움

멀티모달:

  • 영상 길이·해상도 제각각
  • 센서 데이터 비동기
  • 사용자 입력 다양

👉 배치 분할 → 메모리 낭비 증가
👉 같은 TPS를 내려면 GPU 수 + 메모리 용량 증가

6️⃣ 시스템 레벨에서 DRAM 수요도 동반 폭증

HBM만 늘어나는 게 아닙니다.

 

 

7️⃣ 왜 ‘HBM’이 특히 터지는가

멀티모달은 연산보다 대역폭이 문제입니다.

  • 어텐션 = FLOPs보다 Bytes/s
  • 영상·센서 = 스트리밍 접근
  • Fusion = 랜덤 접근 + 반복 참조

👉 HBM의 초광대역(>5~8TB/s) 없으면 성능이 안 나옴
👉 “HBM이 곧 모델 크기·품질의 상한선”

 

8️⃣ 그래서 나타나는 시장 현상

  • GPU 세대 교체마다 HBM 스택 수↑
  • 추론 서버에도 HBM 탑재

  • DDR5/DDR6 서버 메모리 상시 부족
  • “메모리가 전략 자원”으로 격상

👉 HBM 구조적 쇼티지·DRAM 장기 타이트핵심 원인

핵심 요약 (3줄)

  1. 멀티모달은 동시 데이터 + 다중 인코더 + Fusion으로 메모리 상주량을 폭증시킨다
  2. 병목은 FLOPs가 아니라 메모리 대역폭과 용량이다
  3. 그래서 HBM이 AI 성능의 실질적 상한선이 된다

----------------

 

아래는“왜 학습이 아니라 추론(inference)이 중심이 되는 시대에도 메모리 슈퍼사이클이 끝나지 않는가”를
연산 구조·메모리 접근·서비스 형태 변화 관점에서 단계적으로 정리한 논리입니다.

 

한 줄 결론

추론 중심 시대의 병목은 연산(FLOPs)이 아니라 ‘메모리 대역폭·용량·상주성’이며, 멀티모달·장문 컨텍스트·실시간 서비스가 이를 구조적으로 고정시킨다.

1️⃣ 추론은 ‘가볍다’는 전제가 깨졌다

과거 추론:

  • 짧은 입력
  • 단일 모달
  • 배치 처리 가능

지금의 추론:

  • 멀티모달(영상·음성·텍스트 동시)
  • 컨텍스트 수십만 토큰

  • 실시간·개인화
  • KV-cache 장기 유지

👉 연산량은 제한돼도 메모리는 줄지 않는다.

2️⃣ KV-cache가 메모리를 ‘상주 자원’으로 만든다

추론의 핵심 병목은 어텐션 캐시(KV-cache) 입니다.

  • 토큰이 늘수록 캐시가 선형 증가
  • 사용자 세션이 길수록 캐시 유지 시간 증가
  • 멀티모달일수록 캐시 종류·차원 증가

👉 캐시는 “계산 후 버림”이 아니라
👉 GPU 메모리에 계속 머물러야 하는 자원

3️⃣ 멀티모달 추론 = 메모리 접근 지옥

멀티모달 추론에서는:

  • 인코더 여러 개 상주
  • Fusion에서 교차 어텐션 반복
  • 스트리밍 입력(영상·음성) 지속 유입

👉 FLOPs 대비 메모리 읽기/쓰기 비율(Byte/FLOP) 급증
👉 HBM 대역폭이 성능을 결정

4️⃣ 배치 효율 붕괴 → 메모리 낭비 구조 고착

텍스트 LLM은 배치 묶기가 쉬웠지만:

  • 영상 길이 제각각
  • 음성 샘플링 다름
  • 사용자별 컨텍스트 다름

👉 배치 축소
👉 같은 TPS를 내려면 GPU 수·메모리 용량 증가

5️⃣ ‘지연(latency)’이 최우선이 된다

추론 서비스는:

  • 응답 지연 수 ms~수십 ms 요구
  • 캐시 미스 허용 불가
  • 메모리 압축·스왑 위험 회피

👉 HBM/DRAM을 넉넉히 깔아두는 설계가 정답
👉 메모리를 줄이면 비용↓가 아니라 서비스 품질 붕괴

6️⃣ 서버 메모리(DRAM)도 같이 늘어난다

GPU만의 문제가 아닙니다.

  • 전처리·후처리
  • 멀티 GPU 간 데이터 이동
  • CXL 기반 확장 메모리
  • 대형 컨텍스트 프리페치

👉 DDR5/DDR6 서버 메모리 상시 상주량 증가
👉 추론 중심일수록 CPU–GPU 메모리 파이프 두꺼워짐

7️⃣ 모델이 ‘작아져도’ 메모리는 줄지 않는다

경량화 트렌드가 있어도:

  • 더 많은 동시 사용자
  • 더 긴 컨텍스트
  • 더 많은 모달
  • 더 복잡한 에이전트 워크플로

👉 모델 파라미터 ↓
👉 메모리 트래픽·캐시·동시성 ↑

즉, 효율화는 수요를 제거하지 않고 확장시킴.

직관적 구조 그림

8️⃣ 그래서 메모리 슈퍼사이클이 끝나지 않는 이유 (정리)

  1. 추론이 메모리 상주 작업으로 변했다
  2. 멀티모달·장문 컨텍스트가 표준이 됐다
  3. 지연 민감 서비스는 메모리 축소를 허용하지 않는다
  4. 효율화는 사용량 확대로 이어진다

👉 결과적으로 HBM + DRAM은 구조적 부족 상태 유지

3줄 요약

  • 추론 중심 시대의 병목은 연산이 아니라 메모리
  • 멀티모달·KV-cache·실시간성이 메모리 상주 구조를 고정
  • 그래서 메모리 슈퍼사이클은 끝나지 않고 형태만 진화한다

---------------------------

2025.12.25

엔비디아 오픈AI 아닙니다! 거의 모든 걸 가졌습니다 AI 최후 승자가 바뀔 겁니다 / 김정호 카이스트 교수 (1부)