본문 바로가기

반도체-삼성전자-하이닉스-마이크론

Gemini 3와 GPT-5.2가 보여주는 대변혁의 조짐, Weekly EU

2025.12.12

KB증권

https://rcv.kbsec.com/streamdocs/pdfview?id=B520190322125512762443&url=aHR0cDovL3JkYXRhLmtic2VjLmNvbS9wZGZfZGF0YS8yMDI1MTIxMjA5MDczMjIyMEsucGRm&wInfo=bG1rODQwMA==

 

■ AGI Level 3를 향한 진전을 보여준 Gemini 3와 GPT-5.2. 과잉 통화완화의 원인이 될 수 있음


DeepMind의 AGI 5단계. 2023년 11월에 DeepMind는 일반인공지능 (AGI)의 성능 (performance)과 범용성 (generality)을 기준으로 지식, 추론, 코딩 등과 같은 비물리적인 작업에서 인간 수준을 초과하는 단계를 5개로 구분.

 

Level 1) Emerging AGI는 특정 작업에서 비숙련 인간 수준의 성능을 보이는 단계. GPT-4가 여기에 해당.

 

Level 2) Competent AGI는 경제적으로 가치가 있는 작업에서 숙련된 성인이 보여줄 수 있는 중간 이상 (숙련된 성인의 50%보다 나은)의 성능을 발휘하는 단계. Gemini 3와 GPT-5.2가 여기에 해당되는 것으로 평가.

 

Level 3) Expert AGI는 대부분의 작업에서 숙련된 성인의 상위 10%가 보여줄 수 있는 것보다 나은 성능을 발휘하는 수준. 박사급 인간 전문가를 지속적으로 능가하는 단계.

 

Level 4) Virtuoso AGI는 대부분의 작업에서 숙련된 성인의 상위 1%를 초과하는 성능을 보여주며, 복잡한 문제를 해결할 때 창의적이고 혁신적인 방식을 사용해서 인간을 압도.

 

Level 5) Superhuman AGI는 모든 작업에서 인간을 초월하는 단계


Gemini 3와 GPT-5.2가 보여주는 진전. 현재의 Level 2에서 Level 3로 나아가기 위해서는

1) 추론 (reasoning)을 통해 인간처럼 숙고하는 능력,

 

2) 답변의 검증을 사용자에게 넘기지 않고 자율적으로 오류를 수정하는 에이전트 능력,

 

그리고 3) 인간처럼 장기간 기억하는 능력 (memory)을 확보해야 함.

그런 점에서 지난달에 나온 Gemini 3와 오늘 새벽에 나온 GPT-5.2는 상당한 진보를 보여줌.

 

1) 추론 능력: GPQA Diamond 같은 과학/수학 벤치마크에서 박사급 전문가 수준인 90%대 정답률을 기록하기 시작. Gemini 3는 91.9%, GPT-5.2는 92.4%를 기록하면서 Level 3의 기준으로 여겨지는 95%에 육박했는데, 이전 모델에 비해 큰 폭의 상승이 있었던 걸 보면 정복이 머지 않았다는 평가.

 

2) 에이전트 능력. 기존에 랭체인 (LangChain) 같은 외부 툴을 이용해서 구현했던 ‘실행-검증 루프’가 Gemini 3와 GPT-5.2의 기본 아키텍처에 통합. 이를 통해 자율 코딩 역량을 측정하는 SWE-bench Pro 점수가 1년 전 10%대에서 최근 50%대로 급등 (Level 3 기준은 60%).

 

3) 장기 기억 능력. 방대한 정보에서 특정 정보를 발견하는 능력을 검증해서 장기 기억력을 측정하는 MRCR v2 (8 needles, 최대 입력토큰 128k)에서 Gemini 3는 77%를 기록. 기존 모델이 40~60%대의 점수를 기록한 것에 비해 큰 진전을 보여줌. 그

 

런데 GPT-5.2는 85%로 더 나은 모습을 보여줌. 사용자에 대한 방대한 정보를 초정밀 타깃 광고에 활용해야 하는 메타도 사용자에 대한 정보를 모두 기억하지 않고 핵심 개념만 압축해서 연산 부담을 줄이는 기술을 발전시키고 있음


Level 3로 의미 있게 전진할 2026년. 높아지는 과잉 통화완화의 가능성.

Level 5가 기술적인 특이점이라면, 사회/경제적으로 실질적인 영향을 주기 시작하는 특이점은 Level 3.

 

AI가 숙련된 성인 상위 50% 수준인 Level 2에서는 인간의 능력을 강화하는 보완재지만, 숙련된 성인 상위 10% 수준으로 가면서 대체재로 바뀌기 때문.

 

단순히 데이터센터를 더 짓거나 데이터를 더 집어넣는 스케일링 전략으로 Level 2에서 Level 3로 진전하기 어렵다는 평가가 많은데, 전진을 가로 막던 몇몇 문제에서 돌파구를 마련한 LLM 개발사들이 성과를 보여주고 있음.

 

지금 속도라면, AGI Level 3는 내후년에 도달할 수 있을 전망.

특히, OpenAI와 구글의 경쟁 심화로 두 회사 모두 LLM 성능 향상에 집중하면서, 이르면 내년 후반에도 Level 3에 닿을 수 있다는 전망이 나오기 시작.

 

Level 2에서는 생산성 향상이 가장 눈에 띄는 변화이겠지만, Level 3에 가까워질수록 고용시장에 미치는 충격이 가시화될 것.

 

고용시장이 약해지면서 소비심리가 위촉되고 물가 압력이 약해지면 통화완화 정책으로 대응하겠지만,

AI가 고용시장에 영향을 미치면서 통화완화 정책의 효과가 생각만큼 나오지 않아 과잉 완화될 가능성을 염두에 두어야 함