2025.01.27
DeepSeek는 2023년에 설립된 중국의 인공지능(AI) 연구 기업으로, 오픈소스 대형 언어 모델(LLM)의 개발에 주력하고 있습니다. 이 회사는 중국의 헤지펀드인 High-Flyer의 지원을 받고 있으며, 설립자이자 CEO는 량원펑(Liang Wenfeng)입니다. Wikipedia
주요 AI 모델
- DeepSeek-V3: 2024년 12월에 출시된 이 모델은 6710억 개의 매개변수를 가지고 있으며, 55일간 약 558만 달러의 비용으로 훈련되었습니다. 벤치마크 테스트에서 Meta의 Llama 3.1과 Qwen 2.5를 능가하며, OpenAI의 GPT-4o 및 Anthropic의 Claude 3.5 Sonnet과 동등한 성능을 보였습니다. Wikipedia
- DeepSeek-R1: 2025년 1월 20일에 발표된 이 모델은 강화 학습을 통해 논리적 추론, 수학적 추론 및 실시간 문제 해결 능력을 향상시켰습니다. 특히 수학 및 코딩 분야에서 OpenAI의 o1 모델과 비교하여 우수한 성능을 보였습니다.
- Wikipedia
기술적 접근 및 특징
DeepSeek는 제한된 자원으로도 고성능 AI 모델을 개발하기 위해 소프트웨어 최적화와 혁신적인 모델 아키텍처에 집중하고 있습니다. 예를 들어, Mixture-of-Experts(MoE) 아키텍처와 Multi-head Latent Attention Transformer를 활용하여 효율성을 극대화하고 있습니다. Wikipedia
글로벌 AI 업계에 미친 영향
DeepSeek의 혁신은 미국의 AI 업계에 큰 충격을 주었으며, 특히 NVIDIA와 같은 하드웨어 중심 기업들의 전략에 영향을 미쳤습니다. DeepSeek의 효율적인 소프트웨어 최적화 접근법은 AI 개발에서 하드웨어 의존도를 낮추는 방향으로의 전환을 촉진하고 있습니다. Financial Times
또한, DeepSeek의 오픈소스 모델 공개는 AI 기술의 민주화와 글로벌 협력을 촉진하며, AI 산업의 효율성과 접근성을 재정의하고 있습니다. Wikipedia
이러한 발전을 통해 DeepSeek는 중국이 AI 분야에서 글로벌 리더로 부상하는 데 중요한 역할을 하고 있습니다.
-------------------------------------
H800은 H100의 성능을 낮춘 버전이지만, 주로 사용하는 플로팅 포인트 32, 16, 8의 컴퓨팅 능력은 H100과 동일합니다.
또한, 메모리 사이즈와 밴드위스도 동일합니다. 딥씨크는 H800의 인터커넥션 밴드위스가 H100보다 낮은 점을 극복하기 위해 PTX 프로그래밍을 통해 하드웨어 수준에서 최적화를 진행했습니다.
이를 통해 데이터를 압축하여 전송하고, 수신 시 압축을 푸는 방식으로 실질적으로 전송할 수 있는 데이터 양을 늘렸습니다. 이러한 최적화를 통해 딥씨크는 H800에서도 H100에 근접한 성능을 달성할 수 있었습니다.
--------------------------------------------
2025.02.05
딥시크 따져보니 “개발비 10%?” “챗GPT 베끼기?” / KBS 2025.02.04.
--------------------------------------------
'중국에 AI추격 당했다'...미국 초긴장시킨 딥시크 쇼크 [지금이뉴스] / YTN
-----------------------------------------
DeepSeek은 주로 인공지능(AI) 기반의 데이터 분석, 정보 검색, 또는 고급 탐지 기술을 설명하는 데 사용되는 용어입니다. 하지만, 이 용어는 문맥에 따라 의미가 달라질 수 있습니다. 아래는 가능한 주요 사용 사례들입니다:
1. AI 기반 탐지 시스템
DeepSeek은 딥러닝(Deep Learning)을 활용해 데이터를 분석하고 패턴을 탐지하는 시스템을 지칭할 수 있습니다. 예를 들어, 사이버 보안, 의료 데이터 분석, 또는 복잡한 문제에서 중요한 정보를 자동으로 찾아내는 데 사용됩니다.
주요 특징
- 딥러닝 알고리즘 활용: 대량의 데이터를 학습해 정확한 예측 및 탐지를 수행.
- 패턴 탐지: 기존 분석 방법으로는 발견하기 어려운 숨겨진 패턴을 찾아냄.
- 적용 분야: 금융 사기 탐지, 암세포 검출, 부정 행위 탐지 등.
2. 바이오메디컬 분야
DeepSeek은 바이오메디컬 분석, 특히 암 세포나 희귀 질환 같은 미세한 생물학적 데이터를 고도 분석하는 도구 또는 플랫폼의 이름으로 사용될 수 있습니다. 초고감도 진단 기술에 딥러닝을 결합해 정밀한 결과를 제공하는 시스템으로 사용됩니다.
예시
- 유전자 분석: 대규모 유전자 데이터에서 특정 변이를 찾아내는 도구.
- 질병 진단: 혈액, 조직 샘플 등에서 질병 마커를 탐지.
3. 검색 및 정보 분석 플랫폼
DeepSeek이 검색 엔진이나 데이터 분석 플랫폼을 지칭하는 경우, 고급 자연어 처리(NLP) 기술을 활용해 심층적인 검색 결과를 제공하는 시스템을 의미할 수 있습니다.
가능 활용 분야
- 법률 및 금융 데이터 분석: 관련 문서나 규정을 빠르게 찾아냄.
- 빅데이터 기반 추천 시스템: 사용자 맞춤형 콘텐츠 제공.
----------------------------------------
🔥2025년은 무료 인공지능 시대! ChatGPT, Claude 안녕 | DeepSeek 완벽 분석 | AI 챗봇 비교 및 활용법 | DeepSeek | AI 글쓰기 | 오후다섯씨
---------------------------
2025.01.30
中 딥시크, 오픈AI 데이터 도용으로 성공했나...MS·오픈AI 조사착수
中 딥시크, 오픈AI 데이터 도용으로 성공했나...MS·오픈AI 조사착수
오픈AI와 마이크로소프트(MS)가 최근 글로벌 인공지능(AI) 업계를 강타한 중국 AI스타트업 ‘딥시크’가 오픈AI의 데이터를 도용(盜用)했는지 여부에 대해 조사를 시작하기로 했다. 이 회사는 미국
v.daum.net
하지만 이 같은 저비용의 배경이 오픈AI가 큰 돈을 들여 개발한 데이터를 도용했기에 가능했다는 주장이 나왔기 때문이다.
----------------------------
2025.01.31
빅테크들의 AI투자액
회사별로 2025년도 회계년도보다 2026년 회계년도에 AI투자액은 증가하지만 증가율은 감소한다.
마이크로소프트: 849억달러(2025년 회계년도,전년비 +52%)--->951억달러( 2026년 회계년도,전년비 +12%)
메탸: 520억달러( 2025년 회계년도,전년비 +31%)--->610억달러 ( 2026년 회계년도,전년비 +17%)
구글:
630억달러( 2025년 회계년도,전년비 +29%)--->1054억달러 ( 2026년 회계년도,전년비 +9%)
아마존:
964억달러( 2025년 회계년도,전년비 +22%)--->700억달러 ( 2026년 회계년도,전년비 +12%)
--------------------------------
딥시크(DeepSeek)의 강점은 무엇인가?
딥시크(DeepSeek)는 **"저비용 AI 모델"**을 내세우고 있지만, 그 외에도 몇 가지 강점이 있습니다.
✅ 1) 비용 효율성
✅ 2) 오픈소스 활용 가능성
✅ 3) 중국 AI 시장 특화
✅ 4) 특정 용도에 최적화 가능
✅ 5) 데이터 프라이버시 강화 (로컬 모델 가능성)
이제 하나씩 살펴볼게요. 🚀
1. 저비용 운영 가능성 (비용 효율성)
- 딥시크는 기존 GPT-4 같은 모델보다 저비용으로 AI를 학습 및 운영할 가능성이 큼.
- 이유는?
1️⃣ 오픈소스 모델을 기반으로 자체 개발하여 R&D 비용 절감
2️⃣ 중국산 AI 칩 사용 가능성 (HBM & GPU 비용 절감)
3️⃣ 최적화된 모델 경량화로 운영 비용 절감
💡 즉, ChatGPT 같은 초거대 모델보다 비용이 적게 들면서도 비슷한 성능을 제공하는 것이 목표.
2. 오픈소스 기반 활용 가능성 (개발 유연성)
- ChatGPT, Claude, Gemini 같은 모델은 대부분 폐쇄형(OpenAI, Google 독점).
- 딥시크는 오픈소스 가능성이 있으며, 사용자 맞춤형 AI 개발이 더 쉬울 수도 있음.
- 예를 들어, 기업이 자체적으로 딥시크 모델을 가져와 커스터마이징하여 사용할 가능성이 있음.
💡 즉, 개발자들이 딥시크를 활용하여 자신만의 AI 모델을 만들 가능성이 큼.
3. 중국 AI 시장 특화 (로컬 규제에 강함)
- 중국은 ChatGPT, Claude, Google Gemini 같은 해외 AI 서비스 사용이 제한됨.
- 따라서, 중국 기업과 정부가 딥시크 같은 로컬 AI를 선호할 가능성이 큼.
- 중국 정부가 자국 AI 모델을 적극 지원할 가능성도 있음.
💡 즉, 중국 시장에서는 딥시크가 가장 강력한 AI 모델이 될 가능성이 있음.
4. 특정 용도에 최적화 가능 (경량 모델 & 커스텀 모델 가능)
- ChatGPT 같은 초거대 AI는 범용적이지만, 딥시크는 특정 용도에 맞게 최적화 가능성이 있음.
- 예를 들어,
✅ 로컬 AI 모델로 제공 → 개인 PC에서도 실행 가능.
✅ 기업 맞춤형 AI 서비스 제공 → 특정 산업(의료, 금융, 법률 등)에 특화된 AI 가능.
💡 즉, 맞춤형 AI 서비스가 필요한 곳에서 딥시크가 강점이 될 수 있음.
5. 데이터 프라이버시 강화 (로컬 모델 활용 가능)
- ChatGPT나 Claude 같은 클라우드 AI는 모든 데이터가 서버에 저장됨.
- 딥시크가 로컬 AI 모델로 제공된다면, 데이터를 사용자 PC나 서버에서 처리할 수 있어 보안이 강화됨.
- 특히, 기업들이 자체적으로 AI를 운영할 때 데이터 유출 위험이 낮아짐.
💡 즉, 보안이 중요한 기관(정부, 금융사, 의료 기업)에서 유리함.
🔹 결론: 딥시크의 강점 정리
강점 설명
비용 효율성 | 저비용 AI 운영 가능, ChatGPT 대비 경제적 |
오픈소스 가능성 | 개발자가 직접 모델을 활용 & 커스텀 가능 |
중국 AI 시장 특화 | 중국 내 AI 규제에 맞춰 운영 가능 |
맞춤형 AI 모델 가능 | 특정 산업(의료, 금융, 법률 등)에 최적화 |
데이터 프라이버시 강화 | 로컬 AI 모델 배포 가능성 |
✅ 딥시크는 ChatGPT와 경쟁하기보다는 "저비용"과 "커스텀 AI 모델"을 강점으로 내세울 가능성이 큽니다! 🚀
----------------------------------------
deepseek 관련 논문을 볼 수있는 곳을 알려줘
"DeepSeek" 관련 논문이나 자료를 찾으시려면 아래와 같은 여러 학술 자료 검색 사이트와 데이터베이스를 활용해 보실 수 있습니다:
- Google Scholar
Google Scholar에서 “DeepSeek” 또는 관련 키워드를 검색해 보세요. 다양한 학술 논문, 학회 자료, 인용 정보 등을 확인할 수 있습니다. - arXiv
arXiv.org에서는 컴퓨터 과학, 인공지능, 머신러닝 등 관련 분야의 최신 연구 논문들을 무료로 열람할 수 있습니다. “DeepSeek”와 관련된 논문이 업로드되어 있을 가능성이 있습니다. - ResearchGate
ResearchGate에서도 연구자들이 공유한 논문 및 연구 결과를 검색할 수 있습니다. 회원 가입 후 이용 시, 연구자와 직접 소통하며 자료를 요청할 수도 있습니다. - IEEE Xplore
만약 “DeepSeek”가 전기전자공학이나 컴퓨터 과학 관련 학회에서 발표된 내용이라면, IEEE Xplore에서 검색해 보시는 것도 좋습니다. 다만, 일부 자료는 기관 구독이나 개별 구매가 필요할 수 있습니다. - ACM Digital Library
ACM Digital Library 역시 컴퓨터 과학 분야의 주요 학회 논문들을 제공하므로 참고해 보시면 좋습니다. - 대학 도서관 및 기관 리포지터리
소속 대학이나 연구기관의 도서관 시스템 또는 오픈 액세스 리포지터리(예: KoreaScience)를 통해 “DeepSeek” 관련 논문을 찾아보실 수도 있습니다.
팁:
- 검색 시 “DeepSeek” 외에 프로젝트와 관련된 구체적인 주제어나 연구자 이름, 혹은 발표 연도 등을 함께 입력하면 더 구체적인 결과를 얻을 수 있습니다.
- 만약 특정 논문이나 자료에 접근이 어려운 경우, 해당 논문의 저자에게 직접 이메일로 문의하거나 ResearchGate 등을 통해 요청하는 방법도 고려해 보세요.
--------------------------------------------------
DeepSeek와 관련된 논문을 찾아볼 수 있는 경로는 다음과 같습니다.
- DeepSeek 홈페이지: DeepSeek의 공식 홈페이지 (https://www.deepseek.com/)의%EC%9D%98) 'Research' 또는 'Publications' 섹션에서 논문을 확인할 수 있습니다.
- arXiv: arXiv는 물리학, 수학, 컴퓨터 과학, 양자 생물학, 계량 생물학, 계량 금융학, 통계학, 전기 공학 및 시스템 과학, 경제학 분야의 전자 논문을 배포하는 웹사이트입니다. DeepSeek 관련 논문이 이곳에 게시되어 있을 수 있습니다. (https://arxiv.org/)
- Google Scholar: Google Scholar는 학술 자료를 검색하는 데 유용한 검색 엔진입니다. "DeepSeek" 또는 "DeepSeek AI"와 같은 키워드로 검색하여 관련 논문을 찾을 수 있습니다. (https://scholar.google.com/)
- DBLP: DBLP는 컴퓨터 과학 분야의 학술 문헌 데이터베이스입니다. DeepSeek 관련 논문이 이곳에 등록되어 있을 수 있습니다. (https://dblp.org/)
- Semantic Scholar: Semantic Scholar는 인공지능 기반의 학술 검색 엔진입니다. DeepSeek 관련 논문을 검색하고, 인용 정보 및 관련 연구를 확인할 수 있습니다. (https://www.semanticscholar.org/)
- ResearchGate: ResearchGate는 과학자들이 자신의 연구 결과를 공유하는 소셜 네트워크 서비스입니다. DeepSeek 연구자들이 이곳에 논문을 게시했을 수 있습니다. (https://www.researchgate.net/)
------------------------------------------------
DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub
DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
github.com
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1: 강화학습을 통한 LLM의 추론 능력 향상
DeepSeek-AI
research@deepseek.com
Abstract
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1.
저희는 첫 번째 세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다.
DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing.
DeepSeek-R1-Zero는 지도 미세조정(SFT) 없이 대규모 강화학습(RL)을 통해 학습된 모델로, 뛰어난 추론 능력을 보여줍니다. 강화학습을 통해 DeepSeek-R1-Zero는 강력하고 흥미로운 다양한 추론 행동들을 자연스럽게 발현하게 됩니다. 그러나 이 모델은 읽기 어려움과 언어 혼합과 같은 문제점들을 보입니다.
To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeekR1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama.
이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해, 저희는 RL 이전에 다단계 학습과 초기 데이터(cold-start data)를 도입한 DeepSeek-R1을 소개합니다. DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비교할 만한 성능을 달성하였습니다.
연구 커뮤니티를 지원하기 위해, 저희는 Qwen과 Llama를 기반으로 DeepSeek-R1에서 증류한 1.5B, 7B, 8B, 14B, 32B, 70B 크기의 여섯 가지 밀집 모델과 함께 DeepSeek-R1-Zero와 DeepSeek-R1을 오픈소스로 공개합니다.
1. Introduction
In recent years, Large Language Models (LLMs) have been undergoing rapid iteration and evolution (Anthropic, 2024; Google, 2024; OpenAI, 2024a), progressively diminishing the gap towards Artificial General Intelligence (AGI). Recently, post-training has emerged as an important component of the full training pipeline. It has been shown to enhance accuracy on reasoning tasks, align with social values, and adapt to user preferences, all while requiring relatively minimal computational resources against pre-training.
1. 서론
최근 몇 년 동안 대형 언어 모델(LLMs)은 빠른 반복과 진화를 거듭해 왔으며 (Anthropic, 2024; Google, 2024; OpenAI, 2024a), 인공지능 일반(AGI)에 한 걸음씩 다가가고 있습니다.
최근 후처리 학습(post-training)이 전체 학습 파이프라인의 중요한 구성 요소로 부상하였습니다. 이는 추론 작업에서의 정확도를 향상시키고, 사회적 가치와 부합하며, 사용자 선호에 적응하는 데 기여하는 것으로 나타났으며, 사전 학습에 비해 상대적으로 적은 계산 자원을 요구합니다.
In the context of reasoning capabilities, OpenAI’s o1 (OpenAI, 2024b) series models were the first to introduce inference-time scaling by increasing the length of the Chain-ofThought reasoning process. This approach has achieved significant improvements in various reasoning tasks, such as mathematics, coding, and scientific reasoning. However, the challenge of effective test-time scaling remains an open question for the research community.
추론 능력과 관련하여, OpenAI의 o1 (OpenAI, 2024b) 시리즈 모델은 체인 오브 씽크(Chain-of-Thought) 추론 과정의 길이를 늘림으로써 추론 시 확장(inference-time scaling)을 도입한 최초의 모델들입니다. 이 접근 방식은 수학, 코딩, 과학적 추론 등 다양한 추론 작업에서 상당한 성능 향상을 이루어냈습니다. 그러나 효과적인 테스트 시 확장(test-time scaling)의 문제는 여전히 연구 커뮤니티에 남아 있는 미해결 과제입니다.
Several prior works have explored various approaches, including process-based reward models (Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023), reinforcement learning (Kumar et al., 2024), and search algorithms such as Monte Carlo Tree Search and Beam Search (Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024). However, none of these methods has achieved general reasoning performance comparable to OpenAI’s o1 series models.
이전에 발표된 여러 연구들은 프로세스 기반 보상 모델(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023), 강화학습(Kumar et al., 2024), 그리고 몬테카를로 트리 탐색(Monte Carlo Tree Search) 및 빔 서치(Beam Search)와 같은 탐색 알고리즘(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024) 등 다양한 접근 방식을 모색해 왔습니다. 그러나 이들 방법 중 어느 것도 OpenAI의 o1 시리즈 모델과 비교할 만한 일반적인 추론 성능을 달성하지는 못했습니다.
In this paper, we take the first step toward improving language model reasoning capabilities using pure reinforcement learning (RL). Our goal is to explore the potential of LLMs to develop reasoning capabilities without any supervised data, focusing on their self-evolution through a pure RL process.
본 논문에서는 순수 강화학습(RL)을 이용하여 언어 모델의 추론 능력을 향상시키기 위한 첫걸음을 내딛습니다. 저희의 목표는 어떠한 지도 데이터 없이 순수 RL 과정을 통해 자기 발전(self-evolution)하는 LLM의 추론 능력 개발 가능성을 탐구하는 것입니다.
Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning. During training, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. After thousands of RL steps, DeepSeek-R1-Zero exhibits super performance on reasoning benchmarks. For instance, the pass@1 score on AIME 2024 increases from 15.6% to 71.0%, and with majority voting, the score further improves to 86.7%, matching the performance of OpenAI-o1-0912.
구체적으로, 기본 모델로 DeepSeek-V3-Base를 사용하고, RL 프레임워크로 GRPO (Shao et al., 2024)를 적용하여 모델의 추론 성능을 개선합니다. 학습 과정에서 DeepSeek-R1-Zero는 자연스럽게 강력하고 흥미로운 다양한 추론 행동들을 보이게 되었습니다. 수천 번의 RL 스텝 이후, DeepSeek-R1-Zero는 추론 벤치마크에서 뛰어난 성능을 나타내게 되었습니다. 예를 들어, AIME 2024에서 pass@1 점수는 15.6%에서 71.0%로 상승하였으며, 다수결 투표(majority voting)를 적용하면 이 점수는 86.7%까지 개선되어 OpenAI-o1-0912의 성능에 필적하게 됩니다.
However, DeepSeek-R1-Zero encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline.
하지만 DeepSeek-R1-Zero는 읽기 어려움과 언어 혼합 같은 문제점을 겪고 있습니다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해, 소량의 cold-start 데이터와 다단계 학습 파이프라인을 도입한 DeepSeek-R1을 제안합니다.
Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero.
구체적으로, 먼저 수천 건의 cold-start 데이터를 수집하여 DeepSeek-V3-Base 모델을 미세 조정합니다. 그 후, DeepSeek-R1-Zero와 유사하게 추론 중심의 강화학습(RL)을 수행합니다.\
Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.
RL 과정에서 수렴에 근접할 때, RL 체크포인트에서 거부 샘플링(rejection sampling)을 통해 새로운 SFT 데이터를 생성하고, 글쓰기, 사실 기반 QA, 자기 인식(self-cognition) 등 DeepSeek-V3의 지도 데이터와 결합하여 DeepSeek-V3-Base 모델을 재학습시킵니다. 새로운 데이터로 미세 조정한 후, 모든 시나리오의 프롬프트를 고려한 추가 RL 과정을 거칩니다. 이러한 일련의 과정을 통해 OpenAI-o1-1217과 동등한 성능을 달성하는 DeepSeek-R1 체크포인트를 얻었습니다.
We further explore distillation from DeepSeek-R1 to smaller dense models. Using Qwen2.5- 32B (Qwen, 2024b) as the base model, direct distillation from DeepSeek-R1 outperforms applying RL on it. This demonstrates that the reasoning patterns discovered by larger base models are crucial for improving reasoning capabilities.
우리는 또한 DeepSeek-R1에서 더 작은 밀집 모델로의 증류(distillation)를 추가로 탐구하였습니다. 기본 모델로 Qwen2.5-32B (Qwen, 2024b)를 사용한 경우, DeepSeek-R1으로부터 직접 증류하는 것이 해당 모델에 RL을 적용하는 것보다 우수한 성능을 보였습니다. 이는 더 큰 기본 모델에서 발견된 추론 패턴이 추론 능력 향상에 결정적임을 보여줍니다.
We open-source the distilled Qwen and Llama (Dubey et al., 2024) series. Notably, our distilled 14B model outperforms state-of-the-art open-source QwQ-32B-Preview (Qwen, 2024a) by a large margin, and the distilled 32B and 70B models set a new record on the reasoning benchmarks among dense models.
저희는 증류된 Qwen 및 Llama (Dubey et al., 2024) 시리즈를 오픈소스로 공개합니다. 특히, 저희가 증류한 14B 모델은 최신 오픈소스 QwQ-32B-Preview (Qwen, 2024a)보다 큰 폭으로 우수한 성능을 나타내며, 증류된 32B 및 70B 모델은 밀집 모델 중 추론 벤치마크에서 새로운 기록을 세웠습니다.
-3-
1.1. Contributions
Post-Training: Large-Scale Reinforcement Learning on the Base Model
1.1. 기여점
후처리 학습: 기본 모델에 대한 대규모 강화학습
• We directly apply RL to the base model without relying on supervised fine-tuning (SFT) as a preliminary step. This approach allows the model to explore chain-of-thought (CoT) for solving complex problems, resulting in the development of DeepSeek-R1-Zero. DeepSeekR1-Zero demonstrates capabilities such as self-verification, reflection, and generating long CoTs, marking a significant milestone for the research community. Notably, it is the first open research to validate that reasoning capabilities of LLMs can be incentivized purely through RL, without the need for SFT. This breakthrough paves the way for future advancements in this area.
지도 미세조정(SFT) 없이 직접 RL 적용:
저희는 지도 미세조정(SFT)을 사전 단계로 활용하지 않고 기본 모델에 직접 강화학습(RL)을 적용합니다. 이 접근 방식은 모델이 복잡한 문제 해결을 위해 체인 오브 씽크(CoT)를 탐색하도록 하여 DeepSeek-R1-Zero의 개발로 이어졌습니다. DeepSeek-R1-Zero는 자기 검증, 반성, 긴 체인 오브 씽크 생성 등의 능력을 보여주며, 연구 커뮤니티에 중요한 이정표를 제시합니다. 특히, 이는 LLM의 추론 능력이 SFT 없이 순수 강화학습만으로도 유도될 수 있음을 검증한 최초의 공개 연구입니다. 이 획기적인 결과는 향후 이 분야의 발전에 길을 열어줍니다.
• We introduce our pipeline to develop DeepSeek-R1. The pipeline incorporates two RL stages aimed at discovering improved reasoning patterns and aligning with human preferences, as well as two SFT stages that serve as the seed for the model’s reasoning and non-reasoning capabilities. We believe the pipeline will benefit the industry by creating better models.
DeepSeek-R1 개발 파이프라인 소개:
저희는 개선된 추론 패턴을 발견하고 인간의 선호에 부합하도록 하기 위한 두 단계의 RL과, 모델의 추론 및 비추론 능력의 시드 역할을 하는 두 단계의 SFT를 포함하는 파이프라인을 도입하였습니다. 이 파이프라인은 업계에 더 나은 모델을 창출하는 데 기여할 것으로 기대됩니다.
'반도체-삼성전자-하이닉스-마이크론' 카테고리의 다른 글
Jevons Paradox란 무엇인가? 그리고 DeepSeek AI와 어떻게 연관되어 있는가?(2025.01.29) (0) | 2025.01.29 |
---|---|
Deepseek때문에 미국 주식 폭락/제반스의 역설 (0) | 2025.01.28 |
미국의 반도체 기술인 블루치타 칩렛 (0) | 2025.01.26 |
HBM과 SK하이닉스의 우위(2025.01.25) (0) | 2025.01.25 |
엔비디아에 구글까지…SK하이닉스, HBM 고객 넘친다(2025.01.24) (0) | 2025.01.24 |