https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin
arxiv.org
Abstract
DeepSeek-R1은 Reinforcement Learning을 통해 LLM의 추론 능력을 강화한다. 사전 지도 학습(SFT) 없이 RL 만으로 훈련된 모델로 뛰어난 추론 능력을 보여준다. DeepSeek-R1-Zero의 문제점을 개선하여 DeepSeek-R1은 cold-start 데이터와 multi-stage training을 도입한다.
Introduction
DeepSeek-R1은 pure Reinforcement Learning을 통해 모델의 추론 능력을 향상한다. DeepSeek-R1은 Cold-Start 데이터와 multi-stage training을 통합하여 OpenAI의 o1-1217과 유사한 성능을 달성했다. 또한, 더 작은 모델로의 distillation을 통해 추론 능력을 강화했다.
- 강화 학습을 통한 모델 훈련
- distillation
Approach
기존 모델 성능 향상을 위해서 많은 양의 지도 학습 데이터에 의존했던 것과 달리, 본 연구에서는 RL을 통해 지도 학습 데이터 없이도 추론 능력을 향상할 수 있음을 보여준다. (1) DeepSeek-R1-Zero : RL 로만 훈련 (2) DeepSeek-R1 : CoT를 생성하는 데 중점을 두며 초기 모델을 미세 조정 (3) distillation을 통해 작은 모델로 추론 능력을 이전하는 방법을 제시한다.
(1) DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
Reinforcement Learning Algorithm : Group Relative Policy Optimization (GRPO)
본 논문에서는 GRPO 알고리즘을 사용한다. GRPO는 정책 모델과 동일한 크기의 critic model 없이, 상대 그룹 점수를 기반으로 기준선을 추정한다. 기본적으로, GRPO는 DPO처럼 명시적인 보상 모델을 필요로 하지 않으며, PPO처럼 복잡한 샘플링과 탐색 과정이 필요 없도록 설계되어 있다.
Reward Modeling
1. 정확도 보상 (Accuracy rewards) : 모델이 응답이 정확한지 평가
2. 형식 보상 (Format rewards) : 모델이 사고 과정을 '<think>'와 '</think>' 태그 사이에 넣도록 강제
Training Template
모델이 추론 과정을 먼저 생성한 다음 최종 답변을 제시하도록 요구한다.
(2) DeepSeek-R1: Reinforcement Learning with Cold Start
DeepSeek-R1-Zero에 영감을 받아 해당 의문점을 해결한다. 1) 소량의 고품질 데이터를 cold start로 통합함으로써 성능을 향상할 수 있을까? 2) 일관된 CoT를 생성할 뿐만 아니라 사용자 친화적인 모델을 어떻게 훈련할 수 있을까?
Cold Start
DeepSeek-R1은 RL 훈련 초기에 콜드 스타트 데이터를 사용한다. 초기 단계에서 모델이 학습 방향을 잡지 못하고 헤매는 것을 방지하여 빠르고 안정적인 학습을 가능하게 한다.
데이터 수집 방법 :
- 소량의 고품질 CoT(Chain-of-Thought) 데이터 구축 및 수집
- Few-shot prompting 활용
- 모델에게 상세한 답변 생성 지시 (반성 및 검증 포함)
- DeepSeek-R1-Zero의 출력을 읽기 쉬운 형식으로 수집 후, 사람이 직접 수정
Reasoning-oriented Reinforcement Learning (추론 중심)
훈련 과정에서 CoT가 여러 언어를 혼합하는 현상이 발생한다. 이를 해결하기 위해 목표 언어의 단어 비율을 측정하여 언어 일관성 보상을 도입한다. 모델의 성능을 저하할 수 있지만, 사람이 선호하는 결과에 더 가깝게 만든다.
Rejection Sampling and Supervised Fine-Tuning
RL 훈련이 수렴된 후, 생성된 체크포인트를 활용하여 새로운 SFT 데이터를 수집한다. 프롬프트를 모델에 입력하고, 생성된 결과물 중에서 원하는 기준에 부합하는 것만 선택하는 과정을 거친다. 이를 통해 고품질의 SFT 데이터를 확보할 수 있다. 총 약 80만 개의 샘플로 구성된 데이터를 활용해 Fine-Tuning 한다.
Reinforcement Learning for all Scenarios
사람의 선호도에 맞추기 위해 2차 RL을 도입한다. 유용성과 무해성을 개선하는 동시에 추론 능력을 더욱 향상한다. 추론 데이터는 Deepseek-R1-Zero에 사용된 rule-based 방법론을 따라 학습한다. 일반적인 데이터의 경우, 보상 모델을 사용한다.
(3) Distillation: Empower Small Models with Reasoning Capability
Qwen 및 Llama와 같은 오픈 소스 모델을 직접 미세 조정한다. 특히, RL 단계를 포함하지 않고 SFT만 적용하여도 모델 성능을 크게 향상할 수 있다.
Experiment