https://arxiv.org/abs/2505.22334
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
Recent advancements in large language models (LLMs) have demonstrated impressive chain-of-thought reasoning capabilities, with reinforcement learning (RL) playing a crucial role in this progress. While "aha moment" patterns--where models exhibit self-corre
arxiv.org
Introduction
LLM은 뛰어난 CoT 추론 능력을 보였으며, RL이 이러한 발전에 중요한 역할을 했다. DeepSeek-R1-Zero는 RL을 통해 아하 모멘트(aha moment) 패턴, 즉 모델이 자기 성찰을 통해 스스로 수정하는 현상이 자율적으로 나타날 수 있음을 입증했다.
이전 일부 연구에서는 다음과 같이 주장한다.
- Zero RL 훈련 : 이는 지도 학습 미세 조정(SFT)이라는 사전 학습 없이, 바로 강화 학습(RL)만을 사용하여 모델을 훈련시키는 방식
- 아하 모멘트의 출현 : Zero RL 훈련을 통해 MLLM(Multimodal Large Language Models)에서 아하 모멘트와 같은 자기 성찰 패턴이 새롭게 나타나거나, 이러한 패턴이 나타나는 것이 추론 능력 향상을 의미한다고 본다.
하지만 이 논문에서는 (1) MLLM에 RL 훈련을 적용하기 전에도 aha moment 패턴이 존재함, (2) 이러한 패턴이 반드시 추론 성능 향상과 직접적인 관련이 있는 것을 아니라는 점을 지적한다.
논문은 멀티모달 추론 능력을 향상시키기 위한 포괄적인 2단계 접근 방식을 제안한다.
- 콜드 스타트(Cold Start)를 위한 SFT : 구조화된 CoT 추론 패턴을 사용한 지도 학습 미세 조정(SFT)을 초기 단계로 수행한다.
- GRPO를 통한 RL : 이후 GRPO를 이용한 강화 학습을 통해 이러한 능력을 더욱 정교하게 다듬는다.
Observation: Aha Moment Already Exists but May Not Indicate Advanced Reasoning Ability

기존 연구에서는 강화 학습(RL)을 통해 모델이 자체 수정 및 성찰을 하는 "아하 모멘트" 패턴이 나타나며, 이는 향상된 추론 능력의 지표로 간주되어 왔다. 본 논문에서는 MLLM이 강화 학습(GRPO)를 하기 전에도 이미 "아하 모멘터" 패턴을 보임을 발견했다. 즉, "re-evalutate", "re-check"와 같은 성찰적 표현히 이미 존재한다.
더 중요한 것은 "아하 모멘트" 존재가 반드시 추론 성능 향상과 연관되지 않는다는 점이다. [Figure 2]에 따르면, MM-EUREKA나 VLAA-Thinker와 같이 GRPO로 튜닝된 모델에서 "아하 모멘트" 표현의 빈도는 증가했지만 해당 표현이 나타났을 때의 정확도는 오히려 감소했다. 이는 실제 추론 능력 향상을 나타내기보다 환각일 수 있음을 시사한다.

이러한 발견은 기존의 MLLM에서 추론 능력이 자연스럽게 발현된다는 가정에 의문을 제기하며, 모델의 멀티모달 추론 능력을 향상시키기 위한 더욱 의도적인 접근 방식이 필요함을 시사한다. 따라서 연구팀은 강화 학습만으로는 새로운 효과적인 추론 전략을 유도하기 어렵다고 주장하며, 고품질의 추론 패턴으로 모델을 초기화하는 지도 학습 기반의 콜드 스타트(Supervised Fine-Tuning, SFT)를 선행하는 2단계 접근 방식을 제안한다.
Reinforcement Learning with Cold Start

(1) Cold Start
본 논문에서는 RL을 도입하기 전에 SFT를 Cold Start로 수행하여 모델에 강력한 추론 능력을 먼저 부여하는 것이 중요하다고 주장한다.
이를 위해 주로 distillation 기법을 사용하여 다양한 CoT 추론 패턴을 포함하는 합성 데이터를 생성한다.
- Distilled-CoT : 더 큰 모델을 교사 모델로 활용하여 정답이 있는 시드 데이터셋으로부터 CoT 응답을 생성한다.
- Reflection-CoT
- Reflection-CoT (v1) : 잘못된 응답(\(y^-\))과 올바른 응답(\(y^+\))을 결합하여, 모델이 문구와 함께 다시 추론하도록 유도한다. 이는 모델이 여러 생성 결과 중 가장 좋은 응답을 선택하는 Best-of-N 전략과 유사하다.
- Reflection-CoT (v2) : Qwen2.5-VL-32B를 사용하여 "아하 모멘트" 패턴이 포함된 정답 응답을 수집한다.
- Caption-CoT : 모델이 이미지를 먼저 설명하고(captioning), 그 다음 답변을 제공하는 고전적인 멀티모달 CoT 패턴을 활용한다.
- Self-Critic-CoT: Thinkpatterns-21k의 프롬프트 전략을 채택하여, 모델이 초기 응답을 생성한 후 스스로 비판적으로 평가하고 개선하는 반복적인 추론 구조를 만는다.
(2) Reinforcement Learning
첫 번째 단계인 Supervised Fine-Tuning (SFT)을 통해 모델이 강력한 추론 능력을 갖춘 후, GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 모델의 추론 능력을 더욱 활성화하고 개선하는 것이 목표이다.
GRPO는 계산 효율성을 최적화하기 위해 별도의 가치 모델(value model)이 필요 없다는 특징을 가진다. 대신, 그룹 정규화된 보상(group-normalized rewards)을 직접 활용하여 이점을 추정한다. 이 강화 학습 단계는 DeepSeek-R1의 전략을 따른다. DeepSeek-R1은 SFT를 콜드 스타트로 사용하는 RL이 LLM의 전반적인 추론 능력을 향상시키는 데 특히 효과적임을 보여준다.
Ablation Studies

- 기본 모델 (Base Model, 파란색 막대) : Qwen2.5-VL-3B 기본 모델의 초기 성능을 나낸다. 모든 벤치마크에서 가장 낮은 정확도를 보인다.
- "아하 모멘트" 데이터 (Data with Aha Moment, 빨간색 막대) : Qwen2.5-VL-32B 모델을 사용하여 "아하 모멘트" 패턴(예: "재평가", "재확인"과 같은 자기 수정 표현)이 포함된 올바른 응답만을 추출하여 구성된 데이터셋으로 지도 미세 조정(SFT)을 수행한 모델의 성능을 보여준다. 기본 모델보다는 성능이 향상되었지만, 무작위로 선택된 데이터로 학습한 모델보다는 낮은 정확도를 보인다.
- 무작위로 선택된 데이터 (Randomly Selected Data, 보라색 막대) : Qwen2.5-VL-32B 모델에서 무작위로 추출한 10K 데이터 샘플로 지도 미세 조정(SFT)을 수행한 모델의 성능을 나타낸다. 이 모델은 모든 벤치마크에서 가장 높은 정확도를 달성했다.