https://arxiv.org/abs/2503.05379
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning
In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We le
arxiv.org
Abstract
본 연구는 감정 인식 분야에서 Reinforcement Learning과 Verifiable Reward (RLVR)을 Omni-multimodal large language model에 적용한 연구이다. 핵심은 시각 및 오디오 양식을 활용해 R1-Omni 모델을 최적화하여 추론 능력, 감정 인식 정확도, 일반화 능력을 향상하는 것이다.
Instroduction
DeepSeek R1은 RLVR을 활용하여 대형 언어 모델의 성능을 향상하는 데 중요한 역할을 했다. RLVR은 규칙 기반 보상 메커니즘을 도입하여 모델을 보다 효율적이고 신뢰성 있게 최적화할 수 있도록 한다. 최근 연구에서는 RLVR을 멀티모달 대형 언어 모델(MLLM)로 확장하여 다양한 분야에서의 활용 가능성을 보여주고 있다.
본 연구에서는 오디오-비주얼 정보를 함께 처리하여 감정 인식을 수행하는 R1-Omni 모델을 제안한다. 기존 연구들은 주로 이미지-텍스트 모달리티에 집중했으나, 본 연구는 오디오 및 비디오 정보를 함께 활용하는 새로운 접근 방식을 제시함으로써 감정 인식의 성능을 더욱 향상시키고자 한다.
Preliminaries
Reinforcement Learning with Verifiable Rewards
RLVR은 모델의 결과가 객관적으로 검증 가능한 태스크에서 최적화를 수행하는 새로운 강화 학습 방법이다. 예를 들어, 수학 문제 풀이, 코딩 과제, 특정 규칙을 따르는 게임 등의 도메인에서 활용할 수 있다.
기존의 보상 학습 방식인 RLHF(Reinforcement Learning from Human Feedback)과 달리, RLVR은 인간의 주관적인 피드백이 아니라, 미리 정의된 검증 함수를 직접 활용하여 모델의 출력을 평가한다. 즉, 별도의 보상 모델이 필요하지 않으며, 모델이 생성한 응답을 객관적이고 일관된 기준에 따라 평가할 수 있다.
입력 질문 $q$가 주어지면, 정책 모델 $\pi\theta$는 응답 $o$를 생성하고 이는 검증 가능한 보상 함수 $R(q,o)$를 사용하여 평가된다. 이 보상 함수는 생성된 출력이 정답과 일치하는지 여부를 판단하여 이진 점수를 할당한다.
RLVR 학습 과정 :
- 프롬프트 제공 : 프롬프트 q를 $s_i$에게 전달
- 모델 응답 생성 : 정책 모델 πθ는 응답 $o$생성
- 검증 함수 평가 : 미리 정의된 검증 가능한 보상 함수 $R(q,o)$가 모델의 응답 검사
- 모델 업데이트 : 정책 그라디언트 계산
검증 함수 $R(q,o)$는 생성된 출력이 정답과 일치하는지 여부를 판단하여 이진 점수를 할당한다.
\[
R(q, o) =
\begin{cases}
1, & \text{if } o = \text{ground truth} \\
0, & \text{otherwise.}
\end{cases}
\]
즉, RLVR은 응답이 정답과 일치할 때만 보상을 부여하는 방식이다.
RLVR의 최적화 목표 :
\[
\max_{\pi_\theta} \mathbb{E}_{o \sim \pi_\theta(q)} \left[ R_{\text{RLVR}}(q, o) \right],
\]
\(R_{RLVR}(q, o)\)는 다음과 같이 정의된다.
\[
\begin{align*}
R_{RLVR}(q, o) &= R(q, o) - \beta \cdot KL[\pi_\theta(o|q) \parallel \pi_{ref}(o|q)].
\end{align*}
\]
즉, 모델이 정확한 응답을 생성하는 것을 목표로 하되, 기존 참조 정책 $\pi_{ref}$와의 KL발산을 최소화하여 학습 안정성을 유지한다.
본 연구에서는 RLVR를 검증 가능한 수학, 코딩 도메인에서 감정 인식 도메인으로 확장한다.
Group Relative Policy Optimization (GRPO)
GRPO는 기존의 PPO(Proximal Policy Optimization)와 달리 별도의 Critic 모델 없이 정책을 최적화하는 새로운 방식이다. PPO는 Critic 모델을 사용하여 후보 정책의 성능을 평가하지만, GRPO는 응답 그룹 내에서 상대적인 품질을 평가하는 방식을 사용한다. 이를 통해 훈련 과정이 간소화되고 최적화 효율이 증가한다.
GRPO의 학습 과정은 다음과 같이 진행된다.
- 응답 생성 : 주어진 입력 질문 \( q \)에 대해, 현재 정책 \( \pi_\theta \)를 사용하여 \( G \) 개의 서로 다른 응답 \( \{o_1, o_2, ..., o_G\} \)를 생성합니다. 여기서 \( G \)는 그룹 크기를 나타냄
- 보상 계산 : 각 응답 \( o_i \)에 대해, 미리 정의된 보상 함수 \( r_i \)를 사용하여 보상을 계산
- 보상 정규화 : 계산된 보상 \( \{r_1, r_2, ..., r_G\} \)를 사용하여 각 응답의 상대적 가치를 평가하기 위해 보상을 정규화
\[
A_i = \frac{r_i - \text{mean}(\{ r_1, \ldots, r_G \})}{\text{std}(\{ r_1, \ldots, r_G \})},
\]
여기서 \( r_i \)는 i번째 응답에 대한 보상, \( \text{mean}(\{r_1, ..., r_G\}) \)는 그룹 내 보상들의 평균, 그리고 \( \text{std}(\{r_1, ..., r_G\}) \)는 그룹 내 보상들의 표준 편차를 의미한다.
DeepSeek R1에서 제안된 접근 방식에 따라, 이 연구에서는 GRPO를 RLVR와 결합하여 사용한다.
R1-Omni : Cold Start with EMER Dataset
강화 학습을 효과적으로 수행하기 위해서는 모델이 기본적인 감정 인식 능력을 갖춘 상태에서 학습을 시작하는 것이 중요하다. 이를 위해 Cold Start 단계에서 감정 인식 데이터를 활용하여 사전 학습을 수행한다.
EMER 데이터셋은 2024년 감정 추론 작업을 위해 특별히 설계되었으며, 시각 및 오디오 데이터와 함께 감정 인식 뒤에 숨겨진 추론 과정을 자세히 설명하는 주석을 포함하고 있다.
본 연구에서는 HumanOmni-0.5B 모델을 EMER 데이터셋과 자체 구축 데이터셋을 활용하여 총 580개의 비디오 샘플로 미세 조정(fine-tuning)한다. 이를 통해 시각적, 청각적 정보가 감정 인식에 어떻게 기여하는지 학습하는 초기 지식을 구축한다.
RLVR
RLVR 파이프라인은 정책 모델 \(\pi_\theta\)에서 시작합니다. 이 모델은 비디오 프레임과 해당 오디오 스트림으로 구성된 멀티모달 입력 데이터를 받아 일련의 후보 응답을 생성합니다. 각 응답은 모델이 어떻게 시각 정보와 청각 정보를 통합하여 감정을 추론했는지에 대한 자세한 설명인 추론 과정을 포함합니다. 이 추론 과정은 모델의 추론 능력을 보여주는 중요한 부분입니다.
모델이 받는 보상은 정확도 보상 $R_{acc}$과 형식 보상 $R_{format}$의 두 가지 구성 요소로 구성된다. 전체 보상 $R$은 다음과 같이 계산된다.
- 정확도 보상 : 예측된 감정이 실제 감정(ground truth, GT)과 일치하는지 평가. 모델의 출력이 "reasoning process predicted emotion" 태그 형식을 따르는지 확인.
- Racc = 1 (예측된 감정이 실제 감정과 일치하는 경우), 0 (그렇지 않은 경우)
- 형식 보상 : 모델의 예측이 지정된 HTML과 유사한 태그 형식을 따르도록 함.
- Rformat = 1 (출력이 형식을 만족하는 경우), 0 (그렇지 않은 경우)
\[
R = R_{\text{acc}} + R_{\text{format}}.
\]
모델의 출력은 두 부분으로 나누어진다. 첫째, 태그로 묶인 부분은 모델이 감정을 추론하는 과정을 상세하게 설명한다. 둘째, 태그로 묶인 부분은 모델이 최종적으로 예측한 감정 레이블을 나타낸다.
출력이 형식 제약 조건을 충족하면 보상에 1 값이 할당된다. 이 제약 조건은 모델이 구조화되고 해석 가능한 출력을 생성하여 다운스트림 분석 및 평가를 용이하게 한다. 이러한 두 가지 구성 요소를 결합함으로써 보상 함수는 모델이 정확한 예측을 생성하도록 장려할 뿐만 아니라 출력이 원하는 형식에 따라 잘 구성되도록 보장한다.
Experiments
실험 설정 및 비교 모델
- HumanOmni-0.5B : 기본 모델
- EMER-SFT : EMER 데이터셋으로 Supervised Fine-Tuning을 수행한 모델 (cold-start 단계)
- MAFW-DFEW-SFT : MAFW 및 DFEW 데이터셋으로 Supervised Fine-Tuning을 수행한 모델 (HumanOmni-0.5B 기반)
- R1-Omni : RLVR로 학습된 모델
R1-Omni의 주요 강점은 다음 세 가지이다.
(1) 향상된 추론 능력: 예측에 대한 해석 가능하고 상세한 설명을 생성함
R1-Omni의 결과를 다른 모델과 비교하여 직관적으로 설명한다.
- HumanOmni-0.5B와 MAFW-DFEW-SFT는 추론 능력이 제한적
- EMER-SFT는 어느 정도 추론이 가능하지만 논리적 일관성이 부족하고 오류(hallucination)를 자주 생성
- R1-Omni는 일관성 있고 해석 가능한 추론을 수행하며, MAFW 및 DFEW 데이터셋에서 더 정확한 감정 분석을 수행
- 특히, R1-Omni는 시각 및 오디오 정보를 조합하여 감정 인식을 수행하는 과정에서 더 깊은 인사이트를 제공
(2) 향상된 이해 능력: 멀티모달 데이터를 더 잘 해석하여 감정 인식 정확도를 높임
모델의 이해 능력을 정량적으로 평가하기 위해 MAFW 및 DFEW 데이터셋에서 비교 실험을 진행했다.
평가 지표:
- UAR (Unweighted Average Recall): 클래스별 균형을 고려한 감정 분류 성능 측정
- WAR (Weighted Average Recall): 전체 데이터 분포를 고려한 감정 분류 성능 측정
모든 실험은 OV-emotion 프로토콜(사전 정의된 감정 카테고리 없이 모델이 직접 감정 레이블을 생성하는 방식)에서 수행되었다.
- R1-Omni가 MAFW와 DFEW 데이터셋에서 가장 높은 UAR 및 WAR 점수를 기록함
- DFEW 데이터셋
- R1-Omni: UAR 65.83%, WAR 56.27%
- MAFW-DFEW-SFT: UAR 60.23%, WAR 44.39%
- MAFW 데이터셋
- R1-Omni: UAR 57.68%, WAR 40.04%
- MAFW-DFEW-SFT: UAR 50.44%, WAR 30.39%
이 결과는 RLVR 방식이 감정 인식에서 보다 효과적으로 데이터를 활용할 뿐만 아니라 모델의 이해 및 추론 능력을 강화함을 보여준다.
(3) 강화된 일반화 능력: 다양한 데이터 분포에서도 우수한 성능을 보이며 강건함을 증명함
모델의 일반화 능력을 평가하기 위해 RAVDESS 데이터셋에서 실험을 진행했다.
- MAFW, DFEW 데이터셋: 영화 클립 기반 감정 데이터
- RAVDESS 데이터셋: 배우들이 동일한 대사를 감정적으로 연기한 데이터 → 분포 차이가 큼
- 일반화 성능을 확인하기 위한 OOD (Out-Of-Distribution) 평가용 데이터셋으로 적합함