https://arxiv.org/abs/1811.12560
An Introduction to Deep Reinforcement Learning
Deep reinforcement learning is the combination of reinforcement learning (RL) and deep learning. This field of research has been able to solve a wide range of complex decision-making tasks that were previously out of reach for a machine. Thus, deep RL open
arxiv.org
일반화는 다음 두 가지로 정의된다.
- 같은 환경에서의 일반화
- 훈련 데이터는 일부만 있고, 전체 상태-행동 공간을 완전히 탐색하지 못한 경우
- 적은 샘플로 좋은 성능을 내는 것 → 샘플 효율성 (sample efficiency) 관련
- 관련 환경에서의 일반화
- 훈련 환경과 다른 동역학이나 보상을 가진 환경에서 작동
- 전이학습 또는 메타학습과 관련
온라인 학습에서는 한 번의 행동 이후 바로 파라미터를 업데이트 한다. (mini-batch) 여기거 sample efficiency는 학습 속도의 척도이다. 오프라인 데이터셋 상황에서는 적은 양의 데이터에서 얼마나 잘 일반화하는지가 핵심이다.
주어진 데이터셋 D로 학습한 정책 $\pi_D$가 최적 정책 $\pi^*$와 얼마나 다를지 분해해서 평가한다.
$$\mathbb{E}_{D \sim \mathcal{D}} \left[ V^{\pi^*}(s) - V^{\pi_D}(s) \right] = \underbrace{V^{\pi^*}(s) - V^{\pi_{D_1}}(s)}_{\text{Asymptotic Bias}} + \underbrace{\mathbb{E}_{D} \left[ V^{\pi_{D_1}}(s) - V^{\pi_D}(s) \right]}_{\text{Overfitting (Finite Data Error)}}$$
| `V^π*(s)` | 최적 정책의 가치 |
| `V^π_D1(s)` | 무한 데이터셋으로 학습한 정책의 가치 |
| `V^π_D(s)` | 유한 데이터셋으로 학습한 정책의 가치 |
| Asymptotic Bias | 알고리즘의 구조적 한계에서 오는 성능 손실 (data가 많아도 해결 x) |
| Overfitting Term | 데이터 양이 부족해서 생기는 성능 손실 |

일반화란 결국 이 두가지 오류 사이의 균형을 맞추는 일이다.
- 데이터가 적음 > 너무 복잡한 모델은 과적합(overfitting) 발생 가능 → 단순한 구조 필요
- 데이터가 많음> 일반화 제약을 줄이고, 더 복잡한 정책 구조 허용 가능 → 편향 감소
따라서, RL 알고리즘은 데이터의 품질과 양에 따라 구조/제약을 조절해야 한다.
- Bias (편향): 학습 알고리즘이 너무 보수적이어서, 구조적 제약 때문에 최적 정책을 못 찾는 현상
- Overfitting (과적합): 제한된 데이터에 너무 의존해서, 실제 환경과 달라진 정책을 학습하는 것
일반화 성능에 영향을 주는 4가지 주요 요소는
- State representation
- Learning algorithm
- Objective function
- Hierarchical learning
이다.

왼쪽으로 가서 3스텝마다 안정적인 0.6을 얻는 것이 장기적으로 유리하다. 하지만 데이터가 부족하면 오른쪽이 항상 보상을 주는 것으로 잘못 학습할 수 있다.
- 각 $(s,a)$에 대해 오직 하나의 경험 $<s,a,r,s'>$만 있는 상황
- 오른쪽으로 이동했는데 우연히 r=1이 나옴
- 학습 알고리즘은 이 경로를 선호
- 실제로 25%의 확률임에도 확률성을 고려 못학 잘못된 일반화 > 과적합
따라서 데이터가 부족할수록 더 보수적인/편향된 모델이 오히려 일반화에 유리하다.
Feature selection
강화학습에서 에이전트가 상태를 어떻게 인식하느냐는 학습 효율과 일반화 성능에 직접적인 영향을 준다. 좋은 feature는 과적합을 방지하고, 잡음 없는 학습을 유도할 수 있다.
Overfitting
상태를 표현할 때 많은 feature를 사용할 경우, 학습 알고리즘이 실제와 무관한 spurious correlation을 학습하여 과적합이 발생할 수 있다.
Asymptotic Bias
서로 다른 동작을 해야 할 상태들 간의 차이를 제거하면, 학습된 정책이 모든 상태에 동일한 행동을 적용하게 되어 잘못된 정책을 유도한다. 이는 편향을 초래한다.
deep RL에서는 관측으로부터 latent factors를 추출한다. 대표적인 방법으로는 인코더-디코더(encoder-decoder) 아키텍처가 있고, 이를 통해 추출된 feature들을 강화학습의 입력으로 사용할 수 있다. 오토인코더는 입력 전체를 복원하려 하기 때문에 임무와 관련 없는 정보까지 유지한다. 반대로, 실제 정책에 필수적인 정보가 시각적으로는 적은 부분만 차지해 누락되는 경우도 있다.
Choice of the learning algorithm and function approximator selection
딥러닝에서 function approximator는 입력된 feature를 어떻게 추상화된 표현으로 변환할지를 결정한다. 너무 단순한 함수 근사기를 사용하면 장기적으로 asymptotic bias가 생길 수 있고, 반대로 일반화 성능이 낮은 복잡한 모델을 사용하면 overfitting이 될 수 있다. 따라서 적절한 근사기 구조와 model-free / model-based 전략 선택이 필수이다.
복잡한 환경일수록 단순히 상태를 나열하기보단 추론 가능한 구조를 갖춘 모델이 효과적이다.
Auxiliary Tasks
Deep RL 에이전트에 보조 과제를 부여하면 학습 효율이 크게 향상된다. pseudo-reward를 최대화하는 방식으로 구성된다.
- 즉각적인 보상 예측
- 다음 관측치의 픽셀 변화 예측
- 특정 은닉 뉴런의 활성화 값 예측 등
보조 과제를 함께 학습하면, 유용한 표현을 생성하는 inductive bias를 도입하게 되어 과적합을 줄이고 일반화 성능을 향상시킨다.
Modifying the objective function
딥 강화학습 알고리즘이 학습하는 정책을 개선하기 위해, 실제 목적 함수에서 벗어난 변형된 목적 함수를 최적화할 수 있다.
- 보상의 구조를 바꾸어 학습을 쉽게 만드는 것 (보상 형성, reward shaping)
- 학습 시 할인율(discount factor)을 조정하는 것
Reward Shaping
Reward shaping은 빠른 학습을 위한 heuristic이다. 사전 지식을 사용해 바람직한 결과로 이어지는 행동에 대해 중간 보상을 부여하는 방식이다. 일반적으로 원래의 MDP 보상 함수 $R(s,a,s')$에 $F(s,a,s')$를 추가한다.
Discount factor
더 짧은 planning horizon을 기반으로 정책을 찾는 것이 true horizon보다 더 나은 정책을 낳을 수 있다.
- 한편으로, 계획 지평을 인위적으로 줄이는 것은 목표 함수를 수정하기 때문에 편향(bias)을 유발
- 다른 한편으로, 할인율 γ가 1에 가까워서 긴 계획 지평을 고려하게 되면 과적합(overfitting)의 위험이 커짐
이 과적합은 데이터로부터 추정된 전이 및 보상이 실제와 다를 때, 오류가 시간에 따라 누적되기 때문에 발생하는 것으로 이해할 수 있다.
작은 할인율 $\gamma$를 사용하면 시간적으로 먼 보상의 영향을 줄일 수 있다. 편향-과적합 트레이드오프 외에도, 높은 할인율은 가치 반복(value iteration) 알고리즘에서 수렴의 불안정성을 유발할 수 있다. 이는 높은 할인율일수록 오차가 더 강하게 전파되기 때문이다.
Hierarchical Learning
계층적 학습은 시간적으로 확장된 행동(여러 시간 단계를 아우르는 행동)을 학습하는 방법이다. 이러한 행동은 옵션(options), 매크로 행동(macro-actions), 추상 행동(abstract actions) 등으로 불린다. 정책 공간을 구조적으로 제약해 효율적인 탐색과 학습을 유도하고 전이 가능성과 일반화 능력을 크게 높여준다.
How to obtain the best bias-overfitting tradeoff
이전 절들을 통해, 모델 기반 vs 모델 프리 선택, 함수 근사기 설계, 표현 학습, 보조 과제 등 다양한 요소들이 편향‑과적합 균형에 영향을 미친다는 것을 확인했다. 주어진 알고리즘적 파라미터 설정에서, 다른 조건을 동일하게 유지할 경우 복잡도가 증가하여 생기는 편향 증가와 과적합 감소 간의 균형이 맞는 수준이 최적의 복잡도이다. 하지만 실제로는 이 균형점을 계산할 방법이 없으며 실전에서는 다양한 전략들을 사용한다.
Batch Setting
편향‑과적합 균형을 위한 파라미터 선택은 지도학습의 교차검증(cross‑validation)과 유사한 방식으로 설정할 수 있다. → 데이터셋 D에서 일부 trajectory를 떼어두고, 이를 사용 정책 성능을 평가한다.
→ 모델 기반 평가, MFMC, 중요도 샘플링, 이중-강건 추정기 활용
Online Setting
온라인 설정에서는 에이전트가 실시간으로 경험을 계속 수집한다. 학습 과정의 각 단계마다 편향‑과적합 균형이 중요하며, 이는 효율적인 착취‑탐험(exploitation‑exploration) 균형과도 연결된다.
→ 할인율 증가
→ 표현 공간 / 네트워크 구조 동적 적응