공부/강화학습

[강화학습] An Introduction to Deep Reinforcement Learning 6장 - Model-based methods for deep RL

리미61 2025. 7. 29. 13:42

https://arxiv.org/abs/1811.12560

 

An Introduction to Deep Reinforcement Learning

Deep reinforcement learning is the combination of reinforcement learning (RL) and deep learning. This field of research has been able to solve a wide range of complex decision-making tasks that were previously out of reach for a machine. Thus, deep RL open

arxiv.org

Pure model-based methods

환경 모델이 명시적으로 주어지는 경우는 따로 학습할 필요가 없다. 경험으로부터 학습하는 경우는 학습 기반의 모델링이 필요하고, 함수 근사기법(function approximators)를 이용한다. 

학습된 환경 모델은 실제 환경의 proxy로 사용되며 실제 환경과 직접 상호작용하지 않고도 모델의 시뮬레이션을 통해 의사결정을 할 수 있다.

 

환경 모델이 주어졌을 때 planning은 모델을 활용하여 다음 행동을 추천한다.

  • 이산 (discrete) 행동 공간 : Lookahead search로 가능한 행동 시퀀스를 생성
  • 연속 (continuous) 행동 공간 : trajectory optimization을 통해 최적 경로를 찾는 다양한 제어기를 사용

Lookahead search

Lookahead search는 MDP(Markov Decision Process)에서 현재 상태를 루트 노드로 하는 결정 트리를 구축한다. 트리의 노드에는 시뮬레이션을 통해 얻은 return이 저장되고, 가능한 행동들 중에서 유망한 경로에 집중하도록 설계한다.

 

탐험(Exploration) vs 이용(Exploitation)

시뮬레이션을 어느 경로로 수행할지 결정할 때는 탐험-이용 균형을 맞춰야한다. 

 

  • 탐험(Exploration): 아직 충분히 조사되지 않아 불확실성이 높은 부분을 더 살펴보기
  • 이용(Exploitation): 이미 유망하다고 알려진 경로를 집중적으로 파고들기

대표적으로 MCTS (Monte-Carlo Tree Search)가 있다.

 

  1. 현재 상태에서 다수의 시뮬레이션 경로(trajectory)를 샘플링
  2. 터미널 조건 (예: 최대 깊이 도달 등)에 도달할 때까지 진행
  3. 얻어진 결과를 바탕으로 어떤 행동을 취할지 추천

Trajectory Optimization

모델이 미분 가능하다면, 보상을 따라 policy gradient를 역전파로 직접 계산할 수 있다. 

 

PLICO는 Gaussian Process를 이용해서 환경의 확률적 (probabilistic) 동역학 모델을 학습한다. 모델의 불확실성까지 고려해서 계획과 정책 평가를 수행한다. 장점은 높은 샘플 효율성을 보여주지만, Gaussian Procsse는 고차원 문제에 확장성이 떨어진다는 단점이 있다. 

 

> 딥러닝의 일반화 능력을 활용해서 고차원에서도 경로 최적화를 가능하게 한다. 

 

(1) Latent space에서의 최적화

autoencoder를 사용해 latent space를 만들고 그 안에서 동역학 모델을 학습한다. 이후 MPC을 사용해 유한 시간 최적 제어 문제를 반복적으로 풀어서 정책을 찾는다. 

 

(2) 선형성을 활용한 잠재 공간 제어

잠재 공간에서 local linear dynamics를 가지도록 확률 생성 모델을 설계한다. 

 

(3) Trajectory Optimizer를 교사(teacher)로 사용 : Guided Policy Search

다른 컨트롤러가 제시한 몇 개의 행동 시퀀스를 활용하여 정책을 점진적으로 학습한다. Trajectory optimizer가 정책을 직접 만드는 게 아니라, 정책을 조정하는 가이드 역할을 한다. 

 

Integrating Model-Free and Model-Based Methods

Model-Free는 환경의 모델 없이, 에이전트가 직접 상호작용을 통해 정잭 / 가치 함수를 학습한다. 환경 모델은 없으며 실제 환경에서 직접 경험을 통해 학습힌다. 

Model-Based는 환경의 동역학을 모델링하고 모델을 활용해 계획 / 정책을 학습한다. 

Model-Free 구현이 간단하고, 모델 오류에 영향 없음 샘플 비효율적, 학습에 많은 데이터 필요
Model-Based 샘플 효율성 높음, 환경 구조를 활용 가능 모델 학습 오차가 크면 성능 저하 가능

 

고려해야 할 3가지 핵심 요인

  1. 모델의 가용성
    • 명시적 모델이 없는 경우엔 학습해야 하지만, 이때 불확실성부정확성이 생김
  2. 계산 비용
    • 모델 기반은 일반적으로 계획(Planning)을 병행해야 하므로 계산 자원이 더 많이 듦
  3. 문제 구조의 영향
    • 어떤 문제는 정책(policy) 학습이 더 쉬운 반면, 다른 문제는 모델을 학습하는 편이 더 쉬움

예시 1: 미로(Labyrinth)

  • 환경이 완전히 관측 가능하고 규칙이 명확하다면, 소수의 경험만으로도 모델을 쉽게 학습 가능 → 모델 기반 + 계획 알고리즘 효과적

예시 2: 무작위 도로 상황

  • 돌발 상황(예: 물체가 갑자기 나타남) 발생 시 반응 필요 → 이런 경우는 정책만 학습해도 충분하므로 모델 프리가 더 유리

아키텍처 핵심 아이디어

VIN NN 내에 differentiable한 planning 모듈 포함
Predictron 내부 모델에서 reward와 value 예측
VPN Q-learning을 내부 모델에 접목 (n-step)
CRAR 모델과 가치 함수를 공동으로 학습하여 효율적인 표현 획득
I2A 모델의 예측을 policy 네트워크의 컨텍스트로 사용
TreeQN / ATreeC 모델 프리와 트리 구조를 결합하여 Q-값 기반 계획