강화학습

[강화학습] 1-2강. Q-learning

리미61 2025. 1. 5. 02:22

https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2

 

Reinforcement learning = 맛집 찾기! 

Q-learning

상태(state)와 행동(action)의 조합에 따른 보상(reward)을 학습하여 최적의 행동 정책(policy)을 수립한다. 각 행동에 대해 예상되는 점수(q)를 계산하고 점수가 가장 높은 행동을 선택한다.

Greedy action

항상 현재 상태에서 가장 높은 점수를 가진 행동을 선택하는 전략이다.

Exploration (탐험)

장점 1. 새로운 path를 발견할 수 있다.

장점 2. 새로운 맛집을 발견할 가능성을 제공한다. 

 

> 탐험만 한다면 효율적인 학습이 어려우므로 Exploration과 Exploitation을 균형 있게 조절해야 한다.

Exploration & Exploitation

Exploitation : 현재까지 학습된 정보를 바탕으로 최적이라고 판단되는 행동을 선택

Exploration : 새로운 행동을 시도하여 추가 정보를 얻음

ε - Greedy

ε의 확률로 랜덤하게 행동을 선택하고, 나머지 확률(1-ε)로 최적 행동(Greedy Action)을 선택한다. (ε : 0~1 사이의 값)

(Decaying) ε - Greedy

학습 초기에는 Exploration을 많이 하다가 점차 학습이 진행될수록 비율을 줄이고 Exploitation을 늘린다. 

 

Discount factor

현재의 보상과 미래의 보상 간의 중요도를 조정하는 역할을 한다.

γ = 0에 가까울수록 현재의 보상을 더 중요시하고, γ = 1에 가까울수록 미래의 보상도 동일하게 고려한다.

(γ : 0~1 사이의 값)

  • γ = 0 : \( R + 0 \times \max_{a'} Q(s', a') = R \)
    → 미래 보상은 아예 무시하고, 즉시 보상만 고려한다.
  • γ = 1: \( R + 1 \times \max_{a'} Q(s', a') \)
    → 현재 보상과 미래 보상을 동일하게 중요시한다. 

 

장점 1. 장기적인 보상을 고려하므로 효율적인 path이다.

장점 2. 현재 vs 미래 reward 

Q - update

$$Q(s,a) \leftarrow Q(s, a) + \alpha[R + \gamma \max_{a'} Q(s', a')]$$

 

  • : 현재 상태 에서 행동 를 선택했을 때의 점수
  • α (학습률) : 새로운 정보를 얼마나 받아들일지 결정
  • R : 현재 행동에 대한 즉각적인 보상
  • γ : 미래 보상의 중요도를 결정하는 감가율