https://www.youtube.com/watch?v=cn7IAfgPasE&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=6
Optimal policy
optimal policy는 현재 상태로부터 기대되는 리턴(return) = state value function을 최대화하는 것이다.
최적 정책은 상태 값 함수 V(St)V(St)를 최대화하도록 설계된다.
π∗(St)=argmaxπE[Gt∣St,π]π∗(St)=argmaxπE[Gt∣St,π]
과거의 행동은 무시하고 앞으로 기대되는 보상을 기준으로 결정하는 Markov Decision Process(MDP) 특성을 가진다.
Bellman Equation에서의 Optimal Policy
상태 값 함수 V(St)V(St)는 행동 값 함수 Q(St,at)Q(St,at)로 표현될 수 있다.
V(St)=maxatQ(St,at)V(St)=maxatQ(St,at)
현재 상태에서의 기대 보상은 미래의 최적 정책에 의존한다.
Q(St,at)=E[Rt+γV(St+1)∣St,at]Q(St,at)=E[Rt+γV(St+1)∣St,at]
반복적으로 미래의 최적 정책을 계산하며, Q∗(St,at)를 학습한다.
Optimal Policy의 도출
최적 행동은 a∗t: Q∗(St,at)를 최대화하는 행동이다.
a∗t=argmaxatQ∗(St,at)
최적 정책 π∗(at∣St)는 특정 행동 a∗t를 선택하도록 설정된다.
π∗(at∣St)=δ(at−a∗t)
Dirac Delta 함수 δ(x)는 특정 지점 x=0에서 무한대 값을 가지며, x≠0에서는 0을 가지는 함수이다. 이를 통해 최적 정책은 항상 a∗t를 선택하게 된다.
'강화학습' 카테고리의 다른 글
[강화학습] 3-3강. Temporal difference (TD) & SARSA (0) | 2025.01.08 |
---|---|
[강화학습] 3-2강. Monte Carlo (MC) 방법 (1) | 2025.01.08 |
[강화학습] 2-3강. 벨만 방정식 (Bellman equation) (0) | 2025.01.08 |
[강화학습] 2-2강. 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy (0) | 2025.01.05 |
[강화학습] 2-1강. Markov Decision Process (MDP) (1) | 2025.01.05 |