강화학습

[강화학습] 3-1강. Optimal policy

리미61 2025. 1. 8. 11:37

https://www.youtube.com/watch?v=cn7IAfgPasE&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=6

 

Optimal policy 

optimal policy는 현재 상태로부터 기대되는 리턴(return) = state value function을 최대화하는 것이다. 

최적 정책은 상태 값 함수 V(St)V(St)를 최대화하도록 설계된다.

π(St)=argmaxπE[GtSt,π]π(St)=argmaxπE[GtSt,π]

과거의 행동은 무시하고 앞으로 기대되는 보상을 기준으로 결정하는 Markov Decision Process(MDP) 특성을 가진다.

 

Bellman Equation에서의 Optimal Policy

상태 값 함수 V(St)V(St)는 행동 값 함수 Q(St,at)Q(St,at)로 표현될 수 있다.

V(St)=maxatQ(St,at)V(St)=maxatQ(St,at)

 

현재 상태에서의 기대 보상은 미래의 최적 정책에 의존한다.

Q(St,at)=E[Rt+γV(St+1)St,at]Q(St,at)=E[Rt+γV(St+1)St,at]

반복적으로 미래의 최적 정책을 계산하며, Q(St,at)를 학습한다.

Optimal Policy의 도출

최적 행동은 at: Q(St,at)를 최대화하는 행동이다.

at=argmaxatQ(St,at)

최적 정책 π(atSt)는 특정 행동 at를 선택하도록 설정된다.

π(atSt)=δ(atat)

 

Dirac Delta 함수 δ(x)는 특정 지점 x=0에서 무한대 값을 가지며, x0에서는 0을 가지는 함수이다. 이를 통해 최적 정책은 항상 at를 선택하게 된다.