강화학습

[강화학습] 2-3강. 벨만 방정식 (Bellman equation)

리미61 2025. 1. 8. 11:07

https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5

 

벨만 방정식

시점 $t$에서의 밸류와 시점 $t+1$에서의 밸류 사이의 관계를 다룬다. 

상태 가치 함수와 행동 가치 함수를 재귀적으로 정의한다. 

0단계

1단계


2단계

1단계 $q_\pi$에 대한 식을 $v_\pi$에 대한 식에 대입한다.