https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5
벨만 방정식
시점 $t$에서의 밸류와 시점 $t+1$에서의 밸류 사이의 관계를 다룬다.
상태 가치 함수와 행동 가치 함수를 재귀적으로 정의한다.
0단계
1단계
2단계
1단계 $q_\pi$에 대한 식을 $v_\pi$에 대한 식에 대입한다.
'강화학습' 카테고리의 다른 글
[강화학습] 3-2강. Monte Carlo (MC) 방법 (1) | 2025.01.08 |
---|---|
[강화학습] 3-1강. Optimal policy (0) | 2025.01.08 |
[강화학습] 2-2강. 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy (0) | 2025.01.05 |
[강화학습] 2-1강. Markov Decision Process (MDP) (1) | 2025.01.05 |
[강화학습] 1-2강. Q-learning (0) | 2025.01.05 |