[강화학습] 3-1강. Optimal policy

강화학습

[강화학습] 3-1강. Optimal policy

리미61 2025. 1. 8. 11:37

https://www.youtube.com/watch?v=cn7IAfgPasE&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=6

Optimal policy

optimal policy는 현재 상태로부터 기대되는 리턴(return) = state value function을 최대화하는 것이다.

최적 정책은 상태 값 함수 $V(S_t)$ 를 최대화하도록 설계된다.

$\pi^*(S_t) = \arg\max_{\pi} \mathbb{E}[G_t \mid S_t, \pi]$

과거의 행동은 무시하고 앞으로 기대되는 보상을 기준으로 결정하는 Markov Decision Process(MDP) 특성을 가진다.

Bellman Equation에서의 Optimal Policy

상태 값 함수 $V(S_t)$ 는 행동 값 함수 $Q(S_t, a_t)$ 로 표현될 수 있다.

$V(S_t) = \max_{a_t} Q(S_t, a_t)$

현재 상태에서의 기대 보상은 미래의 최적 정책에 의존한다.

$Q(S_t, a_t) = \mathbb{E}[R_t + \gamma V(S_{t+1}) \mid S_t, a_t]$

반복적으로 미래의 최적 정책을 계산하며, $Q^*(S_t, a_t)$ 를 학습한다.

Optimal Policy의 도출

최적 행동은 $a^*_t$ : $Q^*(S_t, a_t)$ 를 최대화하는 행동이다.

$a^*_t = \arg\max_{a_t} Q^*(S_t, a_t)$

최적 정책 $\pi^*(a_t \mid S_t)$ 는 특정 행동 $a^*_t$ 를 선택하도록 설정된다.

$\pi^*(a_t \mid S_t) = \delta(a_t - a^*_t)$

Dirac Delta 함수 $\delta(x)$ 는 특정 지점 $x = 0$ 에서 무한대 값을 가지며, $x \neq 0$ 에서는 0을 가지는 함수이다. 이를 통해 최적 정책은 항상 $a^*_t$ 를 선택하게 된다.

'강화학습' 카테고리의 다른 글

[강화학습] 3-3강. Temporal difference (TD) & SARSA (0)	2025.01.08
[강화학습] 3-2강. Monte Carlo (MC) 방법 (1)	2025.01.08
[강화학습] 2-3강. 벨만 방정식 (Bellman equation) (0)	2025.01.08
[강화학습] 2-2강. 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy (0)	2025.01.05
[강화학습] 2-1강. Markov Decision Process (MDP) (1)	2025.01.05

현재글[강화학습] 3-1강. Optimal policy

리미 리미61 님의 블로그입니다.

리미

srlm, tableau, rl, Clip, 강화학습, weicom, LLM, vlm, reinforcement learning, 티스토리챌린지, clipseg, Mamba, LSTM, 오블완, trainig-free, blip-2, Distillation, SKT, 데보션영, InfoNCE,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

리미