rl 8

[논문리뷰] Vision-Language Models Provide PromptableRepresentations for Reinforcement Learning

https://arxiv.org/pdf/2402.02651  본 논문에서는 Vision-Language Model(VLM)을 강화 학습(RL) 에이전트의 표현 학습에 활용하는 PR2L(Promptable Representations for Reinforcement Learning) 프레임워크를 제안한다. PR2L은 VLM이 제공하는 프롬프트 기반 표현을 활용하여, 시각적 관찰로부터 의미론적 특징(Semantic Features)을 추출하고 이를 RL 정책 학습에 적용하는 방식이다. 특히, PR2L은 프롬프팅을 통해 의미론적으로 풍부한 표현을 만들고, 이를 통해 에이전트가 배경 지식을 활용하여 빠르게 행동을 학습할 수 있도록 돕는다. PR2L - Promptable Representations for Re..

논문 리뷰/RL 2025.04.01

[논문리뷰] Beyond Scalar Reward Model: Learning Generative Judge from Preference Data

https://arxiv.org/html/2410.03742v2 Beyond Scalar Reward Model: Learning Generative Judge from Preference DataBeyond Scalar Reward Model: Learning Generative Judge from Preference Data Ziyi Ye1, Xiangsheng Li2, Qiuchi Li3, Qingyao Ai1, Yujia Zhou1, Wei Shen2, Dong Yan2, Yiqun Liu1 1Department of Computer Science and Technology, Tsinghua University 2Baichuan AI  arxiv.orgAbstract기존 방식에서는 preferen..

논문 리뷰/RL 2025.02.14

[논문리뷰] Self-Rewarding Language Models

https://arxiv.org/abs/2401.10020 Self-Rewarding Language ModelsWe posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performanarxiv.orgAbstract  기존의 LLM은 인간의 선호도를 바탕으로 한 보상 모델이다. 따라서 bottleneck문제와 LLM이 학습 ..

논문 리뷰/RL 2025.02.06

[강화학습] 13강. A2C

A2C 알고리즘Advantage Actor-Critic(A2C)는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q..

공부/강화학습 2025.01.26

[강화학습] 8강. PER: Prioritized Experience Replay

https://arxiv.org/abs/1511.05952 Prioritized Experience ReplayExperience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequarxiv.orgAbstract 경험 재생(Experience Replay)은 기존에 재생 메모리에서 경험 데이터를 균등하게 샘플링한다. 해당 ..

공부/강화학습 2025.01.19

[강화학습] 2-2강. 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy

https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 강화학습의 핵심 목표> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다. E[f(x)]$$E[f(x)] = \int f(x) p(x) \, dx$$\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.Expected Return을 표현하는 두 가지 방법State value function $(V(s))$현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 R..

공부/강화학습 2025.01.05

[강화학습] 2-1강. Markov Decision Process (MDP)

https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 Markov Decision ProcessMDP는 강화학습에서 환경을 수학적으로 모델링한 것이다.  State (S): 현재 상태Action (A): 취할 수 있는 행동Transition: 한 상태에서 행동을 통해 다음 상태로 이동MDP에서는 현재 상태에서 다음 상태로의 전이는 현재 상태와 행동에만 의존하는 Markov Property가 성립한다. 현재 상태 \(s_t\)와 행동 \(a_t\)만 알면, 다음 상태 \(s_{t+1}\)와 보상 \(R_{t+1}\)을 예측할 수 있다. 과거의 상태나 행동은 현재 상태 \(s_t\)에 모두 포함되어..

공부/강화학습 2025.01.05

[강화학습] 1-2강. Q-learning

https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2 Reinforcement learning = 맛집 찾기! Q-learning상태(state)와 행동(action)의 조합에 따른 보상(reward)을 학습하여 최적의 행동 정책(policy)을 수립한다. 각 행동에 대해 예상되는 점수(q)를 계산하고 점수가 가장 높은 행동을 선택한다.Greedy action항상 현재 상태에서 가장 높은 점수를 가진 행동을 선택하는 전략이다.Exploration (탐험)장점 1. 새로운 path를 발견할 수 있다.장점 2. 새로운 맛집을 발견할 가능성을 제공한다.  > 탐험만 한다면 효율적인 학습이 어려우므로 ..

공부/강화학습 2025.01.05