'off-policy' 태그의 글 목록

On-policy vs Off-policy

On-policy On policy는 behavior policy와 target policy가 같다. 즉, 현재 행동하는 policy를 그대로 update 할 목적으로 환경을 탐색한다. 현재 policy를 통해 얻은 trajectories(궤적)를 가지고 policy를 update를 하기 때문에 얻어지는 상태 분포 자체가 현재 policy에 의존적이게 된다. 그렇기 때문에, data dependent 한다. 이는 local optimal에 수렴할 수 있는 가능성을 만든다. 또한 한번 policy를 update 한 후, 그 이전의 trajectories는 현재의 policy와 다르기 때문에 더 이상 쓸 수 없다. 하지만 주로 update 할 action selection이 stochastic 하기 때문에,..

Paper Review/Meta-Learning 2023.04.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Subeen lab

off-policy 1

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역