논문 제목 : Algorithms for Inverse Reinforcement Learning(2000)
● 논문 저자 : Andrew Y. Ng, Stuart Russell
● 논문 링크 : http://ai.stanford.edu/~ang/papers/icml00-irl.pdf
● 이전에 보면 좋은 자료 :
○ Reinforcement Learning : An Introduction(written by Richard S. Sutton and Andrew G. Barto)
● 함께 보면 좋은 논문 :
○ Learning Agents for Uncertain Environments(1998)
○ Apprenticeship Learning via Inverse Reinforcement Learning(2004)
Inverse Reinforcement Learning Travel
- Algorithms for Inverse Reinforcement Learning(2000) - Selected
- Apprenticeship Learning via Inverse Reinforcement Learning(2004)
- Maximum Margin Planning(2006)
- Maximum Entropy Inverse Reinforcement Learning(2008)
- Generative Adversarial Imitation Learning(2016)
- Variational Discriminator Bottleneck(2018)
들어가기전에 먼저,
출처 : Elementary Mathematics (최성준 박사님)
(comment) 이 논문은 다양한 용어와 수식들이 많이 나온다. (수식으로 시작해서 수식으로 끝난다..) 많은 용어들, 이에 따른 정의와 정리에 대해서 나오는데, 기존에 강화학습의 용어와 정의, 정리를 알고 있다고 하더라도 약간의 차이가 있을 수 있다. 그러니까 하고 싶은 말이 무엇이냐면, 역강화학습이란 주제도 기존에 강화학습에서 쓰이는 용어와 정의, 정리에서 약간 변형하거나 아예 색다른 모습을 띈 개념과 수식들이 나올 수 있다는 것이다. 이 부분은 다른 주제들도 마찬가지이다. 그래서 처음에 용어와 정의, 정리들을 파악할 때 제대로 파악해놓지 않으면 나중에 가서 헷갈리는 경우가 많다. 새로운 것들이 하나씩 하나씩 튀어나올 때마다 정말 집중해서 봐야할 필요가 있다.
여기서 "정의(Definition)"란 따로 증명하지 않아도 되는 하나의 약속이다. 예를 들어 1+1 = 2겠지만, 1+ 강아지 = 2이라고 한다면 그대로 받아들여야 한다. 왜냐하면 정의이기 때문이다. "왜?"라는 물음보다는 "아 그렇구나! 정의니까 받아들이자!"라고 생각하면 편하다. 다음으로 "정리(Theorem)"란 하나의 약속이 아니라 가정으로부터 증명된 명제이다. 따라서 정리를 말할 때는 반드시 증명이 되어있어야 한다. 밑에 내용들도 수많은 정의와 정리로 이루어져 있다. 정의는 받아들인 뒤에 넘어가면 되고, 정리는 왜 그런지 꼼꼼히 살펴보도록 하자!
- 정의(Definition) : 증명 x, 약속 o, 토달지 말고 받아들이기
- 정리(Theorem) : 증명 o, 약속 x, 왜 이러한 정리가 나왔는지 증명을 통해서 꼼꼼히 파악하기
- 공리(Axiom) : 증명 x, 누가봐도 자명한, 명백한 사실
티스토리가 수식이 깨진다..ㅡ.ㅡ.. 그래서 RL korea 블로그에 다시 정리를 하였고, 실험부분도 추가적으로 정리하였다.
Inverse RL 쪽 전체 정리한 리뷰 : https://reinforcement-learning-kr.github.io/2019/01/22/0_lets-do-irl-guide/
'Artificial Intelligence > Reinforcement Learning' 카테고리의 다른 글
Maximum Margin Planning (0) | 2018.11.29 |
---|---|
Apprenticeship Learning via Inverse Reinforcement Learning (0) | 2018.11.12 |
High-Dimensional Continuous Control using Generalized Advantage Estimation (0) | 2018.07.03 |
n-Step Return vs. Lambda-Return (2) | 2018.07.02 |
A Comprehensive Survey on Safe Reinforcement Learning (0) | 2018.06.20 |