본문 바로가기

CS231N - Lecture 6: Training Neural Networks I Overview (Part I & Part II) Part I Activation Functions Sigmoid We have a linear regime near. It looks like a linear function.3 problems1) Saturated neurons "kill" the gradients. Q1: What happens when x = -10? What does is gradient look like?A1: Zero. The gradient become zero.So, after the chain rule, this kills the gradient flow and you have a 0(zero) gradient passed down to downstream nodes.Q2.. 더보기
CS231N - Lecture 5: Convolutional Neural Networks Convolutional Neural Networks Fully Connected LayerLet's say we have an 3D image, 32 x 32 x 3. So we'll stretch all of the pixels out, and then we have this 3072 dimensional vector.And we have these weights. So here for example out W, we're going to say is 10 x 3072.We take each of our 10 rows and we do this dot product with 3072 dimensional input.(comment) Fully Connected Layer is a layer repre.. 더보기
CS231N - Lecture 4: Backpropagation and Neural Networks Backpropagation Computational graphsOnce we can express a function using a computational graph, we can use a technique that we call "Backpropagation" which is going to recursively use the chain rule in order to compute the gradient with respect to every variable in the computational graph.A simple exampleWe want to find the gradients of $f$ with respect to x, y and z. The very end of the computa.. 더보기
Algorithms for Inverse Reinforcement Learning 논문 제목 : Algorithms for Inverse Reinforcement Learning(2000) ● 논문 저자 : Andrew Y. Ng, Stuart Russell ● 논문 링크 : http://ai.stanford.edu/~ang/papers/icml00-irl.pdf● 이전에 보면 좋은 자료 : ○ Reinforcement Learning : An Introduction(written by Richard S. Sutton and Andrew G. Barto)● 함께 보면 좋은 논문 :○ Learning Agents for Uncertain Environments(1998) ○ Apprenticeship Learning via Inverse Reinforcement Learning(2004.. 더보기
CS231N - Lecture 3: Loss Functions and Optimization Loss Function Loss FunctionYou can see that some of these scores are better or worse than others. But that's actually bad. So this is kind of a hand wavy approach.Actually to determine automatically which W will be best, we need some way to quantify the goodness or the badness of any particular W.That's this function that takes a W, looks at the scores and then tells us how bad quantitatively is.. 더보기
CS231N - Lecture 2: Image Classification pipeline Image Classification A core task in Computer Vision(CV)Image Classification TaskInput : imageOutput : categories or labels The problem : Semantic Gap (human machine)Visual system in your brain is hardwired to doing these, sort of, visual recognition tasks.But, the computer really is representing the image as this gigantic grid of numbers. e.g. 800 x 600 x 3 (3 channels RGB)ChallengesViewpoint va.. 더보기
생각담기 5. 하고 싶은 것과 해야하는 것 생각담기 5. 해야하는 것과 하고 싶은 것 해야하는 것과 하고 싶은 것. 오늘은 이 주제에 대해 머리속에 있는 생각들을 정리하고자 한다. 1) 예전에 나는 내가 무엇을 좋아하는지 잘 몰랐었다. 그저 나보다 뛰어난 사람들에게 나를 맞추어 그 사람과 동일하게 가려고 했다. 그 사람이 어떠한 일, 물건을 좋아하면 나도 똑같이 좋아했었다. 그렇게 내 의견도 없고, 내가 뭘 좋아하는 지도 몰랐고, 남이 이끄는 데로 따라갔었던 것 같다. 하지만 1~2년 전부터 나에 대해서 집중하기로 했다. 내가 무엇을 좋아하고, 왜 좋아하고, 그 좋아하는 것을 어떻게 하면 잘할 수 있을 지를 고민했다. 그래서 6개월동안 매주 한 번씩 종이 한 장을 놓고 마인드맵을 그려가면서 나를 찾아왔다. 2) 최근 들어 이러한 문구도 많이 보인.. 더보기
생각담기 4. 박사란 무엇인가요? 생각담기 4. 박사란 무엇인가요? 모든 사람이 그러하듯이 요즘 나도 미래에 대한 걱정을 한다. 사실, 요즘이 아니라 앞으로도 계속 미래에 대한 걱정을 할 것 같다. 나는 이 걱정을 줄이기 위해 너무 멀리보지 않기로 했고, '바로 앞에 주어진 일에 최선을 다하자'라는 생각으로 달려오고 있다. 이렇게 생각하니까 마음이 좀 편안해진다. 하지만 대학교 3학년이기 때문에 앞으로 남은 1년을 잘 준비하여 대학원으로 갈 것인지, 취업으로 갈 것인지를 정해야하기에 요즘 들어 다시 마음이 좀 불편해졌다. 앞으로 내 인생에 있어서 중요한 결정의 순간이 다가오고 있기 때문에 신중하게 판단하여 그 길로 가야할 것 같다. 요즘 매일같이 마음이 바뀌고 있다. 어떤 날은 "AI Research Scientist"가 되고 싶다가도,.. 더보기
생각담기 3. 환경의 중요성 생각담기 3. 환경의 중요성 오랜만에 글을 쓰는 것 같다. 최근 스터디, 프로젝트, 컨퍼런스 발표준비 등으로 인해 시간이 여유롭지 못하여 글을 쓰지 못했다. 이제 시간적 여유도 생겼으니 그동안 차곡차곡 쌓아두었던 주제들로 글을 써보려고 한다! 오늘 쓸 글의 제목은 바로 "환경의 중요성"이다. 강화학습을 공부하다보면 환경(Environment)이라는 것이 참 중요하다. 다음의 그림은 송호연님의 자료 중 일부 그림을 가져온 것이다 (Link) DeepMind는 위의 보이는 문장인 "위대한 에이전트 뒤에는 위대한 환경이 있다."란 말을 했다고 한다. 나는 여기서 에이전트가 아닌 사람도 환경이 중요하다고 말하고 싶다. 다시 말해 "위대한 사람 뒤에는 위대한 환경이 있다."란 말을 하고 싶은 것이다. 1) 약 8.. 더보기
생각담기 2. 비교 생각담기 2. 비교 사람들은 다른사람과의 비교를 통해 더 성장하기도 더 좌절하기도 한다.오늘은 내가 생각하는 **비교** 에 대해서 말해보고싶다. 얼마전 엄태웅님의 게시물을 보고 너무 공감이 되었다. - https://www.facebook.com/terryum/posts/10156286315519417결국 우리는 나와 다른 사람들과의 경쟁력에서 더 위에 있기를 바라고, 어떠한 grade을 정해 비교하며, 틈새시장만 찾다가 시도도 못해보고 다른 길로 빠지기도 한다. 인공지능, 머신러닝 분야를 공부하면서 몇 달전까지 나는 남들과 다른 경쟁력을 갖기 바랬고, 나 혼자 어떠한 grade를 통해 비교했고, 너무 부족한 나를 자책했고, 좌절했고, '다른 분야로 빠져볼까'라는 생각이 들기도 했다. 하지만 얼마전부터.. 더보기
생각담기 1. 수학에 미쳐가는 나 생각담기 1. 수학에 미쳐가는 나 요즘 페이스북을 보면 많은 분들이 자신의 타임라인에 자신의 생각을 표출하시는 것을 꽤 많이 본 것 같다. 예전에는 '아니 혼자 생각하면 되는데 굳이 왜 이런 생각들을 페이스북에 적는거지?'라는 생각으로 부정적으로 보였지만, 지금 생각하니 어짜피 내 타임라인이고, 내 생각을 글로 적는 곳에 대한 자유도 있고, 무엇보다도 이렇게 글을 쓰면서 내 자신을 한 번 더 돌아보게 되고, 정리하게 되는 계기가 되는 것 같다.앞으로 나도 내 생각들을 내 타임라인에 담을 것이다..! :) 오늘은 '수학에 미쳐가는 나'라는 주제로 얘기를 꺼내보고 싶다. 요즘도 어김없이 강화학습을 공부하면서 이러쿵 저러쿵 많은 생각을 한다. 1) 수영을 그만두고 나서부터 나는 수학을 너무 좋아했다. 왜냐하면.. 더보기
High-Dimensional Continuous Control using Generalized Advantage Estimation 논문 제목 : High-Dimensional Continuous Control using Generalized Advantage Estimation[Last revised 9 Sep 2016 (this version, v5)] ● 논문 저자 : John Schulman ● 논문 링크 : https://arxiv.org/pdf/1506.02438.pdf● 이전에 보면 좋은 자료 : ○ Policy Gradient Methods for Reinforcement Learning with Function Approximation(2000)○ n-Step Return vs. Lambda-Return● 함께 보면 좋을 논문 :○ Trust Region Policy Optimization(2015)○ Proximal.. 더보기
n-Step Return vs. Lambda-Return n-Step Return vs. $\lambda$-Return 이 글의 목적은 n-Step Return과 $\lambda$-Return의 차이점에 대하여 간락하게 정리하는 것이다. 최근에 읽은 GAE 논문에서 Advantage Function에 비슷한 형태가 나오기 때문에 그 전에 먼저 TD($\lambda$) 의 개념을 정확히 알고 넘어가고자 한다. 각 그림과 설명은 실버 강의 자료와 서튼 책에서 가져온 것이다. 먼저 TD의 step을 어디까지 볼 것인지에 대한 n-Step Prediction이다. 보이는 것처럼 TD(1-step)부터 시작하여 2-step, 3-step, ... , n-step, ... 에피소드까지 생각하는 Monte Carlo가 있다. 우리는 맨 위의 수식처럼 n=1, n=2, n=.. 더보기
A Comprehensive Survey on Safe Reinforcement Learning 논문 제목 : A Comprehensive Survey on Safe Reinforcement Learning (2015) ● 논문 저자 : Javier Garcia, Fernando Fernandez ● 논문 링크 : http://www.jmlr.org/papers/volume16/garcia15a/garcia15a.pdf 1 AbstractSafe Reinforcement Learning(Safe RL)의 정의maximize the expectation of the return in problems in which it is important to ensure reasonable system performanceor/and respect safety constraints during the learn.. 더보기
Imagination-Augmented Agents for Deep Reinforcement Learning 논문 제목 : Imagination-Augmented Agents for Deep Reinforcement Learning [Last revised 14 Feb 2018 (this version, v2)] ● 논문 저자 : Theophane Weber (DeepMind)● 논문 링크 : https://arxiv.org/pdf/1707.06203.pdf ● 이전에 보면 좋은 자료 : ○ Chapter 8. Planning and Learning with Tabular Methods in Reinforcement Learning: An Introduction○ https://www.slideshare.net/DongMinLee32/planning-and-learning-with-tabular-methods●.. 더보기