언제 어디서나 온라인으로 스터디 가능
모든 스터디는 100% 온라인 방식으로 진행되기 때문에 전 세계 어디서나 스터디에 참가할 수 있으며, 1:1 피드백을 받을 수 있습니다.
파이썬 기본 문법을 다룰 수 있지만, 머신러닝 강화학습에 대한 깊이 있는 공부가 필요한 분들을 위한 스터디입니다.
✔️ 강화학습 핵심 개념을 암기하는 것이 숙제 중 하나입니다. 한달 간 강화학습의 주요 개념들을 반복적으로 익히고 암기할 수 있습니다.
✔️ 핵심 알고리즘 REINFORCE, Policy Iteration, Value Iteration, Sarsa, Qlearning, DQN, A3C를 Tensorflow 2.0 기준으로 활용할 수 있습니다.
✔️ 학습한 기본 개념을 바탕으로 매주 5일차 Tensorflow 프로그래밍을 통해 실제로 구현할 수 있습니다.
제가 인공지능 분야에서 가장 사랑하는 분야이자 세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 연구하는 분야가 바로 강화학습입니다. 저는 이 기술이 앞으로 세상을 바꾸는 기술이 될 것이라고 확신합니다.
모든 스터디는 100% 온라인 방식으로 진행되기 때문에 전 세계 어디서나 스터디에 참가할 수 있으며, 1:1 피드백을 받을 수 있습니다.
신청만 하고 중도에 포기한 강의가 있나요? 스터디파이는 포기하지 않고 끝까지 완주할 수 있게 도와주는 혁신적인 시스템으로 2명 중 1명이 끝까지 공부하고 있습니다.
스터디파이와 끝까지 공부하면 처음 결제한 금액에서 일정금액을 돌려드립니다. 경험해보지 않으면 알 수 없는 환급의 기쁨을 경험해보세요.
[학습 교재]
[학습 방법]
[환급 기준]
몬테 카를로(Monte Carlo), 시간차 학습(TD Learning) (챕터 5-7, ~190p)
챕터5: 몬테카를로 방법
챕터6: 시간차 학습
챕터7: n-단계 부트스트랩
몬테카를로 구현, Sarsa, Q-learning 구현 실습
모델 기반 강화학습, 근사 기반 정책 예측 및 제어 (챕터8-10, ~309p)
챕터8: 표에 기반한 방법을 이용한 계획 및 학습
챕터9: 근사를 이용한 활성 정책 예측
챕터10: 근사를 적용한 활설 정책 제어
dyna-q 알고리즘 구현 실습
근사를 활용한 Off-Policy 방법, Eligibility Trace, Policy Gradient
챕터11: 근사를 활용한 Off-Policy 방법
챕터12: 적격 흔적(Eligibility Trace)
챕터13: 정책 경사도 방법
REINFORCE, A3C 알고리즘 구현 실습