강화학습 단기집중 과정

세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 주로 연구하는 강화학습을 기초부터 튼튼하게 학습할 수 있는 스터디입니다.

수업 소개

파이썬 기본 문법을 다룰 수 있지만, 머신러닝 강화학습에 대한 깊이 있는 공부가 필요한 분들을 위한 스터디입니다.

이런 걸 할 수 있어요

✔️ 강화학습 핵심 개념을 암기하는 것이 숙제 중 하나입니다. 한달 간 강화학습의 주요 개념들을 반복적으로 익히고 암기할 수 있습니다.

✔️ 핵심 알고리즘 REINFORCE, Policy Iteration, Value Iteration, Sarsa, Qlearning, DQN, A3C를 Tensorflow 2.0 기준으로 활용할 수 있습니다.

✔️ 학습한 기본 개념을 바탕으로 매주 5일차 Tensorflow 프로그래밍을 통해 실제로 구현할 수 있습니다.

코치 소개

  • 송호연
     |
    • 현) Tensorflow Contributor
    • 현) Google Developer Expert for Machine Learning
    • 전) Kakao Data Engineer
    • 전) Naver Clova AI Research Engineer
    • KAIST 전산학과/기술경영학과 학부 졸업
    • KAIST 기술경영전문대학원 석사 졸업
    • 링크드인 프로필

제가 인공지능 분야에서 가장 사랑하는 분야이자 세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 연구하는 분야가 바로 강화학습입니다. 저는 이 기술이 앞으로 세상을 바꾸는 기술이 될 것이라고 확신합니다.


스터디파이가 특별한 이유

  • 언제 어디서나 온라인으로 스터디 가능

    모든 스터디는 100% 온라인 방식으로 진행되기 때문에 전 세계 어디서나 스터디에 참가할 수 있으며, 1:1 피드백을 받을 수 있습니다.

  • 끝까지 완주할 수 있도록 유도

    신청만 하고 중도에 포기한 강의가 있나요? 스터디파이는 포기하지 않고 끝까지 완주할 수 있게 도와주는 혁신적인 시스템으로 2명 중 1명이 끝까지 공부하고 있습니다.

  • 완주하고 환급도 받는 2배의 값진 경험

    스터디파이와 끝까지 공부하면 처음 결제한 금액에서 일정금액을 돌려드립니다. 경험해보지 않으면 알 수 없는 환급의 기쁨을 경험해보세요.

 

커리큘럼 안내

[학습 교재]

[학습 방법]

  • 교재를 통해 학습이 진행됩니다. 스터디 전에 각자 주교재를 준비해 주세요.
  • 학습기간 중 매주 수요일 저녁 11시-12시에 온라인 모임이 있는 스터디입니다.
  • 매주 강사가 제출하는 과제에 대한 답을 제출하시고, 답안을 해설하는 내용을 일주일에 한번씩 온라인에서 모여서 강의하고 질문답변을 받는 방식으로 진행합니다.

[환급 기준]

  • 학습기간 중 매주 수요일 저녁 11시-12시에 있는 온라인 스터디에 참가하고, 모든 주간과제를 매주 6일차 오후 11시 59분까지 제출하면 환급됩니다.
  • 1주차

    상세 커리큘럼

    첫주 주간 과제 보러가기
    1. Day 1 - 챕터1: 강화학습의 소개 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~27p, 약 40분)
      • 1) 강화학습이란 무엇인가요?
      • 2) 탐험과 활용 문제란 무엇인가요?
      • 3) 정책이란 무엇인가요?
      • 4) 보상 신호란 무엇인가요?
      • 5) 가치 함수란 무엇인가요?
      • 6) 모델이란 무엇인가요?
    2. Day 2 - 챕터2: 다중 선택 문제(Bandit problem) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~56p, 약 40분)
    3. Day 3 - 챕터3: 유한 마르코프 결정 과정(Markov Decision Process) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~87p, 약 1시간)
    4. Day 4 - 챕터4: 동적 프로그래밍(Dynamic Programming) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~110p, 약 1시간)
      • 1) Policy Evaluation에서 v(s) 업데이트 식을 암기해서 적어주세요: (식 4.4, Bellman Expectation Equation과 동일)
      • 2) Policy Improvement에서 pi(a|s) 업데이트 식을 암기해서 적어주세요: (식 4.9)
      • 3) Value Iteration v(s) 업데이트 식을 암기해서 적어주세요: (식: 4.10, Bellman Optimality Equation 과 동일)
      • 4) 일반화된 정책 반복(Generalized Policy Iteration, GPI)란 무엇인가요?
    5. Day 5 - 코딩 실습
    6. Day 6
    7. Day 7
      • 매주 수요일 저녁 11시-12시 온라인 스터디에 참여합니다.
  • 2주차

    상세 커리큘럼

    몬테 카를로(Monte Carlo), 시간차 학습(TD Learning) (챕터 5-7, ~190p)

    챕터5: 몬테카를로 방법

    챕터6: 시간차 학습

    챕터7: n-단계 부트스트랩

    몬테카를로 구현, Sarsa, Q-learning 구현 실습

  • 3주차

    상세 커리큘럼

    모델 기반 강화학습, 근사 기반 정책 예측 및 제어 (챕터8-10, ~309p)

    챕터8: 표에 기반한 방법을 이용한 계획 및 학습

    챕터9: 근사를 이용한 활성 정책 예측

    챕터10: 근사를 적용한 활설 정책 제어

    dyna-q 알고리즘 구현 실습

  • 4주차

    상세 커리큘럼

    근사를 활용한 Off-Policy 방법, Eligibility Trace, Policy Gradient

    챕터11: 근사를 활용한 Off-Policy 방법

    챕터12: 적격 흔적(Eligibility Trace)

    챕터13: 정책 경사도 방법

    REINFORCE, A3C 알고리즘 구현 실습



유의사항

  • 카드사 포인트/ 선불/ 기프트카드로 결제하면 환불이 불가능하기 때문에 결제수단으로 사용하실 수 없습니다.
  • 스터디 상품은 온라인 스터디 시작 하루 전까지 100% 환불 가능합니다.
  • 동영상 콘텐츠는 구매 후 7일 이내 이용하지 않은 부분 대해서 전액 환불을 보장합니다. 취소/환불약관 보러가기
  • 단, 일부 상품의 경우 별도의 취소/환불 규정이 적용될 수 있습니다. (하단 상품상세설명 또는 FAQ 참조)
  • 환불, 환급은 결제한 수단과 동일한 방식으로 진행됩니다.
  • 환급액은 [개인정보 수집 이용 및 제 3자 제공에 동의]에 동의를 해주셔야 받으실 수 있습니다.
  • 환급액이 5만원을 초과할 경우, 환급액을 기준으로 제세 공과금 22%를 차감한 뒤 지급합니다.
  • 환급 신청은 환급조건을 달성한 수료일로부터 반드시 60일 이내에 신청해주셔야 환급액이 지급됩니다.
※ 자주 물어보는 질문 FAQ
※ 신청 및 기타 문의는 카카오톡으로 문의 주세요.