강화학습 단기집중 과정

세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 주로 연구하는 강화학습을 기초부터 튼튼하게 학습할 수 있는 스터디입니다.

기간
4주
모집인원
50명
참가비
19만원
22만원

스터디를 완주하면 5만원 환급

FOR WHO

이런 분들을 위한 스터디예요!

Python의 기본 문법을 다룰 수 있는 분

파이썬 기본 문법을 다룰 수 있고 AI에 관심있는 분

머신러닝에 입문하고자 하는 초보자

혼자 강화학습을 시작하기 막막하거나 많은 자료를 보며 독학해도 기본을 이해하기 어려웠던 머신러닝 초보자

강화학습 공부 시작만 하면 수식에서 막혔던 학생, 직장인

강화학습 공부 시작은 했지만 항상 수식 때문에 중간에 포기했던 학생, 직장인

머신러닝 기본기를 탄탄히 다지고 싶은 AI 개발자

당장 필요한 실무만 하기보단 AI 기본기에 대해 깊이 있는 공부가 필요하다고 느끼는 현업 엔지니어

GOAL

스터디 학습목표

강화학습 핵심 개념을 설명할 수 있을 정도로 숙지할 수 있다

강화학습 핵심 개념을 암기하는 것이 숙제 중 하나입니다. 한달 간 강화학습의 주요 개념들을 반복적으로 익히고 암기할 예정입니다.

강화학습 주요 기초 개념을 Tensorflow 2.0으로 구현할 수 있다

학습한 기본 개념을 바탕으로 매주 5일차 Tensorflow 프로그래밍을 통해 실제로 구현해봅니다.

1주차 주간 과제 보러가기

FAQ

Q. 딥러닝에서 강화학습이 왜 중요한가요?

  • A. 저는 강화학습이 세상을 바꿀만한 기술이라고 믿습니다. 강화학습은 최적의 의사결정을 하는 법을 배워나가며 그 원리를 이해해 나가는 기술이기 때문입니다.

Q. 코딩도 하나요?

  • A. 네 각 핵심 알고리즘 REINFORCE, Policy Iteration, Value Iteration, Sarsa, Qlearning, DQN, A3C를 Tensorflow 2.0 기준으로 하나씩 구현해 볼 예정입니다.

HOW TO

스터디는 이렇게 진행 됩니다.

  1. 매일 30분-1시간

    매일 30분~1시간씩 각자 편한 시간에 커리큘럼에 따라 개인 학습합니다.
  2. 주간과제 제출

    한주동안 학습한 내용을 복습하며 주간 질문에 답변하고 해당 답변을 제출합니다.
  3. 온라인 스터디 참여

    제출한 주간과제를 토대로 온라인에서 1시간정도 반별로 온라인스터디 및 질의응답을 진행합니다.

  1. 온라인 스터디의 경우, 주간 과제 중 참여자들이 어려워했던, 문제들위주로 스터디코치가 답변해드립니다.
    (질문은 꼭 스터디시간이 아니더라도, 수시로 해주시면 스터디코치가 최대한 빠르게 회신드립니다.)
  2. 공식적인 오프라인 모임은 따로 없습니다. 단, 스터디가 끝나고, 그룹원들의 요청이 있을 경우 코치의 재량으로 오프라인에서 모일 수도 있습니다.

PEOPLE

스터디 코치를 소개합니다.

송호연


  • 전) Naver Clova AI Research Engineer

  • 전) Kakao Data Engineer

  • 현) Tensorflow Contributor

  • 현) Google Developer Expert for Machine Learning

  • KAIST 전산학과/기술경영학과 학부 졸업

  • KAIST 기술경영전문대학원 석사 졸업

스터디코치 한마디

제가 인공지능 분야에서 가장 사랑하는 분야이자 세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 연구하는 분야가 바로 강화학습입니다.

저는 이 기술이 앞으로 세상을 바꾸는 기술이 될 것이라고 확신합니다.

CURRICULUM

커리큘럼 안내

[학습 교재]
[교재 준비 방법]
  • 교재를 통해 학습이 진행됩니다. 스터디 전에 각자 주교재를 준비해 주세요.

[학습 방법]
  • 학습기간 중 매주 수요일 저녁 11시-12시에 온라인 모임이 있는 스터디입니다!

  • 매주 강사가 제출하는 과제에 대한 답을 제출하시고, 답안을 해설하는 내용을 일주일에 한번씩 온라인에서 모여서 강의하고 질문답변을 받는 방식으로 진행합니다.

[환급 기준]
  • 학습기간 중 매주 수요일 저녁 11시-12시에 있는 온라인 스터디에 참가하고, 모든 주간과제를 매주 6일차 오후 11시 59분까지 제출하면 환급됩니다.

1주차 상세 커리큘럼

  • 챕터1: 강화학습의 소개

  • 챕터2: 다중 선택 문제(Bandit problem)

  • 챕터3: 유한 마르코프 결정 과정(Markov Decision Process)

  • 챕터4: 동적 프로그래밍(Dynamic Programming)

  • 코딩 실습: 동적 프로그래밍, Policy iteration, Value Iteration

첫주 주간 과제 보러가기


Day 1 - 챕터1: 강화학습의 소개 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~27p, 약 40분)

  • 1) 강화학습이란 무엇인가요?

  • 2) 탐험과 활용 문제란 무엇인가요?

  • 3) 정책이란 무엇인가요?

  • 4) 보상 신호란 무엇인가요?

  • 5) 가치 함수란 무엇인가요?

  • 6) 모델이란 무엇인가요?

Day 2 - 챕터2: 다중 선택 문제(Bandit problem) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~56p, 약 40분)

Day 3 - 챕터3: 유한 마르코프 결정 과정(Markov Decision Process) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~87p, 약 1시간)

Day 4 - 챕터4: 동적 프로그래밍(Dynamic Programming) 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~110p, 약 1시간)

  • 1) Policy Evaluation에서 v(s) 업데이트 식을 암기해서 적어주세요: (식 4.4, Bellman Expectation Equation과 동일)

  • 2) Policy Improvement에서 pi(a|s) 업데이트 식을 암기해서 적어주세요: (식 4.9)

  • 3) Value Iteration v(s) 업데이트 식을 암기해서 적어주세요: (식: 4.10, Bellman Optimality Equation 과 동일)

  • 4) 일반화된 정책 반복(Generalized Policy Iteration, GPI)란 무엇인가요?

Day 5 - 코딩 실습

Day 6

Day 7

  • 매주 수요일 저녁 11시-12시 온라인 스터디에 참여합니다.

2주차 상세 커리큘럼

  • 몬테 카를로(Monte Carlo), 시간차 학습(TD Learning) (챕터 5-7, ~190p)

    챕터5: 몬테카를로 방법

    챕터6: 시간차 학습

    챕터7: n-단계 부트스트랩

    몬테카를로 구현, Sarsa, Q-learning 구현 실습

3주차 상세 커리큘럼

  • 모델 기반 강화학습, 근사 기반 정책 예측 및 제어 (챕터8-10, ~309p)

    챕터8: 표에 기반한 방법을 이용한 계획 및 학습

    챕터9: 근사를 이용한 활성 정책 예측

    챕터10: 근사를 적용한 활설 정책 제어

    dyna-q 알고리즘 구현 실습

4주차 상세 커리큘럼

  • 근사를 활용한 Off-Policy 방법, Eligibility Trace, Policy Gradient

    챕터11: 근사를 활용한 Off-Policy 방법

    챕터12: 적격 흔적(Eligibility Trace)

    챕터13: 정책 경사도 방법

    REINFORCE, A3C 알고리즘 구현 실습

스터디 신청하기

[7월 2일 시작] 매주 수요일 저녁 11시 온라인 모임

시작 - 종료

학습 방법을 고르세요

정가 22만원 19만원
스터디 신청하기
스터디 완주시 5만원 환급!
한정할인 남았어요.
스터디 일정확인

개인일정 때문에 스터디 참여가 어려우신가요?
다음 스터디가 개설될 때 알려드립니다.

스터디 알림
시작 - 종료

[7월 2일 시작] 매주 수요일 저녁 11시 온라인 모임

22만원 19만원
스터디 완주시 5만원 환급!
한정할인 남았어요.
  1. ... ...
    과제제출마감일 - 1주차
    ... 스터디코치 송호연
    과제제출마감일 - 1주차
    스터디코치 송호연
  2. ... ...
    온라인모임일 - 1주차
    ...> - ...> 스터디코치 송호연
    온라인모임일 - 1주차
    스터디코치 송호연
  3. ... ...
    과제제출마감일 - 2주차
    ... 스터디코치 송호연
    과제제출마감일 - 2주차
    스터디코치 송호연
  4. ... ...
    온라인모임일 - 2주차
    ...> - ...> 스터디코치 송호연
    온라인모임일 - 2주차
    스터디코치 송호연
  5. ... ...
    과제제출마감일 - 3주차
    ... 스터디코치 송호연
    과제제출마감일 - 3주차
    스터디코치 송호연
  6. ... ...
    온라인모임일 - 3주차
    ...> - ...> 스터디코치 송호연
    온라인모임일 - 3주차
    스터디코치 송호연
  7. ... ...
    과제제출마감일 - 4주차
    ... 스터디코치 송호연
    과제제출마감일 - 4주차
    스터디코치 송호연
  8. ... ...
    온라인모임일 - 4주차
    ...> - ...> 스터디코치 송호연
    온라인모임일 - 4주차
    스터디코치 송호연

꼭 읽어주세요 👀

  • 카드사 포인트/ 선불/ 기프트카드로 결제하면 환불이 불가능하기 때문에 결제수단으로 사용하실 수 없습니다.
  • 온라인 스터디 시작 하루 전까지는 100% 환불해드립니다. 취소/환불약관 보러가기
  • 단, 일부 상품(제휴, 패스 등)의 경우 별도의 취소/환불 규정이 적용될 수 있습니다. (하단 상품상세설명 또는 FAQ 참조)
  • 환급액은 스터디를 결제하신 방식과 동일하게 지급됩니다.
  • 환급액과 상관없이 [개인정보 수집 이용 및 제 3자 제공에 동의]에 동의를 해주셔야 환급을 받으실 수 있습니다.
  • 스터디 환급액이 5만 원을 초과할 경우, 환급액을 기준으로 제세 공과금 22%를 차감한 뒤 지급합니다.
  • 환급 신청은 환급조건을 달성한 수료일로부터 반드시 60일 이내에 신청해주셔야 환급액이 지급됩니다.

자주 물어보는 질문 FAQ

신청 및 기타 문의는 카카오톡으로 문의 주세요.