-
- 주제분류
- 공학 >컴퓨터ㆍ통신 >컴퓨터과학
-
- 강의학기
- 2025년 1학기
-
- 조회수
- 478
-
- 강의계획서
- 강의계획서
강화학습의 기초 이론을 배우고, 다양한 알고리즘을 분석하며, 실제 환경에서 활용할 수 있는 방안을 탐색하는 것을 목표로 한다.
- 수강안내 및 수강신청
- ※ 수강확인증 발급을 위해서는 수강신청이 필요합니다
차시별 강의
| 1. | ![]() |
강화학습 과목 소개 | 강화학습 과목 소개 OT입니다. 강화학습의 정의, 사용되는 개념에 대한 설명으로 구성되어 있습니다. |
|
![]() |
강화학습 과목 소개 | 강화학습 과목 소개 OT입니다. 강화학습의 정의, 사용되는 개념에 대한 설명으로 구성되어 있습니다. |
![]() |
|
| 2. | ![]() |
Markov Decision Process (MDP)에 대한 이해 I | MDP를 이해하기 위해 Markov Process와 Markov Reward Process의 개념을 배우고, 그 과정에서reward, discount factor, return의 정의와 의미를 체계적으로 익힙니다. | |
![]() |
Markov Decision Process (MDP)에 대한 이해 I | MDP를 이해하기 위해 Markov Process와 Markov Reward Process의 개념을 배우고, 그 과정에서reward, discount factor, return의 정의와 의미를 체계적으로 익힙니다. | ![]() |
|
| 3. | ![]() |
Markov Decision Process (MDP)에 대한 이해 II (1) | MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. | |
![]() |
Markov Decision Process (MDP)에 대한 이해 II (1~3) | MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. | ![]() |
|
![]() |
Markov Decision Process (MDP)에 대한 이해 II (2) | MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. | |
|
![]() |
Markov Decision Process (MDP)에 대한 이해 II (3) | MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. | |
|
| 4. | ![]() |
Bellman Equation(벨만 방정식) (1) | 벨만 방정식 중에서 벨만 기대방정식의 핵심 개념을 체계적으로 학습합니다. 벨만 기대방정식은 상태 가치 함수(state value function)와 행동 가치 함수(action value function) 간의 관계를 기대값의 형태로 정리하여, MDP에서 미래의 보상까지 고려한 가치 평가 방식을 설명합니다. |
|
![]() |
Bellman Equation(벨만 방정식) (1~3) | 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 | ![]() |
|
![]() |
Bellman Equation(벨만 방정식) (2) | 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 | |
|
![]() |
Bellman Equation(벨만 방정식) (3) | 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 | |
|
| 5. | ![]() |
Dynamic Programming (1) | Planning, iterative policy evaluation, policy iteration, value iteration | |
![]() |
Dynamic Programming (1~3) | Planning, iterative policy evaluation, policy iteration, value iteration | ![]() |
|
![]() |
Dynamic Programming (2) | Planning, iterative policy evaluation, policy iteration, value iteration | |
|
![]() |
Dynamic Programming (3) | Planning, iterative policy evaluation, policy iteration, value iteration | |
|
| 6. | ![]() |
Monte Carlo Approach | Model-free, Monte Carlo sampling, episode, training (update) | |
![]() |
Monte Carlo Approach | Model-free, Monte Carlo sampling, episode, training (update) | ![]() |
|
| 7. | ![]() |
Temporal Difference (TD) | Temporal Difference (TD), TD target, training (update) | |
![]() |
Temporal Difference (TD) | Temporal Difference (TD), TD target, training (update) | ![]() |
|
| 8. | ![]() |
Monte Carlo & Temporal Difference (1) | Difference between MC and TD, Variance and Bias, n-step TD | |
![]() |
Monte Carlo & Temporal Difference (1~2) | Difference between MC and TD, Variance and Bias, n-step TD | ![]() |
|
![]() |
Monte Carlo & Temporal Difference (2) | Difference between MC and TD, Variance and Bias, n-step TD | |
|
| 9. | ![]() |
From prediction task to control I | 이번 회차에서는 지금까지 학습한 가치 함수 예측(prediction) 문제를 넘어, 최적의 정책(policy)을 찾기 위한 제어(control) 문제로 확장하는 방법을 다룹니다. 예측 문제는 주어진 정책의 가치 함수를 추정하는 데 초점이 있었다면, 제어 문제는 이 정책을 지속적으로 개선하여 최적 정책에 도달하는 것을 목표로 합니다. |
|
![]() |
From prediction task to control I | 이번 회차에서는 지금까지 학습한 가치 함수 예측(prediction) 문제를 넘어, 최적의 정책(policy)을 찾기 위한 제어(control) 문제로 확장하는 방법을 다룹니다. 예측 문제는 주어진 정책의 가치 함수를 추정하는 데 초점이 있었다면, 제어 문제는 이 정책을 지속적으로 개선하여 최적 정책에 도달하는 것을 목표로 합니다. |
![]() |
|
| 10. | ![]() |
From prediction task to control II | 이 과정을 통해 강화학습의 핵심인 학습을 통한 행동 선택과 최적화의 구조를 이해하고, 다양한 제어 알고리즘(SARSA, Q-learning 등)을 위한 이론적 기반을 다집니다. | |
![]() |
From prediction task to control II | 이 과정을 통해 강화학습의 핵심인 학습을 통한 행동 선택과 최적화의 구조를 이해하고, 다양한 제어 알고리즘(SARSA, Q-learning 등)을 위한 이론적 기반을 다집니다. | ![]() |
연관 자료











