바로가기

강의상세

강의사진
  • 주제분류
    공학 >컴퓨터ㆍ통신 >컴퓨터과학
  • 강의학기
    2025년 1학기
  • 조회수
    478
  •  
강의계획서
강의계획서
강화학습의 기초 이론을 배우고, 다양한 알고리즘을 분석하며, 실제 환경에서 활용할 수 있는 방안을 탐색하는 것을 목표로 한다.
강화학습 과목 소개
  • 이전차시
  • 다음차시

차시별 강의

PDF VIDEO SWF AUDIO DOC AX
1. 비디오 강화학습 과목 소개 강화학습 과목 소개 OT입니다.
강화학습의 정의, 사용되는 개념에 대한 설명으로 구성되어 있습니다.
URL
문서 강화학습 과목 소개 강화학습 과목 소개 OT입니다.
강화학습의 정의, 사용되는 개념에 대한 설명으로 구성되어 있습니다.
소스URL
2. 비디오 Markov Decision Process (MDP)에 대한 이해 I MDP를 이해하기 위해 Markov Process와 Markov Reward Process의 개념을 배우고, 그 과정에서reward, discount factor, return의 정의와 의미를 체계적으로 익힙니다. URL
문서 Markov Decision Process (MDP)에 대한 이해 I MDP를 이해하기 위해 Markov Process와 Markov Reward Process의 개념을 배우고, 그 과정에서reward, discount factor, return의 정의와 의미를 체계적으로 익힙니다. 소스URL
3. 비디오 Markov Decision Process (MDP)에 대한 이해 II (1) MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. URL
문서 Markov Decision Process (MDP)에 대한 이해 II (1~3) MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. 소스URL
비디오 Markov Decision Process (MDP)에 대한 이해 II (2) MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. URL
비디오 Markov Decision Process (MDP)에 대한 이해 II (3) MDP의 핵심 개념을 체계적으로 학습합니다. 구체적으로, 상태 가치 함수(state value function), 샘플링, 액션(action), 정책(policy) 등의 정의와 의미를 익히며, 이들이 MDP에서 어떻게 상호작용하는지 살펴봅니다. URL
4. 비디오 Bellman Equation(벨만 방정식) (1) 벨만 방정식 중에서 벨만 기대방정식의 핵심 개념을 체계적으로 학습합니다.
벨만 기대방정식은 상태 가치 함수(state value function)와 행동 가치 함수(action value function) 간의 관계를 기대값의 형태로 정리하여, MDP에서 미래의 보상까지 고려한 가치 평가 방식을 설명합니다.
URL
문서 Bellman Equation(벨만 방정식) (1~3) 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 소스URL
비디오 Bellman Equation(벨만 방정식) (2) 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 URL
비디오 Bellman Equation(벨만 방정식) (3) 벨만 방정식 중 벨만 최적방정식의 개념과 그 의미를 집중적으로 다룹니다. 벨만 최적방정식은 환경 내에서 최적의 정책(optimal policy)을 찾기 위한 수학적 기반이 되며, 상태(state) 또는 상태-행동(state-action) 쌍의 최대 기대 보상을 계산하는 방정식입니다 URL
5. 비디오 Dynamic Programming (1) Planning, iterative policy evaluation, policy iteration, value iteration URL
문서 Dynamic Programming (1~3) Planning, iterative policy evaluation, policy iteration, value iteration 소스URL
비디오 Dynamic Programming (2) Planning, iterative policy evaluation, policy iteration, value iteration URL
비디오 Dynamic Programming (3) Planning, iterative policy evaluation, policy iteration, value iteration URL
6. 비디오 Monte Carlo Approach Model-free, Monte Carlo sampling, episode, training (update) URL
문서 Monte Carlo Approach Model-free, Monte Carlo sampling, episode, training (update) 소스URL
7. 비디오 Temporal Difference (TD) Temporal Difference (TD), TD target, training (update) URL
문서 Temporal Difference (TD) Temporal Difference (TD), TD target, training (update) 소스URL
8. 비디오 Monte Carlo & Temporal Difference (1) Difference between MC and TD, Variance and Bias, n-step TD URL
문서 Monte Carlo & Temporal Difference (1~2) Difference between MC and TD, Variance and Bias, n-step TD 소스URL
비디오 Monte Carlo & Temporal Difference (2) Difference between MC and TD, Variance and Bias, n-step TD URL
9. 비디오 From prediction task to control I 이번 회차에서는 지금까지 학습한 가치 함수 예측(prediction) 문제를 넘어, 최적의 정책(policy)을 찾기 위한 제어(control) 문제로 확장하는 방법을 다룹니다.
예측 문제는 주어진 정책의 가치 함수를 추정하는 데 초점이 있었다면, 제어 문제는 이 정책을 지속적으로 개선하여 최적 정책에 도달하는 것을 목표로 합니다.
URL
문서 From prediction task to control I 이번 회차에서는 지금까지 학습한 가치 함수 예측(prediction) 문제를 넘어, 최적의 정책(policy)을 찾기 위한 제어(control) 문제로 확장하는 방법을 다룹니다.
예측 문제는 주어진 정책의 가치 함수를 추정하는 데 초점이 있었다면, 제어 문제는 이 정책을 지속적으로 개선하여 최적 정책에 도달하는 것을 목표로 합니다.
소스URL
10. 비디오 From prediction task to control II 이 과정을 통해 강화학습의 핵심인 학습을 통한 행동 선택과 최적화의 구조를 이해하고, 다양한 제어 알고리즘(SARSA, Q-learning 등)을 위한 이론적 기반을 다집니다. URL
문서 From prediction task to control II 이 과정을 통해 강화학습의 핵심인 학습을 통한 행동 선택과 최적화의 구조를 이해하고, 다양한 제어 알고리즘(SARSA, Q-learning 등)을 위한 이론적 기반을 다집니다. 소스URL

연관 자료

loading..

사용자 의견

강의 평가를 위해서는 로그인 해주세요.

이용방법

  • 동영상 유형 강의 이용시 필요한 프로그램 [바로가기]
    문서 자료 이용시 필요한 프로그램 [바로가기]


    ※ 강의별로 교수님의 사정에 따라 전체 차시 중 일부 차시만 공개되는 경우가 있으니 양해 부탁드립니다.

이용조건