[RL] Dynamic Programming으로 MDP 풀기
Dynamic Programming(DP)은 Markov Decision Process(MDP) 같은 환경 모델이 완벽하게 주어졌을 때 optimal policy를 계산하는 알고리즘들을 가리킴. 고전적 DP는 완벽한 모델과 막대한 계산량을 요구하기 때문에 강화학습 실무에서 직접 쓰이는 일은 드묾 Monte Carlo, TD 등이 “더 적은 ...
Dynamic Programming(DP)은 Markov Decision Process(MDP) 같은 환경 모델이 완벽하게 주어졌을 때 optimal policy를 계산하는 알고리즘들을 가리킴. 고전적 DP는 완벽한 모델과 막대한 계산량을 요구하기 때문에 강화학습 실무에서 직접 쓰이는 일은 드묾 Monte Carlo, TD 등이 “더 적은 ...
강화학습은 한 줄로 말하면 “시행착오를 통해 좋은 의사결정을 배우는” 문제. 그런데 이걸 수학적으로 다루려면, “의사결정”이라는 추상적인 개념을 수식으로 표현할 수 있어야 함. 여기서 등장하는 게 Markov Decision Process (MDP). MDP는 의사결정 상황을 다음 네 가지로 추상화한 framework: 상태 (state) — ...
Bootstrapping 머신러닝에서는 데이터 양이 부족한 상황을 자주 겪음. 가능하면 더 많은 샘플을 모으는 게 좋지만, 항상 가능하지도 않고 비용도 큼. 그래서 주어진 데이터로 최선을 다해보자는 발상이 등장함. 부트스트래핑의 어원 : 도움 받지 말고 스스로 상황을 개선시켜 보자 실제 분포(true distribut...
Tree-based Learning Tree-based 학습은 다음과 같은 특징을 가짐: predictor space를 단순한 영역들로 분할(segmenting) 함 그 분할 규칙들을 트리 형태로 요약할 수 있음 regression과 classification 모두에 적용 가능함 장점: 단순하고 해석하기 좋음 (interp...
Model Selection & Cross-validation 모델을 학습시킬 때 데이터를 세 partition으로 나눠서 사용함. Training set (70%): 모델의 파라미터를 학습하는 데 사용 Validation set (20%): 하이퍼파라미터 선택 (model selection)에 사용 Eval set (10%):...
요약 Bayes Classifier $\mathbf{x}$를 관측했을 때 label $\mathbf{y}$가 뭘지에 대한 불확실성이 있음 → 이게 posterior $p(\mathbf{y}|\mathbf{x})$ 어떤 예측값 $\hat{\mathbf{y}}$을 내놓으면 그에 따른 loss가 결정됨 → $\mathcal{L}(\mathbf{y...
Classification Classification은 정성적(qualitative) 변수, 즉 순서가 없는 집합 $C$에서 값을 가지는 변수를 다루는 문제. e.g.) $\text{eye color} \in {\text{brown, blue, green}}$ $\text{email} \in {\text{spam, ham}}$ Fea...
요약 어떤 목적함수가 있어 (e.g. 머신러닝 모델의 loss function). 그런데 이 목적함수가 블랙박스이거나 실행하는 데 코스트가 너무 높아. 그래서 목적함수를 모방하는 surrogate model을 하나 둬 = GP Gaussian Process 함수 공간 위의 분포...
Autoencoder (AE) — 차원 압축의 신경망 Autoencoder는 입력을 다시 자기 자신으로 복원하도록 학습되는 신경망. 중간에 일부러 좁은 병목(bottleneck, latent space) 을 둬서 데이터의 본질적인 정보만 압축하도록 강제함. [x \;\xrightarrow{\text{Encoder } f_\phi}\; z \;\xr...
선형 회귀(Linear Regression) 입력 변수(X)와 예측하고자 하는 출력 변수(Y) 사이에 선형적으로 비례하는 관계(기울기가 일정함)가 있다고 가정하는 가장 간단한 형태의 지도학습 모델 단순 선형 회귀: 입력 변수가 하나일 때, 모델은 $y = \beta_0 + \beta_1 x + \epsilon$ 형태의 1...