[RL] Dynamic Programming으로 MDP 풀기

Dynamic Programming(DP)은 Markov Decision Process(MDP) 같은 환경 모델이 완벽하게 주어졌을 때 optimal policy를 계산하는 알고리즘들을 가리킴. 고전적 DP는 완벽한 모델과 막대한 계산량을 요구하기 때문에 강화학습 실무에서 직접 쓰이는 일은 드묾 Monte Carlo, TD 등이 “더 적은 ...

Jun 14, 2026 AI, RL

[RL] Finite Markov Decision Process (유한 마르코프 결정 과정)

강화학습은 한 줄로 말하면 “시행착오를 통해 좋은 의사결정을 배우는” 문제. 그런데 이걸 수학적으로 다루려면, “의사결정”이라는 추상적인 개념을 수식으로 표현할 수 있어야 함. 여기서 등장하는 게 Markov Decision Process (MDP). MDP는 의사결정 상황을 다음 네 가지로 추상화한 framework: 상태 (state) — ...

May 31, 2026 AI, RL

[ML] Ensemble Methods & Boosting

Bootstrapping 머신러닝에서는 데이터 양이 부족한 상황을 자주 겪음. 가능하면 더 많은 샘플을 모으는 게 좋지만, 항상 가능하지도 않고 비용도 큼. 그래서 주어진 데이터로 최선을 다해보자는 발상이 등장함. 부트스트래핑의 어원 : 도움 받지 말고 스스로 상황을 개선시켜 보자 실제 분포(true distribut...

May 27, 2026 AI, ML

[ML] Decision Trees

Tree-based Learning Tree-based 학습은 다음과 같은 특징을 가짐: predictor space를 단순한 영역들로 분할(segmenting) 함 그 분할 규칙들을 트리 형태로 요약할 수 있음 regression과 classification 모두에 적용 가능함 장점: 단순하고 해석하기 좋음 (interp...

May 25, 2026 AI, ML

[ML] Overfitting & Regularization

Model Selection & Cross-validation 모델을 학습시킬 때 데이터를 세 partition으로 나눠서 사용함. Training set (70%): 모델의 파라미터를 학습하는 데 사용 Validation set (20%): 하이퍼파라미터 선택 (model selection)에 사용 Eval set (10%):...

May 24, 2026 AI, ML

[ML] Bayes Classifier

요약 Bayes Classifier $\mathbf{x}$를 관측했을 때 label $\mathbf{y}$가 뭘지에 대한 불확실성이 있음 → 이게 posterior $p(\mathbf{y}|\mathbf{x})$ 어떤 예측값 $\hat{\mathbf{y}}$을 내놓으면 그에 따른 loss가 결정됨 → $\mathcal{L}(\mathbf{y...

May 24, 2026 AI, ML

[ML] Logistic Regression

Classification Classification은 정성적(qualitative) 변수, 즉 순서가 없는 집합 $C$에서 값을 가지는 변수를 다루는 문제. e.g.) $\text{eye color} \in {\text{brown, blue, green}}$ $\text{email} \in {\text{spam, ham}}$ Fea...

May 23, 2026 AI, ML

[ML] Bayesian Optimization

요약 어떤 목적함수가 있어 (e.g. 머신러닝 모델의 loss function). 그런데 이 목적함수가 블랙박스이거나 실행하는 데 코스트가 너무 높아. 그래서 목적함수를 모방하는 surrogate model을 하나 둬 = GP Gaussian Process 함수 공간 위의 분포...

May 20, 2026 AI, ML

[ML] VAE (Variational Autoencoder)

Autoencoder (AE) — 차원 압축의 신경망 Autoencoder는 입력을 다시 자기 자신으로 복원하도록 학습되는 신경망. 중간에 일부러 좁은 병목(bottleneck, latent space) 을 둬서 데이터의 본질적인 정보만 압축하도록 강제함. [x \;\xrightarrow{\text{Encoder } f_\phi}\; z \;\xr...

May 19, 2026 AI, ML

[ML] Linear Regression

선형 회귀(Linear Regression) 입력 변수(X)와 예측하고자 하는 출력 변수(Y) 사이에 선형적으로 비례하는 관계(기울기가 일정함)가 있다고 가정하는 가장 간단한 형태의 지도학습 모델 단순 선형 회귀: 입력 변수가 하나일 때, 모델은 $y = \beta_0 + \beta_1 x + \epsilon$ 형태의 1...

May 9, 2026 AI, ML