🤖 모델 적합도(Model Fit)와 편향(Bias) · 분산(Variance)

1. 모델 적합도(Model Fit)

머신러닝 모델이 제대로 동작하지 않을 때는 모델의 적합도(Fit) 를 살펴봐야 합니다.
모델이 데이터를 얼마나 잘 설명하는지가 핵심입니다.

과적합(Overfitting)
- 훈련 데이터에서는 성능이 매우 좋음
- 새로운 데이터(검증/테스트 데이터)에서는 성능이 나쁨
- 원인: 모델이 데이터의 노이즈까지 학습해서 일반화가 안 됨
- 📌 예시: 훈련 데이터 점 하나하나에 맞게 선을 구부려 만든 복잡한 곡선
과소적합(Underfitting)
- 훈련 데이터에서도 성능이 나쁨
- 원인: 모델이 너무 단순하거나, 특징(Feature)이 부족함
- 📌 예시: 복잡한 곡선 데이터에 단순 직선을 억지로 적용
균형(Balanced)
- 과적합도, 과소적합도 아닌 상태
- 어느 정도 오차는 있지만, 데이터의 전체적인 패턴을 잘 따름
- 📌 가장 이상적인 상황

정의: 훈련 데이터를 조금만 바꿔도 모델 성능이 크게 달라지는 정도
High Variance (분산 높음)
- 훈련 데이터에서는 성능이 매우 좋지만, 새로운 데이터에서는 성능이 급격히 떨어짐
- 즉, 과적합 상황
줄이는 방법
- 불필요한 특징 제거 (Feature Selection)
- 데이터셋을 여러 번 나눠서 교차검증(Cross Validation) 수행
- 정규화(Regularization, 예: L1/L2) 적용

머신러닝에서는 Bias(편향) 과 Variance(분산) 사이에서 균형을 맞추는 것이 중요합니다.

📌 시험 포인트:

Overfitting → 훈련 데이터 잘 맞춤, 테스트 데이터 성능 나쁨 → Variance ↑
Underfitting → 훈련 데이터조차 성능 나쁨 → Bias ↑
Balanced Fit → Bias와 Variance 모두 낮아야 함
Bias-Variance Tradeoff 개념 숙지 필수
AWS 자격증 시험에서는 과적합 / 과소적합을 어떻게 해결할지를 물을 수 있음
- 과적합 해결: Regularization, Feature Selection, Cross Validation
- 과소적합 해결: 더 복잡한 모델, Feature 추가

편향은 실제 문제(복잡할 수 있음)를 더 단순한 모델로 근사할 때 발생하는 오류입니다. 편향이 높으면 모델이 특성과 목표 출력 간의 관련 관계를 놓치게 되어 과소적합(underfitting)이 발생할 수 있습니다.
분산은 모델이 학습 데이터의 작은 변동에 민감하게 반응하여 발생하는 오류입니다. 분산이 높으면 모델이 의도한 출력 대신 학습 데이터의 무작위 잡음을 모방할 수 있습니다(과적합).
편향과 분산을 모두 증가시킬 수 있지만, 그렇게 하면 일반적으로 모델이 과소적합과 과대적합을 모두 겪게 되어 성능이 저하됩니다. 편향이 높으면 모델이 중요한 패턴을 놓치게 되고(과소적합), 분산이 높으면 모델이 훈련 데이터의 노이즈에 지나치게 민감해집니다(과대적합).
예를 들어, 학습 데이터의 양을 줄이면 모델이 학습할 수 있는 정보가 줄어듭니다. 이는 모델이 기본 패턴을 제대로 포착하지 못하여 편향(과소적합)을 증가시킬 수 있습니다. 동시에, 데이터가 줄어들면 모델이 학습 데이터의 변동에 더 민감해져 분산이 증가할 수 있습니다.