머신러닝 프로젝트 단계 (Phases of Machine Learning Project)

1. 비즈니스 목표 정의

  • 목표: 어떤 문제를 해결할지 명확히 정의
  • 이해관계자(Stakeholders): 프로젝트의 가치, 예산, 성공 기준을 설정
  • KPI(핵심 성과 지표): 반드시 정의해야 함 → 모델이 실제로 비즈니스 목표에 기여하는지 판단하는 기준

👉 시험 포인트:
머신러닝 프로젝트의 첫 단계는 항상 비즈니스 문제를 정의하는 것. KPI 설정은 AWS 시험에서 자주 강조됨.


2. 문제 정의와 ML 문제로 전환 (ML Problem Framing)

  • 비즈니스 문제 → ML 문제로 변환
  • 머신러닝이 정말 필요한지, 다른 해결책(예: 단순 규칙 기반)이 더 나은지 판단
  • 데이터 과학자, 데이터 엔지니어, ML 아키텍트, 도메인 전문가가 함께 협업

3. 데이터 처리 (Data Processing)

  • 데이터 수집 및 통합: 중앙에서 접근 가능하도록 정리
  • 전처리 및 시각화: 데이터 품질 확인, 이상치 제거, 결측값 처리
  • 피처 엔지니어링: 새로운 변수를 생성, 변환, 추출하여 모델이 학습할 수 있도록 가공

👉 시험 포인트:
AWS 서비스 연결

  • AWS Glue: 데이터 수집/정리
  • Amazon S3: 중앙 저장소
  • Amazon QuickSight: 데이터 시각화

4. 탐색적 데이터 분석 (EDA, Exploratory Data Analysis)

  • 그래프 시각화로 데이터 분포와 특성 이해
  • 상관행렬(Correlation Matrix): 피처들 간의 연관성 파악
    • 예: 공부 시간 ↔ 시험 점수 (0.85 상관관계 → 강한 양의 상관관계)
  • 어떤 피처가 모델에 중요한지 판단


5. 모델 개발 (Model Development)

  • 모델 학습(Training), 튜닝(Tuning), 평가(Evaluation)
  • 하이퍼파라미터(Hyperparameters): 알고리즘 동작 방식을 조정하는 값 (예: 학습률, 트리 개수 등)
  • 반복적인 과정 (Iterative Process)
    • 추가적인 피처 엔지니어링
    • 하이퍼파라미터 튜닝

👉 시험 포인트:

  • Amazon SageMaker는 학습, 튜닝, 평가까지 전체 파이프라인을 지원하는 대표 서비스.
  • SageMaker Automatic Model Tuning 기능도 시험에 자주 나옴.

6. 재학습 (Retraining)

  • 새로운 데이터가 들어올 때 모델을 재학습
  • 피처와 하이퍼파라미터를 조정하여 성능 개선

7. 배포 (Deployment)

  • 모델을 실제 환경에 배포하여 추론(Inferencing) 시작
  • 배포 옵션:
    • 실시간 추론 (Real-Time)
    • 비동기 추론 (Asynchronous)
    • 배치 추론 (Batch)
    • 서버리스 (Serverless)
    • 온프레미스(On-Premises)

👉 시험 포인트:

  • SageMaker는 실시간 엔드포인트, 배치 변환(Batch Transform), Serverless Inference 모두 지원

8. 모니터링 (Monitoring)

  • 모델이 원하는 성능을 유지하는지 지속적으로 확인
  • 문제 조기 감지 및 대응(Early Detection & Mitigation)
  • 모델 드리프트(Model Drift): 시간이 지남에 따라 데이터 패턴이 변하면서 모델 성능이 저하되는 현상

👉 시험 포인트:

  • Amazon SageMaker Model Monitor → 모델 성능 모니터링 자동화

9. 반복(Iteration)과 유지보수

  • 모델 성능 개선 사이클:
    • 새로운 데이터 → 재학습 → 배포 → 모니터링
  • 요구사항과 환경은 시간이 지나면서 변함 → 지속적 개선 필요
  • 예시: 의류 추천 모델은 10년 후 패션 트렌드 변화에 따라 새롭게 학습해야 함

전체 워크플로우 요약

  1. 비즈니스 목표 정의 & KPI 설정
  2. ML 문제로 전환
  3. 데이터 수집, 전처리, 피처 엔지니어링
  4. 탐색적 데이터 분석(EDA)
  5. 모델 학습, 튜닝, 평가
  6. 재학습 및 반복 개선
  7. 배포(실시간, 배치, 서버리스 등)
  8. 모니터링 및 디버깅
  9. 지속적 개선 & 요구사항 반영


시험 대비 핵심 포인트: - KPI 정의가 가장 첫 단계

  • EDA(탐색적 데이터 분석)과 상관행렬의 역할
  • SageMaker 주요 기능: Training, Tuning, Deployment, Monitoring
  • 모델 배포 방식: Real-time, Batch, Serverless, On-premises
  • 모델 드리프트 감지 & 재학습 중요성