🤖 머신러닝 알고리즘 – 비지도 학습(Unsupervised Learning) & 자기 지도 학습(Self-Supervised Learning)

1. 비지도 학습 (Unsupervised Learning)

  • 라벨(정답)이 없는 데이터에서 패턴, 구조, 관계를 스스로 발견하는 학습 방식
  • 머신러닝 모델이 데이터 그룹을 만들고, 사람이 그 결과에 의미(라벨)를 부여
  • 대표 기법:
    • 클러스터링(Clustering)
    • 연관 규칙 학습(Association Rule Learning)
    • 이상치 탐지(Anomaly Detection)
  • 활용 사례
    • 고객 세분화 (마케팅)
    • 추천 시스템
    • 사기 탐지
  • 👉 시험 포인트: 비지도 학습은 라벨이 없는 데이터를 활용한다는 점 기억하기


2. 클러스터링 (Clustering)

  • 정의: 유사한 특징을 가진 데이터를 묶어 그룹(cluster)으로 나눔
  • 사례: 고객 세분화(Customer Segmentation)
    • 상황: e-commerce 기업이 고객을 구매 패턴에 따라 구분
    • 데이터: 구매 빈도, 평균 주문 금액 등
    • 알고리즘: K-means Clustering
    • 결과:
      • 그룹 1 → 학생층 (피자, 과자, 맥주 구매)
      • 그룹 2 → 신생아 부모 (기저귀, 베이비 제품 구매)
      • 그룹 3 → 건강 관심층 (과일, 채소 구매)
    • 활용: 그룹별 맞춤형 마케팅 전략 가능

👉 시험 포인트: K-means는 비지도 학습 대표 알고리즘, 고객 세분화 사례로 자주 출제됨.


3. 연관 규칙 학습 (Association Rule Learning)

  • 정의: 어떤 상품이 자주 함께 구매되는지를 찾아내는 방법
  • 사례: 장바구니 분석(Market Basket Analysis)
    • 상황: 슈퍼마켓이 상품 진열 최적화
    • 데이터: 고객 구매 이력
    • 알고리즘: Apriori 알고리즘
    • 결과:
      • “빵을 사면 버터도 함께 구매” → 빵과 버터를 가까이 진열 → 매출 증가

👉 시험 포인트: Apriori = 대표적인 연관 규칙 알고리즘


4. 이상치 탐지 (Anomaly Detection)

  • 정의: 정상 패턴과 다른 이상한 데이터(Outlier) 탐지
  • 사례: 신용카드 사기 탐지(Fraud Detection)
    • 데이터: 결제 금액, 시간, 위치
    • 알고리즘: Isolation Forest
    • 결과: 정상 거래 패턴과 크게 다른 트랜잭션을 사기 의심 거래로 표시

👉 시험 포인트: 비지도 학습의 대표적인 실제 활용 = 사기 탐지


5. 준지도 학습 (Semi-Supervised Learning)

  • 정의: 소량의 라벨 데이터 + 대량의 비라벨 데이터를 함께 학습
  • 방법:
    1. 라벨 데이터로 초기 학습
    2. 학습된 모델이 비라벨 데이터에 가짜 라벨(Pseudo-label) 생성
    3. 전체 데이터(라벨 + 가짜 라벨)로 재학습
  • 👉 데이터 라벨링 비용이 높을 때 효과적

👉 시험 포인트: Semi-supervised learning = pseudo-labeling 핵심 키워드


6. 자기 지도 학습 (Self-Supervised Learning)

  • 정의: 사람이 직접 라벨링하지 않고, 모델이 스스로 가짜 라벨(pseudo-labels)을 생성하여 학습
  • 활용 사례:
    • NLP → BERT, GPT 같은 대규모 언어 모델
    • 이미지 인식 → 마스킹된 부분 예측 등
  • 방법: Pre-text Task 활용
    • 문장에서 다음 단어 맞추기
    • 문장의 일부를 가려놓고 채우기 (Masked Language Modeling)
    • 이미지에서 가려진 부분 예측하기

👉 이렇게 학습된 모델은 이후 요약, 번역, 분류 같은 다운스트림(실제) 과제에 활용 가능


📌 최종 요약

  • 비지도 학습: 라벨 없음 → 패턴/그룹 찾기
    • K-means (클러스터링) → 고객 세분화
    • Apriori (연관 규칙) → 장바구니 분석
    • Isolation Forest (이상치 탐지) → 사기 탐지
  • 준지도 학습: 소량 라벨 + 대량 비라벨 → Pseudo-labeling
  • 자기 지도 학습: 모델이 자체적으로 라벨 생성 (GPT, BERT 기반)

👉 시험 대비 키워드

  • 비지도 학습 = 라벨 없음
  • K-means = 고객 세분화
  • Apriori = 장바구니 분석
  • 이상치 탐지 = 사기 탐지
  • Semi-supervised = Pseudo-labeling
  • Self-supervised = GPT/BERT 기반 학습