📊 머신러닝 학습 데이터 정리

1. 학습 데이터(Training Data)의 중요성

좋은 데이터를 가져야 좋은 모델을 만들 수 있음
Garbage In → Garbage Out : 잘못된 데이터를 넣으면 결과도 잘못됨
가장 중요한 단계 = 데이터를 깨끗하게 준비하는 것
데이터의 종류에 따라 사용할 수 있는 알고리즘도 달라짐

2. 라벨링 데이터 vs 비라벨링 데이터

🔹 라벨링 데이터 (Labeled Data)

입력값(Input) + 정답(Output Label)이 함께 있는 데이터
예: 고양이, 강아지 이미지와 각각의 라벨이 함께 있음
사용 사례: 지도학습(Supervised Learning)

🔹 비라벨링 데이터 (Unlabeled Data)

입력값만 있고 정답 라벨이 없음
예: 고양이/강아지 사진만 있고 라벨이 없는 경우
사용 사례: 비지도학습(Unsupervised Learning) → 패턴이나 군집 찾기

👉 시험 포인트: 라벨링 데이터 → 지도학습 / 비라벨링 데이터 → 비지도학습

---

3. 구조화 데이터 vs 비구조화 데이터

🔹 구조화 데이터 (Structured Data)

행(Row)과 열(Column)로 정리된 데이터 (예: 엑셀, DB)
예시
- 표 형태(Tabular): 고객 ID, 이름, 나이, 구매 금액

시계열 데이터(Time Series): 주식 가격, 센서 데이터

🔹 비구조화 데이터 (Unstructured Data)

일정한 형식이 없는 데이터 (텍스트, 이미지, 오디오 등)
예시
- 텍스트 데이터: 리뷰, SNS 글
- 이미지 데이터: 객체 인식용 이미지

4. 지도학습 (Supervised Learning)

정답(라벨)이 있는 데이터를 기반으로 학습
목표: 입력값 → 출력값 예측

📈 회귀(Regression)

연속적인 숫자 값 예측
예시:
- 집값 예측 (면적, 위치, 방 개수 기반)
- 주식 가격 예측
- 날씨(온도) 예측

🏷️ 분류(Classification)

카테고리 예측 (이산형 데이터)
예시:
- 이진 분류(Binary): 스팸메일 / 정상메일
- 다중 분류(Multi-class): 동물 → 포유류, 조류, 파충류
- 다중 라벨(Multi-label): 영화 → 액션 + 코미디

👉 시험 포인트: Regression = 숫자 예측 / Classification = 카테고리 예측

5. 데이터셋 분리

학습 데이터셋(Training), 검증 데이터셋(Validation), 테스트 데이터셋(Test)으로 나눔

데이터셋	비율	역할
Training	60~80%	모델 학습
Validation	10~20%	하이퍼파라미터 튜닝
Test	10~20%	최종 성능 평가

👉 시험 포인트: Validation은 모델 조정용, Test는 최종 성능 확인용

6. 특징 공학 (Feature Engineering)

원시(raw) 데이터를 유용한 특징(Feature)으로 가공하는 과정
성능 향상에 매우 중요한 단계

🔹 주요 기법

특징 추출 (Feature Extraction)
- 예: 생년월일 → 나이(age) 계산

특징 선택 (Feature Selection)
- 중요한 특징만 선택 (예: 집값 예측에서 위치, 평수만 선택)
특징 변환 (Feature Transformation)
- 데이터 정규화(Normalization) 등으로 모델 학습을 빠르고 안정적으로 수행

🔹 구조화 데이터에서의 특징 공학

예: 집값 예측
- 새로운 특징 생성: “평당 가격”
- 중요 특징 선택: 위치, 방 개수
- 정규화: 모든 수치를 비슷한 스케일로 변환

🔹 비구조화 데이터에서의 특징 공학

텍스트 데이터: TF-IDF, 워드 임베딩
이미지 데이터: CNN으로 엣지, 패턴, 색상 특징 추출

👉 시험 포인트: Feature Engineering은 모델 성능 최적화의 핵심 과정

✅ 요약

좋은 데이터 확보가 가장 중요 (Garbage In → Garbage Out)
라벨링 여부 → 지도학습 vs 비지도학습
데이터 구조 → 구조화 vs 비구조화
지도학습 유형 → 회귀(숫자 예측), 분류(카테고리 예측)
데이터셋 분리 → Training / Validation / Test
특징 공학 → 성능 최적화를 위한 데이터 가공

👉 AWS 자격증 시험 대비:

지도/비지도 학습 개념
데이터셋 분리 비율
Feature Engineering 기법
을 확실히 기억해 두면 시험에 유용함 🚀

(추가내용) 1. TF-IDF란?

TF-IDF는 문서(Text) 안에서 단어의 중요도를 수치로 나타내는 방법이에요.
검색 엔진, 문서 분류, 자연어 처리(NLP)에서 자주 사용됩니다.

👉 핵심 아이디어:

특정 문서에서 많이 등장하는 단어일수록 중요하다 (TF)
하지만 모든 문서에 흔히 등장하는 단어는 중요하지 않다 (IDF)

(추가내용) 2. TF (Term Frequency, 단어 빈도)

어떤 문서 안에서 특정 단어가 얼마나 자주 등장했는지를 측정합니다.
계산식:

$$
TF(t, d) = \frac{\text{단어 t의 등장 횟수}}{\text{문서 d의 전체 단어 수}}
$$

📌 예시:
문서에 단어가 100개 있고, 그 중 “dog” 가 5번 나왔다면:

$$
TF(dog) = \frac{5}{100} = 0.05
$$

(추가내용) 3. IDF (Inverse Document Frequency, 역문서 빈도)

흔한 단어(예: “the”, “and”)는 중요하지 않다고 보고, 드물게 등장하는 단어에 가중치를 더 줍니다.
계산식:

$$
IDF(t) = \log \frac{\text{전체 문서 수}}{\text{단어 t가 등장한 문서 수}}
$$

📌 예시:

문서 1000개 중 “dog”이 10개 문서에만 등장 →

$$
IDF(dog) = \log \frac{1000}{10} = \log(100) \approx 2
$$

“the”가 1000개 문서 모두에 등장 →

$$
IDF(the) = \log \frac{1000}{1000} = \log(1) = 0
$$

즉, 흔한 단어는 중요도가 거의 0이 됩니다.

(추가내용) 4. TF-IDF 최종 계산

$$
TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)
$$

👉 단어가 특정 문서에서 자주 나오고, 다른 문서에서는 잘 안 나오면 → 중요 단어!

(추가내용) 5. 예시로 이해하기

문서 3개가 있다고 가정해 봅시다.

문서1: “dog likes playing”
문서2: “dog and cat are friends”
문서3: “dog runs fast”

📌 “dog”은 모든 문서에 등장 → IDF 값이 낮음 (중요도 ↓)
📌 “playing”은 문서1에만 등장 → IDF 값이 높음 (중요도 ↑)

따라서 문서1에서 “playing”의 TF-IDF 점수는 높게 나오고, 검색 엔진은 이 단어를 문서1의 핵심 키워드로 인식합니다.

(추가내용) 6. 시험 대비 핵심 포인트

TF = 특정 문서 내 단어 빈도
IDF = 전체 문서에서 얼마나 드문 단어인지
TF-IDF = 특정 문서에서 중요한 단어를 찾는 점수
자주 나오는 흔한 단어는 무시, 드물게 나오지만 특정 문서에 집중된 단어는 강조

👉 한 줄 요약:
TF-IDF는 문서에서 핵심 키워드를 뽑아내는 가장 기본적이고 중요한 방법이다.
AWS 자격증 시험에서도 텍스트 처리나 NLP 관련 문제에서 등장할 수 있으니 꼭 기억하세요 ✅