(한국어) AWS ML Associate (4) - ETL 파이프라인과 데이터 포맷 이해

Created2025-09-14|Updated2025-09-14|CERTIFICATIONAWS_ML_ASSOCIATE_KR

|Post Views:

ETL 파이프라인과 데이터 포맷 이해

1. ETL 파이프라인이란?

ETL은 Extract, Transform, Load의 약자입니다.
→ 데이터를 추출 → 변환 → 적재하는 일련의 과정.
주로 **데이터 웨어하우스(DWH)**로 데이터를 옮길 때 사용됩니다.
데이터 레이크에서는 ELT(Extract → Load → Transform) 방식이 더 일반적입니다.

2. Extract (추출)

정의: 원천 시스템에서 데이터를 가져오는 단계
데이터 출처:
- 데이터베이스 (MySQL, PostgreSQL, Oracle 등)
- CRM (예: Salesforce)
- 로그 파일
- API
- 스트리밍 데이터 (Kafka, Kinesis 등)
중요 고려사항:
- 데이터 무결성 보장 (중간에 손실/에러 발생 시 재시도 정책 필요)
- 처리 방식: 실시간, 근실시간(near real-time), 배치(batch)

3. Transform (변환)

정의: 추출한 데이터를 분석/저장하기 적합한 형태로 변환
주요 작업:
- 데이터 정제 (중복 제거, 오류 수정)
- 데이터 보강 (추가 정보 합치기)
- 포맷 변경 (문자열 → 날짜 형식 변환 등)
- 집계/계산 (합계, 평균 등)
- 인코딩/디코딩 (압축 해제, 암호 해제, 컬럼 포맷 변환 등)
- 결측치 처리 (제거, 평균값 대체, null 값 허용 여부 확인)

시험 포인트:

결측치 처리 방식은 머신러닝 모델 품질과 직결 → 평균/중앙값 대체, 삭제, 예측 기반 보간(imputation) 방법 숙지
SageMaker Processing Job, Data Wrangler 같은 서비스 활용법도 시험에 자주 등장

4. Load (적재)

정의: 변환된 데이터를 **목적지(데이터 웨어하우스, 데이터 레이크 등)**에 저장
방법:
- 배치 적재: 일정 주기로 대량 데이터 적재
- 스트리밍 적재: 데이터가 들어오는 즉시 적재
중요 고려사항:
- 적재 시 데이터 무결성 확인
- 적재 실패 시 복구 전략 필요

5. ETL 파이프라인 관리

ETL 과정은 자동화와 오케스트레이션이 중요합니다.

AWS Glue – ETL 작업 자동화 및 스케줄링
AWS Step Functions – 워크플로우 관리
Amazon MWAA (Managed Apache Airflow) – 복잡한 데이터 파이프라인 관리
Amazon EventBridge – 이벤트 기반 트리거
AWS Lambda – 서버리스 기반 데이터 처리

시험 포인트:

Glue는 서버리스 ETL 서비스, Spark 기반 동작
Step Functions는 상태 기반 워크플로우 관리
MWAA는 Apache Airflow 관리형 서비스

6. 주요 데이터 소스 인터페이스

JDBC (Java Database Connectivity)
- 자바 기반, 플랫폼 독립적, 하지만 언어(Java) 종속적
ODBC (Open Database Connectivity)
- 드라이버 필요(플랫폼 종속), 하지만 언어 독립적
API – 외부 시스템에서 데이터 가져오기
로그 파일 – 서버 로그, 애플리케이션 로그 등
스트리밍 데이터 – Kafka, Kinesis 등

7. 데이터 포맷 정리

CSV (Comma-Separated Values)

특징: 텍스트 기반, 행 단위 데이터, 구분자는 , 또는 \t
장점: 사람이 읽기 쉬움, 이식성 높음
단점: 대규모 데이터 처리 시 비효율적
시험 포인트: Pandas, R, Excel 등에서 손쉽게 처리 가능

JSON (JavaScript Object Notation)

특징: 키-값 기반, 반정형(semi-structured) 데이터 표현 가능
장점: 유연한 스키마, 중첩 구조 지원
활용: API 응답, 설정 파일, NoSQL DB(MongoDB 등)

Avro

특징: 바이너리 포맷, 데이터와 스키마를 함께 저장
장점: 효율적인 직렬화(Serialization), 스키마 진화(schema evolution) 지원
활용: Kafka, Spark, Flink, Hadoop

Parquet

특징: 컬럼 지향(columnar) 저장 포맷
장점: 특정 컬럼만 읽기 가능 → 대규모 분석에 최적화
활용: Redshift Spectrum, Spark, Hive, Athena
시험 포인트: 분석용 최적화 포맷으로 자주 언급됨

8. 시험 대비 요약

ETL vs ELT: DWH는 ETL, Data Lake는 ELT
데이터 포맷 특징 비교: CSV(단순), JSON(유연), Avro(스키마 포함), Parquet(분석 최적화)
AWS Glue, Step Functions, MWAA: ETL 관리 핵심 서비스
스키마 온 라이트(schema-on-write) vs 스키마 온 리드(schema-on-read): 시험 단골

Author: Danny Ki

Link: https://kish191919.github.io/2025/09/14/KO-AWS-ML-Associate-4/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

AWS KOREAN AWS_ML_ASSOCIATE

Related Articles

(한국어) AWS ML Associate (1) - AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기

AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기이 과정에서는 데이터 수집→변환/특징공학→모델 학습/튜닝/평가→생성형 AI→MLOps→보안/거버넌스까지 실무 흐름을 따라가며, SageMaker 중심으로 AWS 서비스들을 연결해 이해합니다. 시험 포인트 SageMaker 전반(Processing/Training/Inference/Deployment) Glue, EMR, Kinesis, S3, EFS, EBS 활용 데이터 변환·특징공학 기법 (결측치, 이상치, 불균형 데이터 처리) 기본 ML 알고리즘 (XGBoost, Linear Learner 등 SageMaker 내장 알고리즘) 성능 측정 지표 (Precision, Recall, F1-score, Accuracy 등) 하이퍼파라미터 튜닝 (SageMaker Automatic Model Tuning) Bedrock, Jumpstart, RAG, Guard...

(한국어) AWS ML Associate (5) - Amazon S3 핵심 정리

Amazon S3 핵심 정리 왜 중요한가?Amazon S3(Simple Storage Service)는 AWS의 핵심 스토리지 서비스로, “사실상 무한대(virtually unlimited)” 확장성을 제공하는 객체 스토리지(Object Storage) 입니다. 대부분의 데이터/AI 워크로드가 S3를 중심으로 연결되며, 다른 AWS 서비스와의 통합성이 매우 뛰어납니다. 1) S3가 쓰이는 곳 (Use Cases) 백업 & 스토리지(Backup & Storage): 장기 보관, 스냅샷 저장. 재해복구(Disaster Recovery, DR): 다른 리전(Region) 으로 복제해 RTO/RPO 개선. 아카이브(Archive): 저비용 보관(S3 Glacier 계열) 후 필요 시 복원. 하이브리드 스토리지(Hybrid Cloud Storage): 온프레미스 + 클라우드 연동. 애플리케이션/미디어 호스팅(App/Media Host...

(한국어) AWS ML Associate (2) - 데이터의 세 가지 유형

데이터 엔지니어링 기초이번 섹션은 AWS 서비스 자체보다는 데이터 엔지니어링의 기초 개념에 초점을 둡니다.시험 가이드에서도 AWS 서비스뿐 아니라 데이터 관련 기본 개념을 알아야 한다고 명시되어 있습니다. 1. 데이터의 세 가지 유형① 구조화 데이터 (Structured Data) 정의: 미리 정의된 스키마(열, 자료형 등)에 맞춰 정리된 데이터 특징: SQL로 쉽게 질의 가능, 행/열 구조로 일관성 있음 예시: 관계형 데이터베이스 (MySQL, PostgreSQL, Amazon RDS, Amazon Redshift) 잘 정리된 CSV 파일 전형적인 엑셀 시트 👉 시험 포인트: RDB vs 데이터 레이크 차이를 구분해야 함. Redshift(OLAP)와 S3 기반 데이터 레이크 차이를 물을 수 있음. ② 비구조화 데이터 (Unstructured Data) 정의: 스키마가 없거나 일정하지 않은 데이터 특징: 바로 질의할 수 없음. ...

(한국어) AWS ML Associate (3) - 데이터의 세 가지 유형

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 메시 정리1. 데이터 웨어하우스 (Data Warehouse)정의데이터 웨어하우스는 여러 소스에서 수집된 데이터를 정제(ETL)하여 구조화된 형태로 저장하는 중앙 저장소입니다. 주로 분석과 BI(Business Intelligence)에 최적화되어 있습니다. 특징 복잡한 쿼리와 분석 작업에 최적화 사전에 스키마(schema)를 정의하고 데이터를 적재 (Schema-on-Write) 주로 Star Schema 또는 Snowflake Schema 사용 읽기(Read) 중심의 워크로드에 강함 예시 AWS: Amazon Redshift (비교) Google BigQuery, Azure Synapse 시험 포인트 ETL (Extract → Transform → Load) 과정이 중요 데이터 웨어하우스는 구조화된 데이터(Structured Data) 중심이라는 점 기억하기 2. 데이터 레이크 (...

(한국어) AWS ML Associate (6) - Amazon S3 핵심 정리

Amazon S3 보안 (Amazon S3 Security)Amazon S3는 단순한 저장소 서비스지만, 보안(Security) 을 제대로 설정하지 않으면 데이터 유출(Data Leak)과 같은 심각한 문제가 발생할 수 있습니다. AWS Certified Machine Learning Engineer – Associate 시험에서도 자주 출제되는 주제이므로 꼭 이해해야 합니다. 1. S3 보안 유형🔹 User-Based (IAM 기반) IAM PoliciesIAM(Identity and Access Management)에서 특정 사용자(User) 또는 그룹(Group)에 대해 어떤 API 호출(API Calls)을 허용할지 정의합니다.→ 예: s3:GetObject 권한 부여. 🔹 Resource-Based (리소스 기반) Bucket Policies JSON 기반 정책으로, 버킷 전체에 대한 접근 권한을 설정합니다. Cross-Account Access(계정...

(한국어) AWS Certified AI Practitioner (1) - IT & AWS 기초

📚 IT & AWS 기초 요약1. 기본 IT 용어 네트워크(Network): 케이블, 라우터, 서버 등이 연결되어 데이터가 오가는 길. 라우터(Router): 인터넷에서 데이터를 어디로 보낼지 길잡이 역할을 하는 장치. 스위치(Switch): 네트워크 안에서 데이터가 정확한 서버나 컴퓨터로 가도록 도와주는 장치. 2. 클라우드 컴퓨팅의 5가지 핵심 특징 즉시 자원 사용(On-demand self service) → 필요한 자원을 바로 얻을 수 있음. 넓은 네트워크 접근(Broad network access) → 인터넷만 있으면 여러 기기에서 접근 가능. 자원 공유(Multi-tenancy & Resource pooling) → 여러 사용자가 안전하게 같은 자원 공유. 빠른 확장성(Rapid elasticity & Scalability) → 필요에 따라 서버나 자원을 늘리거나 줄일 수 있음. 사용량 기반 과금(Measur...