(한국어) AWS ML Associate (2) - 데이터의 세 가지 유형

Created2025-09-14|Updated2025-09-14|CERTIFICATIONAWS_ML_ASSOCIATE_KR

|Post Views:

데이터 엔지니어링 기초

이번 섹션은 AWS 서비스 자체보다는 데이터 엔지니어링의 기초 개념에 초점을 둡니다.
시험 가이드에서도 AWS 서비스뿐 아니라 데이터 관련 기본 개념을 알아야 한다고 명시되어 있습니다.

1. 데이터의 세 가지 유형

① 구조화 데이터 (Structured Data)

정의: 미리 정의된 스키마(열, 자료형 등)에 맞춰 정리된 데이터
특징: SQL로 쉽게 질의 가능, 행/열 구조로 일관성 있음
예시:
- 관계형 데이터베이스 (MySQL, PostgreSQL, Amazon RDS, Amazon Redshift)
- 잘 정리된 CSV 파일
- 전형적인 엑셀 시트

👉 시험 포인트: RDB vs 데이터 레이크 차이를 구분해야 함. Redshift(OLAP)와 S3 기반 데이터 레이크 차이를 물을 수 있음.

② 비구조화 데이터 (Unstructured Data)

정의: 스키마가 없거나 일정하지 않은 데이터
특징: 바로 질의할 수 없음. 전처리/메타데이터 추출 필요
예시:
- 텍스트 문서 (위키 문서, 전자책 등)
- 오디오, 동영상, 이미지 파일
- 이메일, 워드 문서

👉 시험 포인트: 이미지/영상/텍스트 → Amazon Rekognition, Transcribe, Comprehend 같은 서비스 활용.

③ 반구조화 데이터 (Semi-structured Data)

정의: 완전한 스키마는 없지만, 태그/계층 구조 등 일부 구조적 특징 존재
예시:
- JSON, XML
- 로그 파일 (웹 서버 로그, 애플리케이션 로그 등)
- 이메일 헤더

👉 시험 포인트: JSON/로그 → Amazon Athena, Glue, OpenSearch로 쿼리 가능.

2. 데이터의 특성 – 3V (시험 중요!)

AWS 시험에서 자주 등장하는 개념: 데이터의 3V
(Volume, Velocity, Variety)

① Volume (데이터 양)

정의: 데이터의 크기
예시:
- SNS → 하루 수 TB 이상
- 대형 리테일러 → 수년간 거래 기록 수 PB
AWS 관련 서비스:
- 대용량 마이그레이션 → Snowball, Snowmobile
- 스토리지 → Amazon S3, EFS, FSx

② Velocity (데이터 생성/처리 속도)

정의: 데이터가 생성/수집/처리되는 속도
예시:
- IoT 센서 → 매 ms 단위 데이터 스트리밍
- 주식 고빈도 거래(HFT) → 실시간 처리 필수
AWS 관련 서비스:
- 실시간 스트리밍 → Kinesis Data Streams
- 근실시간(near real-time) 배치 → Kinesis Firehose, AWS Glue streaming ETL

👉 시험 포인트: “실시간(real-time)” vs “근실시간(near real-time)” 서비스 구분 문제 자주 나옴.

③ Variety (데이터 다양성)

정의: 데이터의 형태와 출처의 다양성
예시:
- 구조화: 관계형 DB (RDS, Redshift)
- 반구조화: JSON 로그 (CloudTrail 로그 등)
- 비구조화: 환자 피드백 텍스트, 의료 영상
AWS 관련 서비스:
- 다양한 포맷 저장/분석 → Lake Formation, Glue, Athena

3. 추가로 알아두면 좋은 개념

Veracity (진실성, 정확성)
- 공식 시험 가이드엔 없지만, 데이터의 신뢰성과 품질을 뜻함.
- AWS Glue DataBrew, SageMaker Data Wrangler를 통해 데이터 정제 가능.
데이터 품질 관리
- Completeness(완전성), Accuracy(정확성), Consistency(일관성) 등은 시험에서 자주 출제.
로그와 반구조화 데이터 처리
- CloudWatch Logs + Athena로 쿼리
- OpenSearch로 검색 및 분석

정리 (시험 대비 포인트)

세 가지 데이터 유형
- Structured (SQL 질의 가능)
- Semi-structured (JSON/로그, 일부 구조)
- Unstructured (텍스트/영상/오디오, 전처리 필요)
데이터의 3V
- Volume → 크기 (S3, Snowball)
- Velocity → 속도 (Kinesis, Firehose)
- Variety → 다양성 (RDS, S3, Glue, Athena 등)
시험에서 잘 나오는 부분
- Kinesis Data Streams vs Firehose 차이
- Snowball vs Snowmobile 선택 기준
- 데이터 레이크 vs 데이터 웨어하우스 (S3 + Athena vs Redshift)
- Glue / Data Wrangler / EMR 비교

👉 이 섹션은 AWS 서비스 자체보다는 데이터 엔지니어링 기초 개념을 AWS 환경에 어떻게 적용하는지 묻는 문제가 출제될 가능성이 큽니다.

Author: Danny Ki

Link: https://kish191919.github.io/2025/09/14/KO-AWS-ML-Associate-2/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

AWS KOREAN AWS_ML_ASSOCIATE

Related Articles

(한국어) AWS ML Associate (1) - AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기

AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기이 과정에서는 데이터 수집→변환/특징공학→모델 학습/튜닝/평가→생성형 AI→MLOps→보안/거버넌스까지 실무 흐름을 따라가며, SageMaker 중심으로 AWS 서비스들을 연결해 이해합니다. 시험 포인트 SageMaker 전반(Processing/Training/Inference/Deployment) Glue, EMR, Kinesis, S3, EFS, EBS 활용 데이터 변환·특징공학 기법 (결측치, 이상치, 불균형 데이터 처리) 기본 ML 알고리즘 (XGBoost, Linear Learner 등 SageMaker 내장 알고리즘) 성능 측정 지표 (Precision, Recall, F1-score, Accuracy 등) 하이퍼파라미터 튜닝 (SageMaker Automatic Model Tuning) Bedrock, Jumpstart, RAG, Guard...

(한국어) AWS ML Associate (3) - 데이터의 세 가지 유형

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 메시 정리1. 데이터 웨어하우스 (Data Warehouse)정의데이터 웨어하우스는 여러 소스에서 수집된 데이터를 정제(ETL)하여 구조화된 형태로 저장하는 중앙 저장소입니다. 주로 분석과 BI(Business Intelligence)에 최적화되어 있습니다. 특징 복잡한 쿼리와 분석 작업에 최적화 사전에 스키마(schema)를 정의하고 데이터를 적재 (Schema-on-Write) 주로 Star Schema 또는 Snowflake Schema 사용 읽기(Read) 중심의 워크로드에 강함 예시 AWS: Amazon Redshift (비교) Google BigQuery, Azure Synapse 시험 포인트 ETL (Extract → Transform → Load) 과정이 중요 데이터 웨어하우스는 구조화된 데이터(Structured Data) 중심이라는 점 기억하기 2. 데이터 레이크 (...

(한국어) AWS ML Associate (4) - ETL 파이프라인과 데이터 포맷 이해

ETL 파이프라인과 데이터 포맷 이해1. ETL 파이프라인이란? ETL은 Extract, Transform, Load의 약자입니다.→ 데이터를 추출 → 변환 → 적재하는 일련의 과정. 주로 **데이터 웨어하우스(DWH)**로 데이터를 옮길 때 사용됩니다. 데이터 레이크에서는 ELT(Extract → Load → Transform) 방식이 더 일반적입니다. 2. Extract (추출) 정의: 원천 시스템에서 데이터를 가져오는 단계 데이터 출처: 데이터베이스 (MySQL, PostgreSQL, Oracle 등) CRM (예: Salesforce) 로그 파일 API 스트리밍 데이터 (Kafka, Kinesis 등) 중요 고려사항: 데이터 무결성 보장 (중간에 손실/에러 발생 시 재시도 정책 필요) 처리 방식: 실시간, 근실시간(near real-time), 배치(batch) 3. Transform (변환) 정의: 추출한 데이터를 분석/저장하기 적합한 ...

(한국어) AWS ML Associate (5) - Amazon S3 핵심 정리

Amazon S3 핵심 정리 왜 중요한가?Amazon S3(Simple Storage Service)는 AWS의 핵심 스토리지 서비스로, “사실상 무한대(virtually unlimited)” 확장성을 제공하는 객체 스토리지(Object Storage) 입니다. 대부분의 데이터/AI 워크로드가 S3를 중심으로 연결되며, 다른 AWS 서비스와의 통합성이 매우 뛰어납니다. 1) S3가 쓰이는 곳 (Use Cases) 백업 & 스토리지(Backup & Storage): 장기 보관, 스냅샷 저장. 재해복구(Disaster Recovery, DR): 다른 리전(Region) 으로 복제해 RTO/RPO 개선. 아카이브(Archive): 저비용 보관(S3 Glacier 계열) 후 필요 시 복원. 하이브리드 스토리지(Hybrid Cloud Storage): 온프레미스 + 클라우드 연동. 애플리케이션/미디어 호스팅(App/Media Host...

(한국어) AWS ML Associate (6) - Amazon S3 핵심 정리

Amazon S3 보안 (Amazon S3 Security)Amazon S3는 단순한 저장소 서비스지만, 보안(Security) 을 제대로 설정하지 않으면 데이터 유출(Data Leak)과 같은 심각한 문제가 발생할 수 있습니다. AWS Certified Machine Learning Engineer – Associate 시험에서도 자주 출제되는 주제이므로 꼭 이해해야 합니다. 1. S3 보안 유형🔹 User-Based (IAM 기반) IAM PoliciesIAM(Identity and Access Management)에서 특정 사용자(User) 또는 그룹(Group)에 대해 어떤 API 호출(API Calls)을 허용할지 정의합니다.→ 예: s3:GetObject 권한 부여. 🔹 Resource-Based (리소스 기반) Bucket Policies JSON 기반 정책으로, 버킷 전체에 대한 접근 권한을 설정합니다. Cross-Account Access(계정...

(한국어) AWS Certified AI Practitioner (1) - IT & AWS 기초

📚 IT & AWS 기초 요약1. 기본 IT 용어 네트워크(Network): 케이블, 라우터, 서버 등이 연결되어 데이터가 오가는 길. 라우터(Router): 인터넷에서 데이터를 어디로 보낼지 길잡이 역할을 하는 장치. 스위치(Switch): 네트워크 안에서 데이터가 정확한 서버나 컴퓨터로 가도록 도와주는 장치. 2. 클라우드 컴퓨팅의 5가지 핵심 특징 즉시 자원 사용(On-demand self service) → 필요한 자원을 바로 얻을 수 있음. 넓은 네트워크 접근(Broad network access) → 인터넷만 있으면 여러 기기에서 접근 가능. 자원 공유(Multi-tenancy & Resource pooling) → 여러 사용자가 안전하게 같은 자원 공유. 빠른 확장성(Rapid elasticity & Scalability) → 필요에 따라 서버나 자원을 늘리거나 줄일 수 있음. 사용량 기반 과금(Measur...