(한국어) AWS ML Associate (4) - ETL 파이프라인과 데이터 포맷 이해
ETL 파이프라인과 데이터 포맷 이해1. ETL 파이프라인이란? ETL은 Extract, Transform, Load의 약자입니다.→ 데이터를 추출 → 변환 → 적재하는 일련의 과정. 주로 **데이터 웨어하우스(DWH)**로 데이터를 옮길 때 사용됩니다. 데이터 레이크에서는 ELT(Extract → Load → Transform) 방식이 더 일반적입니다. 2. Extract (추출) 정의: 원천 시스템에서 데이터를 가져오는 단계 데이터 출처: 데이터베이스 (MySQL, PostgreSQL, Oracle 등) CRM (예: Salesforce) 로그 파일 API 스트리밍 데이터 (Kafka, Kinesis 등) 중요 고려사항: 데이터 무결성 보장 (중간에 손실/에러 발생 시 재시도 정책 필요) 처리 방식: 실시간, 근실시간(near real-time), 배치(batch) 3. Transform (변환) 정의: 추출한 데이터를 분석/저장하기 적합한 ...
(한국어) AWS ML Associate (3) - 데이터의 세 가지 유형
데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 메시 정리1. 데이터 웨어하우스 (Data Warehouse)정의데이터 웨어하우스는 여러 소스에서 수집된 데이터를 정제(ETL)하여 구조화된 형태로 저장하는 중앙 저장소입니다. 주로 분석과 BI(Business Intelligence)에 최적화되어 있습니다. 특징 복잡한 쿼리와 분석 작업에 최적화 사전에 스키마(schema)를 정의하고 데이터를 적재 (Schema-on-Write) 주로 Star Schema 또는 Snowflake Schema 사용 읽기(Read) 중심의 워크로드에 강함 예시 AWS: Amazon Redshift (비교) Google BigQuery, Azure Synapse 시험 포인트 ETL (Extract → Transform → Load) 과정이 중요 데이터 웨어하우스는 구조화된 데이터(Structured Data) 중심이라는 점 기억하기 2. 데이터 레이크 (...
(한국어) AWS ML Associate (2) - 데이터의 세 가지 유형
데이터 엔지니어링 기초이번 섹션은 AWS 서비스 자체보다는 데이터 엔지니어링의 기초 개념에 초점을 둡니다.시험 가이드에서도 AWS 서비스뿐 아니라 데이터 관련 기본 개념을 알아야 한다고 명시되어 있습니다. 1. 데이터의 세 가지 유형① 구조화 데이터 (Structured Data) 정의: 미리 정의된 스키마(열, 자료형 등)에 맞춰 정리된 데이터 특징: SQL로 쉽게 질의 가능, 행/열 구조로 일관성 있음 예시: 관계형 데이터베이스 (MySQL, PostgreSQL, Amazon RDS, Amazon Redshift) 잘 정리된 CSV 파일 전형적인 엑셀 시트 👉 시험 포인트: RDB vs 데이터 레이크 차이를 구분해야 함. Redshift(OLAP)와 S3 기반 데이터 레이크 차이를 물을 수 있음. ② 비구조화 데이터 (Unstructured Data) 정의: 스키마가 없거나 일정하지 않은 데이터 특징: 바로 질의할 수 없음. ...
(한국어) AWS ML Associate (1) - AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기
AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기이 과정에서는 데이터 수집→변환/특징공학→모델 학습/튜닝/평가→생성형 AI→MLOps→보안/거버넌스까지 실무 흐름을 따라가며, SageMaker 중심으로 AWS 서비스들을 연결해 이해합니다. 시험 포인트 SageMaker 전반(Processing/Training/Inference/Deployment) Glue, EMR, Kinesis, S3, EFS, EBS 활용 데이터 변환·특징공학 기법 (결측치, 이상치, 불균형 데이터 처리) 기본 ML 알고리즘 (XGBoost, Linear Learner 등 SageMaker 내장 알고리즘) 성능 측정 지표 (Precision, Recall, F1-score, Accuracy 등) 하이퍼파라미터 튜닝 (SageMaker Automatic Model Tuning) Bedrock, Jumpstart, RAG, Guard...
(한국어) AWS Certified AI Practitioner (41) - 거버넌스 & 컴플라이언스의 중요성
거버넌스 & 컴플라이언스의 중요성 조직의 AI 이니셔티브를 관리·최적화·확장하기 위한 기본 토대 신뢰 구축: 책임 있는 AI 운영을 통해 내부·외부 이해관계자의 신뢰 확보 위험 완화: 편향, 프라이버시 침해, 의도치 않은 결과 등 정책·가이드·감독 체계로 법·규제 정합성 확보 법적·평판 리스크 예방, 대중 신뢰 제고 📌 시험 포인트(AWS/클라우드 공통) “책임 있는 AI(Responsible AI)”는 정책·감독·모니터링을 AI 수명주기 전반(설계→개발→배포→운영)에서 수행하는 것을 뜻함. 공공·금융·의료 등은 규제 요건(감사·보관·추적성)이 강화됨. 거버넌스 프레임워크(예시) AI 거버넌스 위원회 구성 법무, 컴플라이언스, 보안/개인정보, 데이터, AI 개발 SME가 참여 역할과 책임 정의 정책수립, 리스크 평가, 승인/결정 절차 명확화 정책·프로세스 수립 데이터 관리 → 모델 개발/검증 → 배포/모니터...
AWS Certified AI Practitioner(41) - Governance & Compliance in AI
Governance & Compliance in AIWhy Governance and Compliance MatterGovernance is about managing, optimizing, and scaling AI initiatives inside an organization. It builds trust in AI systems. Ensures responsible and trustworthy practices. Mitigates risks such as bias, privacy violations, or unintended outcomes. Aligns AI systems with legal and regulatory requirements. Protects against legal and reputational risks. Fosters public trust and confidence in AI deployment. 📌 Exam ti...
AWS Certified AI Practitioner(40) - Generative AI Capabilities, Challenges, and Compliance
Generative AI: Capabilities, Challenges, and ComplianceCapabilities of Generative AIGenerative AI (GenAI) has several strengths that make it powerful and attractive for businesses: Adaptability – can quickly adjust to new tasks and domains. Responsiveness – provides real-time answers and interactions. Simplicity – users can interact with natural language prompts instead of coding. Creativity & Exploration – useful for brainstorming, content creation, and generating novel ideas. D...
(한국어) AWS Certified AI Practitioner (40) - 생성형 AI의 역량과 과제
생성형 AI의 역량과 과제 (시험 포인트 포함)아래 내용은 강의자료와 대본을 바탕으로 쉽고 자연스럽게 정리/확장한 것입니다. 특히 AWS 자격증(특히 AWS Certified AI Practitioner,ML–Specialty, SAP/Architect) 대비에 유리하도록 시험에 자주 나오는 개념과 실무 팁을 함께 넣었습니다. 1) 생성형 AI가 잘하는 것 (Capabilities) 적응성(Adaptability): 다양한 도메인과 태스크로 빠르게 전이·적용 가능 반응성(Responsiveness): 프롬프트에 즉시 응답, 대화형 인터페이스에 적합 단순성(Simplicity): 사용자 입장에선 프롬프트만 잘 쓰면 복잡한 작업도 가능 창의성·탐색(Creativity & Exploration): 아이디어 발산, 초안/프로토타이핑에 강함 데이터 효율(Data Efficiency): 사전학습 덕분에 비교적 적은 추가 데이터로도 튜닝 가능 개인화(Pe...
(한국어) AWS Certified AI Practitioner (39) - Responsible AI & Security
Responsible AI & Security (책임 있는 AI와 보안)1. Responsible AI (책임 있는 AI) 목표: AI 시스템이 투명성과 신뢰성을 가지도록 설계 중요성: 사용자가 결과를 신뢰하고, 부정적 결과나 위험을 줄일 수 있음 적용 범위: AI 전체 라이프사이클 설계(Design) → 개발(Development) → 배포(Deployment) → 모니터링(Monitoring) → 평가(Evaluation) 2. Security (보안) 3대 원칙: CIA 원칙 Confidentiality (기밀성): 민감한 데이터 보호 Integrity (무결성): 데이터가 변조되지 않도록 보장 Availability (가용성): 필요한 사람이 필요한 시점에 데이터 접근 가능 적용 대상: 조직의 데이터, 정보 자산, IT 인프라 전반 Governance & Compliance1. Governance (거버넌스) 목적: 리스크...
AWS Certified AI Practitioner(39) - Responsible AI, Security, Governance, and Compliance
Responsible AI, Security, Governance, and ComplianceThis section is less about building models and more about ensuring trust, safety, and compliance when deploying AI. While it may feel text-heavy, it’s very important for the AWS AI certification exam. Let’s go step by step. Responsible AIDefinition: Responsible AI ensures that AI systems are transparent, trustworthy, and beneficial to society. It reduces risks and negative outcomes across the entire AI lifecycle: Design → Development → D...
