Coding_Quiz_Python_1
1. Two SumLink : https://leetcode.com/problems/two-sum/description/?difficulty=EASY Hash Map (딕셔너리 이용)보조 공간을 이용해 빠르게 차이를 찾는 방식. 시간 복잡도: O(n) 공간 복잡도: O(n) 1234567891011class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: num_map = {} for index, num in enumerate(nums): diff = target - num if diff in num_map: return [num_map[diff], index] num_map[num] = index Sorting + Two Pointers...
Databricks CV Anomaly Detection
👁️ Databricks + Computer Vision Anomaly Detection & Model DeploymentA complete guide to anomaly detection with Databricks and Apache Spark “From data ingestion to real-time serving — build and deploy scalable computer vision anomaly detection models.” 📎 Full Project:👉 View Jupyter Notebooks on GitHub 📌 One-Line SummaryThis project provides a full pipeline for computer vision–based anomaly detection, covering data ingestion, preprocessing, model training, deployment, and RES...
(한국어) AWS ML Associate (6) - Amazon S3 핵심 정리
Amazon S3 보안 (Amazon S3 Security)Amazon S3는 단순한 저장소 서비스지만, 보안(Security) 을 제대로 설정하지 않으면 데이터 유출(Data Leak)과 같은 심각한 문제가 발생할 수 있습니다. AWS Certified Machine Learning Engineer – Associate 시험에서도 자주 출제되는 주제이므로 꼭 이해해야 합니다. 1. S3 보안 유형🔹 User-Based (IAM 기반) IAM PoliciesIAM(Identity and Access Management)에서 특정 사용자(User) 또는 그룹(Group)에 대해 어떤 API 호출(API Calls)을 허용할지 정의합니다.→ 예: s3:GetObject 권한 부여. 🔹 Resource-Based (리소스 기반) Bucket Policies JSON 기반 정책으로, 버킷 전체에 대한 접근 권한을 설정합니다. Cross-Account Access(계정...
(한국어) AWS ML Associate (5) - Amazon S3 핵심 정리
Amazon S3 핵심 정리 왜 중요한가?Amazon S3(Simple Storage Service)는 AWS의 핵심 스토리지 서비스로, “사실상 무한대(virtually unlimited)” 확장성을 제공하는 객체 스토리지(Object Storage) 입니다. 대부분의 데이터/AI 워크로드가 S3를 중심으로 연결되며, 다른 AWS 서비스와의 통합성이 매우 뛰어납니다. 1) S3가 쓰이는 곳 (Use Cases) 백업 & 스토리지(Backup & Storage): 장기 보관, 스냅샷 저장. 재해복구(Disaster Recovery, DR): 다른 리전(Region) 으로 복제해 RTO/RPO 개선. 아카이브(Archive): 저비용 보관(S3 Glacier 계열) 후 필요 시 복원. 하이브리드 스토리지(Hybrid Cloud Storage): 온프레미스 + 클라우드 연동. 애플리케이션/미디어 호스팅(App/Media Host...
(한국어) AWS ML Associate (4) - ETL 파이프라인과 데이터 포맷 이해
ETL 파이프라인과 데이터 포맷 이해1. ETL 파이프라인이란? ETL은 Extract, Transform, Load의 약자입니다.→ 데이터를 추출 → 변환 → 적재하는 일련의 과정. 주로 **데이터 웨어하우스(DWH)**로 데이터를 옮길 때 사용됩니다. 데이터 레이크에서는 ELT(Extract → Load → Transform) 방식이 더 일반적입니다. 2. Extract (추출) 정의: 원천 시스템에서 데이터를 가져오는 단계 데이터 출처: 데이터베이스 (MySQL, PostgreSQL, Oracle 등) CRM (예: Salesforce) 로그 파일 API 스트리밍 데이터 (Kafka, Kinesis 등) 중요 고려사항: 데이터 무결성 보장 (중간에 손실/에러 발생 시 재시도 정책 필요) 처리 방식: 실시간, 근실시간(near real-time), 배치(batch) 3. Transform (변환) 정의: 추출한 데이터를 분석/저장하기 적합한 ...
(한국어) AWS ML Associate (3) - 데이터의 세 가지 유형
데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 메시 정리1. 데이터 웨어하우스 (Data Warehouse)정의데이터 웨어하우스는 여러 소스에서 수집된 데이터를 정제(ETL)하여 구조화된 형태로 저장하는 중앙 저장소입니다. 주로 분석과 BI(Business Intelligence)에 최적화되어 있습니다. 특징 복잡한 쿼리와 분석 작업에 최적화 사전에 스키마(schema)를 정의하고 데이터를 적재 (Schema-on-Write) 주로 Star Schema 또는 Snowflake Schema 사용 읽기(Read) 중심의 워크로드에 강함 예시 AWS: Amazon Redshift (비교) Google BigQuery, Azure Synapse 시험 포인트 ETL (Extract → Transform → Load) 과정이 중요 데이터 웨어하우스는 구조화된 데이터(Structured Data) 중심이라는 점 기억하기 2. 데이터 레이크 (...
(한국어) AWS ML Associate (2) - 데이터의 세 가지 유형
데이터 엔지니어링 기초이번 섹션은 AWS 서비스 자체보다는 데이터 엔지니어링의 기초 개념에 초점을 둡니다.시험 가이드에서도 AWS 서비스뿐 아니라 데이터 관련 기본 개념을 알아야 한다고 명시되어 있습니다. 1. 데이터의 세 가지 유형① 구조화 데이터 (Structured Data) 정의: 미리 정의된 스키마(열, 자료형 등)에 맞춰 정리된 데이터 특징: SQL로 쉽게 질의 가능, 행/열 구조로 일관성 있음 예시: 관계형 데이터베이스 (MySQL, PostgreSQL, Amazon RDS, Amazon Redshift) 잘 정리된 CSV 파일 전형적인 엑셀 시트 👉 시험 포인트: RDB vs 데이터 레이크 차이를 구분해야 함. Redshift(OLAP)와 S3 기반 데이터 레이크 차이를 물을 수 있음. ② 비구조화 데이터 (Unstructured Data) 정의: 스키마가 없거나 일정하지 않은 데이터 특징: 바로 질의할 수 없음. ...
(한국어) AWS ML Associate (1) - AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기
AWS ML 엔지니어 어소시에이트(MLA-C01) 한눈에 보기이 과정에서는 데이터 수집→변환/특징공학→모델 학습/튜닝/평가→생성형 AI→MLOps→보안/거버넌스까지 실무 흐름을 따라가며, SageMaker 중심으로 AWS 서비스들을 연결해 이해합니다. 시험 포인트 SageMaker 전반(Processing/Training/Inference/Deployment) Glue, EMR, Kinesis, S3, EFS, EBS 활용 데이터 변환·특징공학 기법 (결측치, 이상치, 불균형 데이터 처리) 기본 ML 알고리즘 (XGBoost, Linear Learner 등 SageMaker 내장 알고리즘) 성능 측정 지표 (Precision, Recall, F1-score, Accuracy 등) 하이퍼파라미터 튜닝 (SageMaker Automatic Model Tuning) Bedrock, Jumpstart, RAG, Guard...
(한국어) AWS Certified AI Practitioner (41) - 거버넌스 & 컴플라이언스의 중요성
거버넌스 & 컴플라이언스의 중요성 조직의 AI 이니셔티브를 관리·최적화·확장하기 위한 기본 토대 신뢰 구축: 책임 있는 AI 운영을 통해 내부·외부 이해관계자의 신뢰 확보 위험 완화: 편향, 프라이버시 침해, 의도치 않은 결과 등 정책·가이드·감독 체계로 법·규제 정합성 확보 법적·평판 리스크 예방, 대중 신뢰 제고 📌 시험 포인트(AWS/클라우드 공통) “책임 있는 AI(Responsible AI)”는 정책·감독·모니터링을 AI 수명주기 전반(설계→개발→배포→운영)에서 수행하는 것을 뜻함. 공공·금융·의료 등은 규제 요건(감사·보관·추적성)이 강화됨. 거버넌스 프레임워크(예시) AI 거버넌스 위원회 구성 법무, 컴플라이언스, 보안/개인정보, 데이터, AI 개발 SME가 참여 역할과 책임 정의 정책수립, 리스크 평가, 승인/결정 절차 명확화 정책·프로세스 수립 데이터 관리 → 모델 개발/검증 → 배포/모니터...