(한국어) AWS Certified AI Practitioner (8) - 토큰화, 컨텍스트 윈도우, 임베딩
📚 생성형 AI 핵심 개념 – 토큰화, 컨텍스트 윈도우, 임베딩이 세 가지는 생성형 AI(GenAI)의 기본 개념으로, 시험 문제에도 자주 등장하고 LLM(대규모 언어 모델)을 이해하는 데 꼭 필요합니다. 1. 🔹 토큰화(Tokenization)정의텍스트를 모델이 이해할 수 있는 작은 단위인 토큰(token) 으로 쪼개는 과정입니다.모델은 단어가 아니라 토큰 단위로 학습하고 추론합니다. 종류 단어 단위 토큰화 (Word-based) 문장을 단어 단위로 분리 예: "The cat sat" → ["The", "cat", "sat"] 서브워드 단위 토큰화 (Subword-based) 긴 단어나 잘 안 쓰이는 단어를 더 작은 의미 단위로 분리 예: "unacceptable" → "un" + "acceptable" 중요한 이유...
(한국어) AWS Certified AI Practitioner (7) - Amazon Bedrock RAG & Knowledge Base 설정
📚 Amazon Bedrock – RAG & 지식 베이스 설정이 문서는 Amazon Bedrock에서 RAG(Retrieval-Augmented Generation)파이프라인과 **지식 베이스(Knowledge Base)**를 설정하는 방법을 단계별로정리한 가이드입니다.스토리지는 Amazon S3, 벡터 데이터베이스는 Amazon OpenSearchServerless를 사용합니다. 1. 🔍 준비 사항 IAM 사용자 (루트 계정 ❌, IAM 계정 ✅) IAM 사용자에게 AdministratorAccess 정책 부여 필요한 AWS 서비스: Amazon Bedrock Amazon S3 Amazon OpenSearch Serverless (또는 외부 벡터 DB) 업로드할 문서 파일 (예: evolution_of_the_internet.pdf) 2. 🛠 단계별 설정Step 1 – IAM 사용자 만들기 IAM 콘솔 → 사용자 생성 사용자 이름 입력 (예: danny)...
(한국어) AWS Certified AI Practitioner (6) - Amazon Bedrock RAG & Knowledge Base
📚 Amazon Bedrock – RAG & Knowledge Base1. 🔍 RAG란 무엇일까?RAG (Retrieval-Augmented Generation) 은 외부 데이터에서 정보를 검색(Retrieve) 하고 → 이를 프롬프트에 추가(Augment) 하여 → 모델이 더 정확한 답변을 생성(Generate) 하는 방법이에요. 검색(Retrieval): 모델이 학습하지 못한 최신 데이터나 특정 도메인 데이터를 가져와요. 증강(Augmentation): 검색한 데이터를 질문과 합쳐서 모델에 전달해요. 장점: 모델을 새로 학습(Fine-tuning)하지 않고도 최신 지식을 반영할 수 있어요. 2. 🏗 동작 방식 (Step-by-Step) 데이터 저장소 Amazon S3, Confluence, SharePoint, Salesforce, 웹사이트 등에 문서를 저장 벡터 임베딩 생성 Bedrock이 문서를 작은 조각으로 나누고 Amaz...
(한국어) AWS Certified AI Practitioner (5) - Amazon Bedrock 모델 평가 가이드
📊 Amazon Bedrock – 모델 평가 가이드Amazon Bedrock에서 Foundation Model (FM) 을 평가하는 과정은 단순히 성능 확인을 넘어서,👉 품질 관리, 👉 비즈니스 효과 측정, 👉 편향성(bias) 탐지 를 위해 꼭 필요합니다. Bedrock은 크게 자동 평가와 사람에 의한 평가 두 가지 방식을 제공하며,평가 시에는 기술적인 지표(ROUGE, BLEU 등) 와 비즈니스 지표(만족도, 매출 등) 를 함께 고려해야 합니다. 1. 🔄 자동 평가 (Automatic Evaluation)Bedrock이 직접 모델의 성능을 점수화해주는 방식입니다. 지원되는 기본 과제(Task) 텍스트 요약 (Summarization) 질문–답변 (Q&A) 텍스트 분류 (Classification) 자유 텍스트 생성 (Open-ended Generation) 작동 방식 평가용 데이터셋 준비 AWS가 제공하는 벤치마크 데이터 또는...
(한국어) AWS Certified AI Practitioner (4) - Amazon Bedrock 파인튜닝 & 모델 선택
📚 Amazon Bedrock 파인튜닝 & 모델 선택1. 다양한 제공자와 모델 특징 대표 제공자(Providers): Anthropic, Amazon, DeepSeek, Stability AI 등 각 모델마다 잘하는 분야가 다름: Claude 3.5 Haiku → 텍스트 처리에 최적화 Amazon Nova Reel → 텍스트-영상, 이미지-영상 변환 💡 시험 포인트: 시험에서 “어떤 모델이 제일 좋은가?”를 묻지 않음 → 각 모델이 할 수 있는 것과 못 하는 것만 구분 2. 모델 비교하기 Bedrock Playground에서 여러 모델을 나란히 테스트 가능 비교 기준: ✅ 지원 기능 (텍스트, 이미지, 비디오) ✅ 출력 스타일/형식 ✅ 속도(지연 시간) ✅ 비용(토큰 사용량) 예시: Nova Micro → 이미지 업로드 불가 ❌, 대신 빠르고 간단한 답변 Claude 3.5 Sonnet → 이미지 지원 가능 ✅,...
(한국어) AWS Certified AI Practitioner (3) - 생성형 AI & Amazon Bedrock
🧠 생성형 AI & Amazon Bedrock1. 생성형 AI란? Generative AI (생성형 AI): 학습한 데이터를 바탕으로 새로운 데이터를 만들어내는 AI. 만들 수 있는 것들: 텍스트, 이미지, 오디오, 코드, 비디오 예시: ChatGPT가 사람처럼 대화 문장을 만들어내는 것. 2. 파운데이션 모델(Foundation Models, FM) 대규모 데이터로 학습된 초거대 AI 모델. 개발 비용이 매우 큼 (수백억~수천억 원). 대표 모델: OpenAI → GPT 시리즈 Meta → LLaMA Google → BERT, Gemini Amazon → Titan Anthropic → Claude 오픈소스(무료)와 상용(유료) 모델이 있음. 3. 대규모 언어 모델(LLM) 텍스트 생성에 특화된 AI. 수십억 개 이상의 파라미터. 활용: 번역, 요약, Q&A, 글쓰기 4. 언어 모델 동작 방식 사용자가 프롬프트...
(한국어) AWS Certified AI Practitioner (2) - AWS 비용 & 예산 관리
💰 AWS 비용 & 예산 관리1. IAM 사용자 접근 설정 AWS에서 비용과 결제(Billing & Cost Management) 화면을 보려면,단순히 계정만 있다고 바로 볼 수 있는 게 아니에요. 관리자(Admin) 가 먼저 설정에서👉 “IAM 사용자 및 역할이 Billing 정보에 접근할 수 있도록 허용” 옵션을 켜줘야 합니다. 이렇게 해야 IAM 사용자도 비용 내역을 확인할 수 있습니다. 2. 주요 비용 관리 도구 Bills (청구서)→ 매달 AWS가 어떤 서비스에서 얼마를 썼는지 상세 내역을 보여줍니다. Free Tier (프리 티어)→ 신규 계정에 제공되는 무료 사용량이 얼마나 남았는지 확인할 수 있습니다.💡 예: EC2 750시간 무료, S3 5GB 저장 무료 등 Budgets (예산 관리)→ 내가 설정한 금액을 초과하면 이메일로 알림을 줍니다.💡 예: 한 달 예산을 10달러로 정해두고, 예상 사용량이 10달러를 ...
(한국어) AWS Certified AI Practitioner (1) - IT & AWS 기초
📚 IT & AWS 기초 요약1. 기본 IT 용어 네트워크(Network): 케이블, 라우터, 서버 등이 연결되어 데이터가 오가는 길. 라우터(Router): 인터넷에서 데이터를 어디로 보낼지 길잡이 역할을 하는 장치. 스위치(Switch): 네트워크 안에서 데이터가 정확한 서버나 컴퓨터로 가도록 도와주는 장치. 2. 클라우드 컴퓨팅의 5가지 핵심 특징 즉시 자원 사용(On-demand self service) → 필요한 자원을 바로 얻을 수 있음. 넓은 네트워크 접근(Broad network access) → 인터넷만 있으면 여러 기기에서 접근 가능. 자원 공유(Multi-tenancy & Resource pooling) → 여러 사용자가 안전하게 같은 자원 공유. 빠른 확장성(Rapid elasticity & Scalability) → 필요에 따라 서버나 자원을 늘리거나 줄일 수 있음. 사용량 기반 과금(Measur...
AWS Certified AI Practitioner(12) - Pricing & Model Improvement
📘 Amazon Bedrock – Pricing & Model Improvement1️⃣ Pricing Options🔹 On-Demand (Pay-as-you-go) How it works: Pay only for what you use, like an electricity bill. Pricing basis Text Models → Input/Output token count Embedding Models → Input token count Image Models → Number of images generated Available Models: Base Models only ✅ Pros: Flexible, good for unpredictable workloads ❌ Cons: Can become expensive if used continuously over time 🔹 Batch Mode (Bulk processing, ...
(한국어) AWS Certified AI Practitioner (12) - Pricing & Model Improvement
📘 Amazon Bedrock – Pricing & Model Improvement1️⃣ Pricing Options🔹 On-Demand (즉시 사용, 사용량만큼 결제) 방식: 전기요금처럼 쓴 만큼만 지불 (Pay-as-you-go) 요금 기준 텍스트 모델 → 입력/출력 토큰 수 임베딩 모델 → 입력 토큰 수 이미지 모델 → 생성된 이미지 수 사용 가능 모델: Base Models 전용 ✅ 장점: 유연성, 사용량 예측이 어려운 경우 적합 ❌ 단점: 장기간 사용 시 비용 부담 ↑ 🔹 Batch Mode (묶음 처리, 최대 50% 할인) 방식: 여러 요청을 한 번에 묶어서 처리 → 결과는 Amazon S3에 단일 파일 저장 할인 혜택: 최대 50% 저렴 ✅ 장점: 대량 처리에 유리, 비용 절감 효과 큼 ❌ 단점: 실시간 응답 불가, 결과 지연 발생 적합 상황: 즉각적인 응답 필요 없고, 대량 요청을 처리할 때 🔹...