📊 Amazon Bedrock – 모델 평가 가이드

Amazon Bedrock에서 Foundation Model (FM) 을 평가하는 과정은 단순히 성능 확인을 넘어서,
👉 품질 관리, 👉 비즈니스 효과 측정, 👉 편향성(bias) 탐지 를 위해 꼭 필요합니다.

Bedrock은 크게 자동 평가사람에 의한 평가 두 가지 방식을 제공하며,
평가 시에는 기술적인 지표(ROUGE, BLEU 등)비즈니스 지표(만족도, 매출 등) 를 함께 고려해야 합니다.


1. 🔄 자동 평가 (Automatic Evaluation)

Bedrock이 직접 모델의 성능을 점수화해주는 방식입니다.

지원되는 기본 과제(Task)

  • 텍스트 요약 (Summarization)
  • 질문–답변 (Q&A)
  • 텍스트 분류 (Classification)
  • 자유 텍스트 생성 (Open-ended Generation)

작동 방식

  1. 평가용 데이터셋 준비
    • AWS가 제공하는 벤치마크 데이터 또는 직접 만든 데이터.
    • 질문과 ‘정답’(이상적인 답변)을 포함.
  2. 모델 테스트
    • 준비된 질문을 모델에 입력 → 모델이 답변 생성.
  3. 자동 비교
    • ‘심판 모델’이 모델 답변을 정답과 비교 → 점수 산출.
    • ROUGE, BLEU, BERTScore 같은 지표 활용.

✅ 장점: 빠르고 일관성 있음, 관리 부담 적음, 편향 탐지 가능.


2. 🧑 사람 평가 (Human Evaluation)

사람(내부 직원, 전문가)이 직접 모델의 답변을 보고 평가하는 방식입니다.

평가 방법

  • 👍 / 👎 (좋아요/싫어요)
  • 여러 답변 순위 매기기
  • 별점이나 커스텀 점수 방식

✅ 장점: 기계가 잡아내기 어려운 미묘한 품질 차이도메인 특화된 답변 평가에 유리.


3. 📏 주요 자동 평가 지표

  • ROUGE → 생성된 답변과 기준 텍스트 간의 단어/구문 겹치는 정도 (요약 평가에 적합)
  • BLEU → 번역 품질 평가 (짧은 답변에 불이익 주지 않음)
  • BERTScore → 단순 단어가 아니라 의미(semantic similarity) 기반 비교
  • Perplexity → 모델이 다음 단어를 얼마나 잘 예측하는지 (낮을수록 좋음)

📌 시험 포인트: 지표별 특징을 구분해서 외워두는 게 중요합니다.


4. 💼 비즈니스 지표 (Business Metrics)

지표 의미 예시
사용자 만족도 모델 결과에 대한 유저 반응 챗봇 설문조사 결과
ARPU 유저 1명당 평균 매출 추천 AI 도입 후 매출 증가
전환율(Conversion) 행동으로 이어진 비율 클릭 → 구매 비율
효율성 인프라 대비 성능 비용 줄이면서 정확도 유지

시험에서는 기술 지표 + 비즈니스 지표 둘 다 묻는 문제가 자주 나옵니다.


5. 📚 RAG (Retrieval-Augmented Generation) & Knowledge Base

  • RAG: 모델이 외부 DB(최신 문서, 데이터베이스 등)에서 필요한 정보를 가져와 답변에 반영하는 방식.
  • 동작 흐름:
    1. 문서를 임베딩(벡터화)
    2. 벡터 DB에 저장
    3. 질문 시 관련 데이터 검색
    4. 검색 결과를 프롬프트에 넣고 모델이 최종 답변 생성

📌 시험에서 “실시간 최신 데이터 반영” → RAG가 정답일 확률 높음.


6. 📝 AWS 자격증 시험에서 중요한 포인트

  • ROUGE ↔ Summarization, BLEU ↔ Translation, BERTScore ↔ 의미 비교 구분 필수
  • Perplexity 낮을수록 좋은 모델
  • Bias(편향) 검출도 평가 목적 중 하나
  • Bedrock에서 평가(Evaluation) 기능은 콘솔 메뉴에 있음
  • Provisioned Throughput (전용 리소스 예약) 개념 자주 출제됨
  • RAG = 실시간 데이터 반영 / Fine-tuning = 도메인 특화 학습

7. 🚀 AWS Bedrock에서 실제 평가 방법

  1. 콘솔에서 Evaluations 메뉴 클릭

  1. Create Evaluation → 자동/사람 평가 선택
  2. 평가할 모델 선택 (여러 개 비교 가능)
  3. 과제(Task) 유형 선택 (요약, 분류, Q&A 등)
  4. 데이터셋 선택 (AWS 제공 or 직접 업로드)
  5. 평가 지표(ROUGE, BLEU, BERTScore, Perplexity) 선택

  1. 평가 실행 (Start Evaluation)
  2. 결과 리포트 확인 (점수 + 예시 답변 + 편향 여부)

📌 시험에서 “어떻게 평가하나요?” → 위 단계를 기억하면 답하기 쉽습니다.


✅ 정리

Amazon Bedrock의 모델 평가는 크게

  • 자동 평가 (지표 기반)
  • 사람 평가 (주관적 판단)
    두 가지로 나뉘며, 실제 프로젝트에서는 비즈니스 지표와 함께 봐야 합니다.

시험에서는 평가 지표의 특징RAG, Fine-Tuning, Provisioned Throughput 개념이 자주 출제됩니다.