Amazon Polly

기본 개념

  • Amazon Polly는 텍스트를 사람처럼 자연스러운 음성으로 바꿔주는 서비스입니다.
  • 딥러닝 기반 음성 합성(TTS, Text-to-Speech) 기술을 사용해 실제 사람 목소리처럼 들리게 합니다.
  • 이 기능을 활용하면 “말하는 애플리케이션”을 만들 수 있습니다. 예: 뉴스 읽기 앱, 시각장애인용 리더, 고객센터 챗봇 등.

주요 기능

  1. Lexicon (발음 사전)
    • 특정 단어를 원하는 방식으로 읽도록 설정 가능.
    • 예: AWSAmazon Web Services, W3CWorld Wide Web Consortium.
  2. SSML (Speech Synthesis Markup Language)
    • 발음·억양·속도·강세 등을 조정하는 마크업 언어.
    • 예: "Hello, <break time='1s'/> how are you?" → “헬로” 후 1초 쉬고 “하우 아 유?”
    • 시험 포인트: Polly에서 발음을 제어하려면 SSML 사용.
  3. Voice Engine 종류
    • Standard: 기본 엔진, 가장 오래됨.
    • Neural: 사람 목소리에 더 가까운 고품질 엔진.
    • Long-form: 긴 콘텐츠(예: 오디오북)에 최적화.
    • Generative: 최신 Gen AI 기반, 가장 자연스럽고 감정 표현 가능.
  4. Speech Marks
    • 오디오에서 단어·문장이 시작/끝나는 위치를 표시.
    • 활용 사례: 입 모양과 싱크 맞추기(lip-sync), 자막이나 단어 하이라이팅.

👉 시험에 자주 나오는 포인트

  • Polly = TTS(Text-to-Speech), Transcribe = STT(Speech-to-Text).
  • 발음을 제어하는 방법 → Lexicon / SSML.
  • 음성 엔진 종류 차이 (Standard vs Neural vs Generative).

Amazon Rekognition

기본 개념

  • 이미지와 동영상을 분석하는 서비스.
  • 머신러닝 기반으로 객체, 사람, 텍스트, 장면 등을 인식합니다.
  • 얼굴 분석(성별, 나이대, 감정), 얼굴 검색(유사 인물 찾기), 셀러브리티 인식 등이 가능.

주요 기능 (시험에서 잘 나옴)

  1. 라벨링(Labeling)
    • 사진·영상에서 객체나 장면을 자동 인식 (예: 사람, 자동차, 건물).
  2. 텍스트 탐지(Text Detection)
    • 이미지 안의 글자 추출 (예: 차량 번호판, 간판 텍스트).
  3. 얼굴 분석(Face Analysis)
    • 나이대, 성별, 감정(웃음, 눈뜸 여부 등).
  4. 얼굴 검색/비교(Face Search & Verification)
    • 데이터베이스에 있는 얼굴과 비교 → 본인 인증이나 중복 인식에 활용.
  5. 셀러브리티 인식(Celebrity Recognition)
    • 유명인 얼굴을 자동으로 인식 (예: Jeff Bezos, Andy Jassy).
  6. 경로 추적(Pathing)
    • 스포츠 경기에서 선수·공의 움직임 추적.
  7. PPE(개인 보호 장비) 감지
    • 마스크, 안전모, 장갑 착용 여부 확인 → 산업/보안 환경에서 사용.

고급 기능

  1. Custom Labels (맞춤 라벨링)
    • 기본 제공 라벨 외에, 기업이 직접 원하는 객체/로고 인식 가능.
    • 예: NFL → 경기 사진에서 NFL 로고 자동 탐지.
    • 방법:
      • 학습용 이미지(S3에 저장) 업로드 → Rekognition이 맞춤 모델 생성.
      • 수백 장 이하의 이미지로도 가능.
  2. Content Moderation (콘텐츠 필터링)
    • 부적절하거나 유해한 이미지·영상 자동 탐지.
    • 예: SNS, 광고, 방송 콘텐츠에서 유해 콘텐츠 필터링.
    • 사람이 직접 검토해야 하는 양을 1~5% 수준으로 줄임.
    • **Amazon A2I(Augmented AI)**와 통합 → AI가 불확실할 때 사람에게 검토 요청.
    • Custom Moderation Adapter 사용 → 기업 맞춤형 콘텐츠 필터링 가능.


시험 포인트 정리

  • Polly vs Transcribe → Polly는 TTS, Transcribe는 STT.
  • Polly 주요 기능 → Lexicon, SSML, Speech Marks, Neural/Standard 엔진.
  • Rekognition 주요 기능 → 라벨링, 얼굴 분석/검색, 텍스트 탐지, 콘텐츠 필터링, Custom Labels.
  • Rekognition Content Moderation → 부적절 콘텐츠 자동 감지, A2I와 연계.
  • Custom Labels → 소수의 이미지 데이터만으로 기업 맞춤형 객체 인식 가능.