(한국어) AWS Certified AI Practitioner (32) - Amazon Polly & Rekognition
Amazon Polly
기본 개념
- Amazon Polly는 텍스트를 사람처럼 자연스러운 음성으로 바꿔주는 서비스입니다.
- 딥러닝 기반 음성 합성(TTS, Text-to-Speech) 기술을 사용해 실제 사람 목소리처럼 들리게 합니다.
- 이 기능을 활용하면 “말하는 애플리케이션”을 만들 수 있습니다. 예: 뉴스 읽기 앱, 시각장애인용 리더, 고객센터 챗봇 등.
주요 기능
- Lexicon (발음 사전)
- 특정 단어를 원하는 방식으로 읽도록 설정 가능.
- 예:
AWS
→ Amazon Web Services,W3C
→ World Wide Web Consortium.
- SSML (Speech Synthesis Markup Language)
- 발음·억양·속도·강세 등을 조정하는 마크업 언어.
- 예:
"Hello, <break time='1s'/> how are you?"
→ “헬로” 후 1초 쉬고 “하우 아 유?” - 시험 포인트: Polly에서 발음을 제어하려면 SSML 사용.
- Voice Engine 종류
- Standard: 기본 엔진, 가장 오래됨.
- Neural: 사람 목소리에 더 가까운 고품질 엔진.
- Long-form: 긴 콘텐츠(예: 오디오북)에 최적화.
- Generative: 최신 Gen AI 기반, 가장 자연스럽고 감정 표현 가능.
- Speech Marks
- 오디오에서 단어·문장이 시작/끝나는 위치를 표시.
- 활용 사례: 입 모양과 싱크 맞추기(lip-sync), 자막이나 단어 하이라이팅.
👉 시험에 자주 나오는 포인트
- Polly = TTS(Text-to-Speech), Transcribe = STT(Speech-to-Text).
- 발음을 제어하는 방법 → Lexicon / SSML.
- 음성 엔진 종류 차이 (Standard vs Neural vs Generative).
Amazon Rekognition
기본 개념
- 이미지와 동영상을 분석하는 서비스.
- 머신러닝 기반으로 객체, 사람, 텍스트, 장면 등을 인식합니다.
- 얼굴 분석(성별, 나이대, 감정), 얼굴 검색(유사 인물 찾기), 셀러브리티 인식 등이 가능.
주요 기능 (시험에서 잘 나옴)
- 라벨링(Labeling)
- 사진·영상에서 객체나 장면을 자동 인식 (예: 사람, 자동차, 건물).
- 텍스트 탐지(Text Detection)
- 이미지 안의 글자 추출 (예: 차량 번호판, 간판 텍스트).
- 얼굴 분석(Face Analysis)
- 나이대, 성별, 감정(웃음, 눈뜸 여부 등).
- 얼굴 검색/비교(Face Search & Verification)
- 데이터베이스에 있는 얼굴과 비교 → 본인 인증이나 중복 인식에 활용.
- 셀러브리티 인식(Celebrity Recognition)
- 유명인 얼굴을 자동으로 인식 (예: Jeff Bezos, Andy Jassy).
- 경로 추적(Pathing)
- 스포츠 경기에서 선수·공의 움직임 추적.
- PPE(개인 보호 장비) 감지
- 마스크, 안전모, 장갑 착용 여부 확인 → 산업/보안 환경에서 사용.
고급 기능
- Custom Labels (맞춤 라벨링)
- 기본 제공 라벨 외에, 기업이 직접 원하는 객체/로고 인식 가능.
- 예: NFL → 경기 사진에서 NFL 로고 자동 탐지.
- 방법:
- 학습용 이미지(S3에 저장) 업로드 → Rekognition이 맞춤 모델 생성.
- 수백 장 이하의 이미지로도 가능.
- Content Moderation (콘텐츠 필터링)
- 부적절하거나 유해한 이미지·영상 자동 탐지.
- 예: SNS, 광고, 방송 콘텐츠에서 유해 콘텐츠 필터링.
- 사람이 직접 검토해야 하는 양을 1~5% 수준으로 줄임.
- **Amazon A2I(Augmented AI)**와 통합 → AI가 불확실할 때 사람에게 검토 요청.
- Custom Moderation Adapter 사용 → 기업 맞춤형 콘텐츠 필터링 가능.
시험 포인트 정리
- Polly vs Transcribe → Polly는 TTS, Transcribe는 STT.
- Polly 주요 기능 → Lexicon, SSML, Speech Marks, Neural/Standard 엔진.
- Rekognition 주요 기능 → 라벨링, 얼굴 분석/검색, 텍스트 탐지, 콘텐츠 필터링, Custom Labels.
- Rekognition Content Moderation → 부적절 콘텐츠 자동 감지, A2I와 연계.
- Custom Labels → 소수의 이미지 데이터만으로 기업 맞춤형 객체 인식 가능.
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.