거버넌스 & 컴플라이언스의 중요성

  • 조직의 AI 이니셔티브를 관리·최적화·확장하기 위한 기본 토대
  • 신뢰 구축: 책임 있는 AI 운영을 통해 내부·외부 이해관계자의 신뢰 확보
  • 위험 완화: 편향, 프라이버시 침해, 의도치 않은 결과 등
  • 정책·가이드·감독 체계로 법·규제 정합성 확보
  • 법적·평판 리스크 예방, 대중 신뢰 제고

📌 시험 포인트(AWS/클라우드 공통)

  • “책임 있는 AI(Responsible AI)”는 정책·감독·모니터링을 AI 수명주기 전반(설계→개발→배포→운영)에서 수행하는 것을 뜻함.
  • 공공·금융·의료 등은 규제 요건(감사·보관·추적성)이 강화됨.

거버넌스 프레임워크(예시)

  1. AI 거버넌스 위원회 구성
    • 법무, 컴플라이언스, 보안/개인정보, 데이터, AI 개발 SME가 참여
  2. 역할과 책임 정의
    • 정책수립, 리스크 평가, 승인/결정 절차 명확화
  3. 정책·프로세스 수립
    • 데이터 관리 → 모델 개발/검증 → 배포/모니터링까지 전 수명주기 표준화

🧩 AWS에서 도움 되는 서비스 예시

  • AWS Config(설정 준수 추적), CloudTrail(감사 로그), Inspector(취약점), Audit Manager(감사용 증적 수집), Artifact(컴플라이언스 자료), Trusted Advisor(보안/비용 권고).


거버넌스 실행 전략

1) 정책

  • 데이터 관리, 학습·검증, 출력 검수, 안전·휴먼 오버사이트
  • IP/저작권, 편향 완화, 개인정보 보호 포함

2) 정기 리뷰(Review Cadence)

  • 기술 리뷰: 성능, 데이터 품질, 알고리즘 강건성
  • 비기술 리뷰: 정책 준수, 책임 있는 AI 원칙, 규제 대응
  • 주기: 월간/분기/연간 + SME/법무/사용자 참여
  • 출시 전 테스트·검증 절차의사결정 기준 문서화

3) 투명성 기준

  • 모델/데이터/주요 의사결정 공개(가능 범위 내)
  • 한계·가능·적용사례 문서화, 피드백 채널 운영

4) 팀 교육

  • 정책·가이드·모범사례 교육, 편향 완화/Responsible AI 트레이닝
  • 교차 협업 장려, 내부 수료/인증 제도

데이터 거버넌스 전략

  • Responsible AI 프레임워크: 공정성·투명성·책임성 지표 운영, GenAI 편향/부작용 모니터링
  • 조직 구조: 데이터 거버넌스 위원회, Data Steward/Owner/Custodian 역할 정의
  • 데이터 공유: 내부 보안 공유협약, 가상화/페더레이션으로 소유권 유지+접근성 제공
  • 문화: 데이터 기반 의사결정, 공동 거버넌스 문화

📌 Data Owner

  • 정의: 데이터의 최종 책임자 (business 책임).
  • 주요 역할:
    • 데이터가 정확하고 적절히 사용되는지 보장.
    • 데이터 사용 목적, 보존 기간, 보안 요구사항 등 정책적 결정 담당.
    • 규제 및 법적 요구사항을 충족하도록 보장.
  • 예시: 금융회사에서 고객 데이터의 Owner는 Compliance 팀장 또는 데이터 책임 부서장.

📌 Data Steward

  • 정의: Data Owner가 정한 정책을 실제 관리하고 실행하는 사람.
  • 주요 역할:
    • 데이터의 품질 관리 (정확성, 일관성, 최신성).
    • 데이터 표준, 정의, 메타데이터 관리.
    • 사용자들이 데이터를 올바르게 사용할 수 있도록 가이드 제공.
  • 예시: 데이터 품질팀, 데이터 거버넌스 팀원.

📌 Data Custodian

  • 정의: 데이터를 기술적으로 보관·운영하는 사람.
  • 주요 역할:
    • 데이터 저장소(DB, Data Lake, Warehouse) 보안·백업·권한 관리.
    • 인프라, 접근 제어, 암호화 등 기술적 관리.
    • Data Owner/Steward의 정책이 기술적으로 적용되도록 보장.
  • 예시: DBA(Database Admin), 클라우드 엔지니어, 보안팀.

✅ 세 역할의 차이 요약

역할 책임 영역 주요 초점 예시 직무
Data Owner 데이터에 대한 비즈니스적 책임 법적/규제 준수, 정책 수립 Compliance 책임자
Data Steward 데이터의 운영적 관리 품질, 표준, 정의 관리 데이터 거버넌스 팀
Data Custodian 데이터의 기술적 관리 보안, 저장, 접근 제어 DBA, 클라우드 엔지니어

👉 쉽게 말하면:

  • Owner = “이 데이터의 주인은 누구인가?”
  • Steward = “데이터를 잘 관리하고 있는가?”
  • Custodian = “데이터를 안전하게 보관하고 있는가?”

핵심 데이터 관리 개념

  • 수명주기: 수집 → 처리 → 저장 → 소비 → 보관
  • 로그: 입력/출력, 성능, 시스템 이벤트 추적
  • 데이터 레지던시: 저장/처리 위치(법·프라이버시, 데이터-연산 근접성)
  • 모니터링: 품질, 이상·드리프트 탐지
  • 분석: 통계/시각화/탐색
  • 보존: 규제, 재학습 히스토리, 비용 고려

데이터 라인리지(출처·이력)

  • 출처 표시(데이터셋/DB/기타, 라이선스·이용약관)
  • 수집·정제·전처리 과정 문서화, 카탈로그화로 추적성·책임성 강화

------------------------------------------------------------------------

AI 시스템 보안·프라이버시

위협 탐지

  • 가짜 콘텐츠, 조작 데이터, 자동화 공격 탐지
  • 네트워크 트래픽/사용자 행태 등 AI 기반 탐지 적용

취약점 관리

  • 소프트웨어 버그/모델 약점 점검
  • 보안 점검·침투 테스트·코드 리뷰, 패치/업데이트 절차

인프라 보호

  • 클라우드/엣지/데이터 저장소 보안
  • 접근통제, 네트워크 분리, 암호화, 장애 내성

프롬프트 인젝션 대응

  • 필터링/정화/검증 가드레일
  • 정책 우회 시나리오 테스트(레드팀), 안전 출력 정책

암호화·키관리

  • 저장/전송 암호화, KMS 등 키보호 엄격 운영

운영 모니터링(모델 & 인프라)

  • 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1
  • 지연시간(응답), CPU/GPU/네트워크/스토리지 지표
  • 시스템 로그, 편향/공정성, 규제·정책 준수

📝 시험 포인트

  • 정밀도 vs 재현율: 불균형 데이터(사기탐지)에서 F1이 균형 지표로 자주 쓰임.
  • 운영 중 데이터/모델 드리프트 → 재학습 또는 피처/정책 재점검.

AWS 공유책임모델(Shared Responsibility)

  • AWS(클라우드의 보안): 인프라/하이퍼바이저/시설/네트워크 및 관리형 서비스의 보안
  • 고객(클라우드 내 보안): 데이터 관리, 접근제어, 가드레일, 암호화 등 애플리케이션 측
  • 공유 통제: 패치/구성/보안 인식·교육

📌 시험 포인트

  • Bedrock/SageMaker 같은 관리형 서비스라도 데이터·접근·가드레일은 고객 책임.
  • KMS, IAM, CloudTrail과의 연계 책임 구분 이해.

------------------------------------------------------------------------

보안형 데이터 엔지니어링 모범사례

  • 데이터 품질: 완전성·정확성·적시성·일관성 프로파일링·모니터링
  • 라인리지감사 추적 유지
  • PETs(Privacy-Enhancing Tech): 마스킹/난독화, 암호화/토큰화
  • 접근통제: 명확한 정책, RBAC/세분권한, SSO/MFA/IAM, 접근 로깅·주기 점검(최소권한)
  • 무결성: 백업/복구 전략, 통제 점검·테스트

생성형 AI 보안 스코핑 매트릭스(요약)

  • GenAI 앱을 소유·책임 수준에 따라 5단계로 분류:
    1. 소비자 앱(공개 GenAI 사용) → 소유 낮음
    2. 엔터프라이즈 SaaS 기능 활용(Einstein GPT 등)
    3. 사전학습 모델 활용(Bedrock BM)
    4. 파인튜닝 모델(Bedrock 커스텀, JumpStart)
    5. 직접 학습 모델(SageMaker 훈련) → 소유 높음
  • 단계가 올라갈수록 거버넌스/법·프라이버시/리스크 통제 책임이 커짐.

📝 시험 포인트

  • 파인튜닝 도입 시 데이터 거버넌스·보안·규제 부담 상승.
  • Self-host/Training은 책임·비용·리스크 최대.

------------------------------------------------------------------------

MLOps(머신러닝 운영)

  • 개발→배포→감시→재학습자동·반복
  • 핵심 원칙
    • 버전관리: 데이터/코드/모델 롤백 가능
    • 자동화: 수집·전처리·학습·검증·배포 파이프라인
    • CI: 모델 테스트 자동화
    • CD: 프로덕션 배포 자동화
    • 지속 재학습·모니터링: 드리프트·품질 감시

전형적인 파이프라인

  1. 데이터 준비(ETL/Feature)
  2. 모델 빌드/학습
  3. 평가/선정
  4. 배포(승인·승급)
  5. 모니터링/경보 → 재학습 루프

🧪 AWS 연계 예시

  • SageMaker Pipelines/Model Registry/Model Monitor, EventBridge + CodePipeline/CodeBuild, CloudWatch, Step Functions

Phases of Machine Learning Project


요약 체크리스트(시험 대비)

  • Responsible AI: 공정성·설명가능성·투명성·안전·통제 가능성
  • 거버넌스 체계: 위원회, R&R, 정책, 리뷰/승인, 투명성, 교육
  • 데이터 거버넌스: 라인리지, 레지던시, 품질/보존, 공유/페더레이션
  • 보안: 프롬프트 인젝션 가드레일, 암호화·키관리, 취약점·패치, 인프라 보호
  • 모니터링 지표: Accuracy/Precision/Recall/F1/Latency + 인프라
  • 공유책임: 클라우드 of vs in 보안 구분
  • MLOps: 버전·자동화·CI/CD·재학습·모니터링
  • GenAI 스코프: Pre-trained ↔ Fine-tuned ↔ Self-trained에 따른 책임 증가