Databricks 핵심 기능 정리

1. Databricks란 무엇인가?

Databricks는 Apache Spark 위에 구축된 엔터프라이즈급 Lakehouse 플랫폼이다.
단순한 Spark 실행 환경이 아니라, 설계 · 개발 · 운영 · 보안 · 자동화까지 포함한 완성형 데이터 플랫폼이다.

  • Data Lake + Data Warehouse = Lakehouse
  • Medallion Architecture (Bronze / Silver / Gold) 지원

📌 시험 포인트

  • Databricks = Spark 기반 플랫폼
  • Spark 단독으로 부족한 기능을 보완

2. Databricks의 핵심 가치

Databricks는 아래 질문에 대한 해답이다.

“Spark로 엔터프라이즈 데이터 플랫폼을 만들려면 무엇이 더 필요한가?”

정답:

  • ACID
  • Metadata 관리
  • 보안
  • 클러스터 운영
  • 성능 최적화
  • 자동화

3. Databricks 주요 기능 (시험 핵심 ⭐⭐⭐)

3.1 Cloud-Native Spark

  • Spark를 Hadoop(YARN) 의존 없이 실행
  • Cloud 환경에 최적화된 Spark 런타임 제공

📌 시험 포인트

  • Databricks Spark = Hadoop 기반 ❌
  • Databricks Spark = Cloud Native ⭕

3.2 Secure Cloud Storage Integration

  • Cloud Storage와 네이티브 통합
    • AWS: S3
    • Azure: ADLS Gen2
    • GCP: GCS
  • IAM / Role 기반 보안 연동

📌 시험 포인트

  • Databricks는 스토리지를 소유하지 않음
  • Storage는 Cloud Native

3.3 ACID 트랜잭션 – Delta Lake ⭐⭐⭐

  • Delta Lake = 오픈소스 스토리지 레이어
  • Spark + Delta Lake → ACID 보장

지원 기능:

  • Atomicity
  • Consistency
  • Isolation
  • Durability
  • Time Travel
  • Schema Enforcement / Evolution

📌 시험 포인트

  • ACID는 Spark 기본 기능 ❌
  • ACID는 Delta Lake 통해 제공

3.4 Unity Catalog (Metadata + Security) ⭐⭐⭐

Unity Catalog는 Databricks의 핵심 엔터프라이즈 기능

기능:

  • 중앙 메타데이터 관리
  • 테이블 / 뷰 / 컬럼 단위 권한
  • 사용자 / 그룹 관리
  • 감사 로그 (Audit)

📌 시험 포인트

  • Unity Catalog = Metadata + Governance + Security

3.5 Cluster Management

  • Databricks UI에서 직접:
    • 클러스터 생성 / 삭제
    • Auto Scaling
    • Job Cluster / All-Purpose Cluster

📌 시험 포인트

  • Spark 자체는 클러스터 관리 ❌
  • Databricks는 클러스터 관리 ⭕

3.6 Photon Query Engine ⭐⭐⭐

  • Databricks 전용 Query Acceleration Engine
  • Spark SQL / DataFrame 자동 가속
  • 설정 ON/OFF만으로 사용 가능

📌 시험 포인트

  • Photon = Transparent Acceleration
  • SQL 성능 관련 문제 단골

3.7 Notebooks & Workspace

  • 통합 개발 환경 (IDE)
  • 언어 지원:
    • SQL
    • Python
    • Scala
    • R
  • Git 연동 지원

📌 시험 포인트

  • Databricks Notebook = 협업 중심

3.8 Administration & Security Controls

  • Role-Based Access Control (RBAC)
  • 정책 기반 접근 제어
  • Audit Log

📌 시험 포인트

  • 엔터프라이즈 보안 = Databricks 강점

3.9 Optimized Spark Runtime

  • Vanilla Spark 대비:
    • 성능 최적화
    • 메모리 / 쿼리 튜닝
  • 동일 코드 → Databricks에서 더 빠름

📌 시험 포인트

  • Databricks Runtime ≠ Apache Spark OSS

3.10 Automation Tools

  • REST API
  • CLI
  • SDK
  • Terraform 연동

📌 시험 포인트

  • Databricks = DevOps 친화적

4. Databricks 지원 Cloud 플랫폼

Databricks는 동일한 기능을 모든 Cloud에서 제공

Cloud Databricks 제공
AWS Databricks on AWS
Azure Azure Databricks
GCP Databricks on GCP

📌 시험 포인트

  • Databricks 기능은 Cloud 간 동일
  • 선택 기준은 조직의 Cloud 전략

5. Cloud별 주요 연동 서비스 (시험 단골)

CI/CD

  • Azure: Azure DevOps, GitHub
  • AWS: CodeBuild, CodePipeline
  • GCP: Cloud Build

Data Warehouse

  • Azure: Synapse
  • AWS: Redshift
  • GCP: BigQuery

Streaming

  • Azure: Event Hubs
  • AWS: Kinesis
  • GCP: Pub/Sub

📌 시험 포인트

  • Databricks는 Cloud 생태계와 강하게 통합됨

6. Spark vs Databricks (시험 비교 문제)

구분 Spark Databricks
ACID ⭕ (Delta)
Metadata 제한적 Unity Catalog
Cluster 관리
성능 기본 Photon
Automation 제한적 풍부
Enterprise Ready

7. 시험 한 줄 요약 ⭐⭐⭐

  • Databricks = Spark + Delta Lake + Unity Catalog
  • ACID는 Delta Lake
  • Governance는 Unity Catalog
  • 성능은 Photon
  • Databricks는 플랫폼, Spark는 엔진

✅ 최종 암기 문장

Databricks는 Apache Spark 기반의 Cloud Native Lakehouse 플랫폼으로,
Delta Lake를 통해 ACID를 제공하고 Unity Catalog를 통해 메타데이터와 보안을 관리한다.