Databricks 핵심 기능 정리

1. Databricks란 무엇인가?

Databricks는 Apache Spark 위에 구축된 엔터프라이즈급 Lakehouse 플랫폼이다.
단순한 Spark 실행 환경이 아니라, 설계 · 개발 · 운영 · 보안 · 자동화까지 포함한 완성형 데이터 플랫폼이다.

Data Lake + Data Warehouse = Lakehouse
Medallion Architecture (Bronze / Silver / Gold) 지원

📌 시험 포인트

Databricks = Spark 기반 플랫폼
Spark 단독으로 부족한 기능을 보완

2. Databricks의 핵심 가치

Databricks는 아래 질문에 대한 해답이다.

“Spark로 엔터프라이즈 데이터 플랫폼을 만들려면 무엇이 더 필요한가?”

정답:

ACID
Metadata 관리
보안
클러스터 운영
성능 최적화
자동화

3. Databricks 주요 기능 (시험 핵심 ⭐⭐⭐)

3.1 Cloud-Native Spark

Spark를 Hadoop(YARN) 의존 없이 실행
Cloud 환경에 최적화된 Spark 런타임 제공

📌 시험 포인트

Databricks Spark = Hadoop 기반 ❌
Databricks Spark = Cloud Native ⭕

3.2 Secure Cloud Storage Integration

Cloud Storage와 네이티브 통합
- AWS: S3
- Azure: ADLS Gen2
- GCP: GCS
IAM / Role 기반 보안 연동

📌 시험 포인트

Databricks는 스토리지를 소유하지 않음
Storage는 Cloud Native

3.3 ACID 트랜잭션 – Delta Lake ⭐⭐⭐

Delta Lake = 오픈소스 스토리지 레이어
Spark + Delta Lake → ACID 보장

지원 기능:

Atomicity
Consistency
Isolation
Durability
Time Travel
Schema Enforcement / Evolution

📌 시험 포인트

ACID는 Spark 기본 기능 ❌
ACID는 Delta Lake 통해 제공 ⭕

3.4 Unity Catalog (Metadata + Security) ⭐⭐⭐

Unity Catalog는 Databricks의 핵심 엔터프라이즈 기능

기능:

중앙 메타데이터 관리
테이블 / 뷰 / 컬럼 단위 권한
사용자 / 그룹 관리
감사 로그 (Audit)

📌 시험 포인트

Unity Catalog = Metadata + Governance + Security

3.5 Cluster Management

Databricks UI에서 직접:
- 클러스터 생성 / 삭제
- Auto Scaling
- Job Cluster / All-Purpose Cluster

📌 시험 포인트

Spark 자체는 클러스터 관리 ❌
Databricks는 클러스터 관리 ⭕

3.6 Photon Query Engine ⭐⭐⭐

Databricks 전용 Query Acceleration Engine
Spark SQL / DataFrame 자동 가속
설정 ON/OFF만으로 사용 가능

📌 시험 포인트

Photon = Transparent Acceleration
SQL 성능 관련 문제 단골

3.7 Notebooks & Workspace

통합 개발 환경 (IDE)
언어 지원:
- SQL
- Python
- Scala
- R
Git 연동 지원

📌 시험 포인트

Databricks Notebook = 협업 중심

3.8 Administration & Security Controls

Role-Based Access Control (RBAC)
정책 기반 접근 제어
Audit Log

📌 시험 포인트

엔터프라이즈 보안 = Databricks 강점

3.9 Optimized Spark Runtime

Vanilla Spark 대비:
- 성능 최적화
- 메모리 / 쿼리 튜닝
동일 코드 → Databricks에서 더 빠름

📌 시험 포인트

Databricks Runtime ≠ Apache Spark OSS

3.10 Automation Tools

REST API
CLI
SDK
Terraform 연동

📌 시험 포인트

Databricks = DevOps 친화적

4. Databricks 지원 Cloud 플랫폼

Databricks는 동일한 기능을 모든 Cloud에서 제공

Cloud	Databricks 제공
AWS	Databricks on AWS
Azure	Azure Databricks
GCP	Databricks on GCP

📌 시험 포인트

Databricks 기능은 Cloud 간 동일
선택 기준은 조직의 Cloud 전략

5. Cloud별 주요 연동 서비스 (시험 단골)

CI/CD

Azure: Azure DevOps, GitHub
AWS: CodeBuild, CodePipeline
GCP: Cloud Build

Data Warehouse

Azure: Synapse
AWS: Redshift
GCP: BigQuery

Streaming

Azure: Event Hubs
AWS: Kinesis
GCP: Pub/Sub

📌 시험 포인트

Databricks는 Cloud 생태계와 강하게 통합됨

6. Spark vs Databricks (시험 비교 문제)

구분	Spark	Databricks
ACID	❌	⭕ (Delta)
Metadata	제한적	Unity Catalog
Cluster 관리	❌	⭕
성능	기본	Photon
Automation	제한적	풍부
Enterprise Ready	❌	⭕

7. 시험 한 줄 요약 ⭐⭐⭐

Databricks = Spark + Delta Lake + Unity Catalog
ACID는 Delta Lake
Governance는 Unity Catalog
성능은 Photon
Databricks는 플랫폼, Spark는 엔진

✅ 최종 암기 문장

Databricks는 Apache Spark 기반의 Cloud Native Lakehouse 플랫폼으로,
Delta Lake를 통해 ACID를 제공하고 Unity Catalog를 통해 메타데이터와 보안을 관리한다.