DATABRICKS-Fundamentals-2
Databricks 핵심 기능 정리
1. Databricks란 무엇인가?
Databricks는 Apache Spark 위에 구축된 엔터프라이즈급 Lakehouse 플랫폼이다.
단순한 Spark 실행 환경이 아니라, 설계 · 개발 · 운영 · 보안 · 자동화까지 포함한 완성형 데이터 플랫폼이다.
- Data Lake + Data Warehouse = Lakehouse
- Medallion Architecture (Bronze / Silver / Gold) 지원
📌 시험 포인트
- Databricks = Spark 기반 플랫폼
- Spark 단독으로 부족한 기능을 보완
2. Databricks의 핵심 가치
Databricks는 아래 질문에 대한 해답이다.
“Spark로 엔터프라이즈 데이터 플랫폼을 만들려면 무엇이 더 필요한가?”
정답:
- ACID
- Metadata 관리
- 보안
- 클러스터 운영
- 성능 최적화
- 자동화
3. Databricks 주요 기능 (시험 핵심 ⭐⭐⭐)
3.1 Cloud-Native Spark
- Spark를 Hadoop(YARN) 의존 없이 실행
- Cloud 환경에 최적화된 Spark 런타임 제공
📌 시험 포인트
- Databricks Spark = Hadoop 기반 ❌
- Databricks Spark = Cloud Native ⭕
3.2 Secure Cloud Storage Integration
- Cloud Storage와 네이티브 통합
- AWS: S3
- Azure: ADLS Gen2
- GCP: GCS
- IAM / Role 기반 보안 연동
📌 시험 포인트
- Databricks는 스토리지를 소유하지 않음
- Storage는 Cloud Native
3.3 ACID 트랜잭션 – Delta Lake ⭐⭐⭐
- Delta Lake = 오픈소스 스토리지 레이어
- Spark + Delta Lake → ACID 보장
지원 기능:
- Atomicity
- Consistency
- Isolation
- Durability
- Time Travel
- Schema Enforcement / Evolution
📌 시험 포인트
- ACID는 Spark 기본 기능 ❌
- ACID는 Delta Lake 통해 제공 ⭕
3.4 Unity Catalog (Metadata + Security) ⭐⭐⭐
Unity Catalog는 Databricks의 핵심 엔터프라이즈 기능
기능:
- 중앙 메타데이터 관리
- 테이블 / 뷰 / 컬럼 단위 권한
- 사용자 / 그룹 관리
- 감사 로그 (Audit)
📌 시험 포인트
- Unity Catalog = Metadata + Governance + Security
3.5 Cluster Management
- Databricks UI에서 직접:
- 클러스터 생성 / 삭제
- Auto Scaling
- Job Cluster / All-Purpose Cluster
📌 시험 포인트
- Spark 자체는 클러스터 관리 ❌
- Databricks는 클러스터 관리 ⭕
3.6 Photon Query Engine ⭐⭐⭐
- Databricks 전용 Query Acceleration Engine
- Spark SQL / DataFrame 자동 가속
- 설정 ON/OFF만으로 사용 가능
📌 시험 포인트
- Photon = Transparent Acceleration
- SQL 성능 관련 문제 단골
3.7 Notebooks & Workspace
- 통합 개발 환경 (IDE)
- 언어 지원:
- SQL
- Python
- Scala
- R
- Git 연동 지원
📌 시험 포인트
- Databricks Notebook = 협업 중심
3.8 Administration & Security Controls
- Role-Based Access Control (RBAC)
- 정책 기반 접근 제어
- Audit Log
📌 시험 포인트
- 엔터프라이즈 보안 = Databricks 강점
3.9 Optimized Spark Runtime
- Vanilla Spark 대비:
- 성능 최적화
- 메모리 / 쿼리 튜닝
- 동일 코드 → Databricks에서 더 빠름
📌 시험 포인트
- Databricks Runtime ≠ Apache Spark OSS
3.10 Automation Tools
- REST API
- CLI
- SDK
- Terraform 연동
📌 시험 포인트
- Databricks = DevOps 친화적
4. Databricks 지원 Cloud 플랫폼
Databricks는 동일한 기능을 모든 Cloud에서 제공
| Cloud | Databricks 제공 |
|---|---|
| AWS | Databricks on AWS |
| Azure | Azure Databricks |
| GCP | Databricks on GCP |
📌 시험 포인트
- Databricks 기능은 Cloud 간 동일
- 선택 기준은 조직의 Cloud 전략
5. Cloud별 주요 연동 서비스 (시험 단골)
CI/CD
- Azure: Azure DevOps, GitHub
- AWS: CodeBuild, CodePipeline
- GCP: Cloud Build
Data Warehouse
- Azure: Synapse
- AWS: Redshift
- GCP: BigQuery
Streaming
- Azure: Event Hubs
- AWS: Kinesis
- GCP: Pub/Sub
📌 시험 포인트
- Databricks는 Cloud 생태계와 강하게 통합됨
6. Spark vs Databricks (시험 비교 문제)
| 구분 | Spark | Databricks |
|---|---|---|
| ACID | ❌ | ⭕ (Delta) |
| Metadata | 제한적 | Unity Catalog |
| Cluster 관리 | ❌ | ⭕ |
| 성능 | 기본 | Photon |
| Automation | 제한적 | 풍부 |
| Enterprise Ready | ❌ | ⭕ |
7. 시험 한 줄 요약 ⭐⭐⭐
- Databricks = Spark + Delta Lake + Unity Catalog
- ACID는 Delta Lake
- Governance는 Unity Catalog
- 성능은 Photon
- Databricks는 플랫폼, Spark는 엔진
✅ 최종 암기 문장
Databricks는 Apache Spark 기반의 Cloud Native Lakehouse 플랫폼으로,
Delta Lake를 통해 ACID를 제공하고 Unity Catalog를 통해 메타데이터와 보안을 관리한다.
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
