DATABRICKS-Certified-Developer-3
Databricks Community Edition 계정 생성 및 클러스터 만들기
1. 이 강의에서 필요한 준비 사항
이 강의에 포함된 모든 예제를 따라 하기 위해서는
Databricks Community Edition 계정이 필요합니다.
Databricks Community Edition은:
- 무료로 제공되는 Databricks 계정이며
- Apache Spark를 학습하기에 충분한 환경을 제공합니다
실무에서 사용하는 대규모 클러스터는 아니지만,
Spark의 핵심 개념과 동작 방식을 이해하기에는 충분합니다.
2. Databricks Community Edition 회원 가입
먼저 웹 브라우저를 열고 다음 사이트로 이동합니다.
메인 페이지에서:
- Try Databricks 버튼을 클릭합니다
그러면 회원 가입(Sign Up) 페이지가 나타납니다.
회원 가입 정보 입력
다음과 같은 기본 정보를 입력합니다.
- Company Name (회사명)
- 예:
Personal,Self-Study,Learning
- 예:
- Email Address
- 개인 이메일 주소 사용 가능
- Role
- 예: Data Engineer, Data Analyst, Student 등
- Intended Use
- 학습(Learning) 또는 개인 프로젝트
모든 정보를 입력한 후:
- Sign Up 버튼을 클릭합니다
3. Databricks Platform vs Community Edition
회원 가입 과정 중에 두 가지 옵션이 나타납니다.
Databricks Platform (유료)
- Microsoft Azure 또는 AWS 기반
- 멀티 노드 클러스터 사용 가능
- 실무 및 대규모 데이터 처리에 적합
Databricks Community Edition (무료)
- Single-node 클러스터
- 제한된 리소스 제공
- 학습 및 실습용으로 적합
이 강의에서는:
- ✅ Community Edition을 사용합니다
따라서 Get Started 버튼을 클릭합니다.
4. 이메일 인증 및 비밀번호 설정
회원 가입이 완료되면 Databricks에서
이메일 인증 메일을 발송합니다.
다음 사항을 꼭 확인하세요:
- 받은 편지함(Inbox)
- 스팸 메일함(Spam)
- 정크 메일함(Junk)
메일 안에 있는 링크를 클릭하면
비밀번호 설정 페이지로 이동합니다.
비밀번호 설정
비밀번호 설정 페이지에서:
- 비밀번호 입력
- 비밀번호 확인 입력
- Reset Password 클릭
이제 Databricks 계정이 활성화됩니다.
5. Databricks Community Edition 환경 살펴보기
비밀번호 설정 후 로그인하면
Databricks 웹 기반 프로그래밍 환경에 접속하게 됩니다.
이 환경에서 할 수 있는 일:
- Apache Spark 코드 작성
- Notebook 생성
- 클러스터 생성 및 관리
다만 Community Edition은 무료 서비스이기 때문에
강력한 클러스터를 생성할 수는 없습니다.
6. Community Edition에서 클러스터 생성하기
이제 Community Edition에서
Spark 클러스터를 직접 만들어 보겠습니다.
클러스터 생성 방법
- 왼쪽 메뉴에서 Create Cluster 클릭
클러스터 이름 설정
클러스터를 구분하기 위한 이름을 입력합니다.
예시:
spark-community-cluster
Databricks Runtime Version 선택
다음으로 Databricks Runtime Version을 선택합니다.
기본 설정:
- Apache Spark 3.x
- Python 3.x
이 기본 설정은:
- 이 강의의 모든 실습에 충분합니다
- 따로 변경하지 않아도 됩니다
Community Edition의 리소스 제한
Azure Databricks와 비교하면
Community Edition은 설정 옵션이 매우 제한적입니다.
제공되는 리소스:
- 메모리: 약 15GB
- CPU: 2 Core
- Worker Node: ❌ 없음
즉,
- Spark Driver
- Spark Executors
가 모두 하나의 머신에서 실행됩니다.
이 구조를 Single-node Cluster라고 합니다.
7. 클러스터 생성
모든 설정을 확인한 후:
- Create Cluster 버튼 클릭
잠시 후 클러스터가 생성되고 실행됩니다.
8. 클러스터 상태 및 Spark UI 확인
생성된 클러스터를 클릭한 후:
- Spark Cluster UI로 이동
- Executors 탭 클릭
여기서 확인할 수 있는 내용:
- 실행 중인 머신: 1대
- Driver와 Executor가 동일한 인스턴스에서 실행 중
이는 Community Edition의 특징이며,
실제 멀티 노드 클러스터와의 가장 큰 차이점입니다.
9. Community Edition의 특징 정리
Databricks Community Edition의 특징을 정리하면 다음과 같습니다.
- 무료 사용 가능
- Single-node 클러스터
- 제한된 메모리와 CPU
- 학습 및 실습용으로 매우 적합
- 실무 환경과는 구조적으로 차이가 있음
10. 마무리 및 다음 강의 예고
이제 Databricks Community Edition에서:
- 계정을 생성하고
- Spark 클러스터를 만드는 방법을 배웠습니다
다음 강의에서는:
- 이 클러스터를 이용해
- Apache Spark 코드를 직접 작성하고 실행해 보겠습니다
다음 영상에서 뵙겠습니다.
