Databricks Community Edition 계정 생성 및 클러스터 만들기

1. 이 강의에서 필요한 준비 사항

이 강의에 포함된 모든 예제를 따라 하기 위해서는
Databricks Community Edition 계정이 필요합니다.

Databricks Community Edition은:

무료로 제공되는 Databricks 계정이며
Apache Spark를 학습하기에 충분한 환경을 제공합니다

실무에서 사용하는 대규모 클러스터는 아니지만,
Spark의 핵심 개념과 동작 방식을 이해하기에는 충분합니다.

2. Databricks Community Edition 회원 가입

먼저 웹 브라우저를 열고 다음 사이트로 이동합니다.

👉 https://databricks.com

메인 페이지에서:

Try Databricks 버튼을 클릭합니다

그러면 회원 가입(Sign Up) 페이지가 나타납니다.

회원 가입 정보 입력

다음과 같은 기본 정보를 입력합니다.

Company Name (회사명)
- 예: Personal, Self-Study, Learning
Email Address
- 개인 이메일 주소 사용 가능
Role
- 예: Data Engineer, Data Analyst, Student 등
Intended Use
- 학습(Learning) 또는 개인 프로젝트

모든 정보를 입력한 후:

Sign Up 버튼을 클릭합니다

3. Databricks Platform vs Community Edition

회원 가입 과정 중에 두 가지 옵션이 나타납니다.

Databricks Platform (유료)

Microsoft Azure 또는 AWS 기반
멀티 노드 클러스터 사용 가능
실무 및 대규모 데이터 처리에 적합

Databricks Community Edition (무료)

Single-node 클러스터
제한된 리소스 제공
학습 및 실습용으로 적합

이 강의에서는:

✅ Community Edition을 사용합니다

따라서 Get Started 버튼을 클릭합니다.

4. 이메일 인증 및 비밀번호 설정

회원 가입이 완료되면 Databricks에서
이메일 인증 메일을 발송합니다.

다음 사항을 꼭 확인하세요:

받은 편지함(Inbox)
스팸 메일함(Spam)
정크 메일함(Junk)

메일 안에 있는 링크를 클릭하면
비밀번호 설정 페이지로 이동합니다.

비밀번호 설정

비밀번호 설정 페이지에서:

비밀번호 입력
비밀번호 확인 입력
Reset Password 클릭

이제 Databricks 계정이 활성화됩니다.

5. Databricks Community Edition 환경 살펴보기

비밀번호 설정 후 로그인하면
Databricks 웹 기반 프로그래밍 환경에 접속하게 됩니다.

이 환경에서 할 수 있는 일:

Apache Spark 코드 작성
Notebook 생성
클러스터 생성 및 관리

다만 Community Edition은 무료 서비스이기 때문에
강력한 클러스터를 생성할 수는 없습니다.

6. Community Edition에서 클러스터 생성하기

이제 Community Edition에서
Spark 클러스터를 직접 만들어 보겠습니다.

클러스터 생성 방법

왼쪽 메뉴에서 Create Cluster 클릭

클러스터 이름 설정

클러스터를 구분하기 위한 이름을 입력합니다.

예시:

spark-community-cluster

Databricks Runtime Version 선택

다음으로 Databricks Runtime Version을 선택합니다.

기본 설정:

Apache Spark 3.x
Python 3.x

이 기본 설정은:

이 강의의 모든 실습에 충분합니다
따로 변경하지 않아도 됩니다

Community Edition의 리소스 제한

Azure Databricks와 비교하면
Community Edition은 설정 옵션이 매우 제한적입니다.

제공되는 리소스:

메모리: 약 15GB
CPU: 2 Core
Worker Node: ❌ 없음

즉,

Spark Driver
Spark Executors

가 모두 하나의 머신에서 실행됩니다.

이 구조를 Single-node Cluster라고 합니다.

7. 클러스터 생성

모든 설정을 확인한 후:

Create Cluster 버튼 클릭

잠시 후 클러스터가 생성되고 실행됩니다.

8. 클러스터 상태 및 Spark UI 확인

생성된 클러스터를 클릭한 후:

Spark Cluster UI로 이동
Executors 탭 클릭

여기서 확인할 수 있는 내용:

실행 중인 머신: 1대
Driver와 Executor가 동일한 인스턴스에서 실행 중

이는 Community Edition의 특징이며,
실제 멀티 노드 클러스터와의 가장 큰 차이점입니다.

9. Community Edition의 특징 정리

Databricks Community Edition의 특징을 정리하면 다음과 같습니다.

무료 사용 가능
Single-node 클러스터
제한된 메모리와 CPU
학습 및 실습용으로 매우 적합
실무 환경과는 구조적으로 차이가 있음

10. 마무리 및 다음 강의 예고

이제 Databricks Community Edition에서:

계정을 생성하고
Spark 클러스터를 만드는 방법을 배웠습니다

다음 강의에서는:

이 클러스터를 이용해
Apache Spark 코드를 직접 작성하고 실행해 보겠습니다

다음 영상에서 뵙겠습니다.