Databricks Community Edition 계정 생성 및 클러스터 만들기

1. 이 강의에서 필요한 준비 사항

이 강의에 포함된 모든 예제를 따라 하기 위해서는
Databricks Community Edition 계정이 필요합니다.

Databricks Community Edition은:

  • 무료로 제공되는 Databricks 계정이며
  • Apache Spark를 학습하기에 충분한 환경을 제공합니다

실무에서 사용하는 대규모 클러스터는 아니지만,
Spark의 핵심 개념과 동작 방식을 이해하기에는 충분합니다.


2. Databricks Community Edition 회원 가입

먼저 웹 브라우저를 열고 다음 사이트로 이동합니다.

👉 https://databricks.com

메인 페이지에서:

  • Try Databricks 버튼을 클릭합니다

그러면 회원 가입(Sign Up) 페이지가 나타납니다.


회원 가입 정보 입력

다음과 같은 기본 정보를 입력합니다.

  • Company Name (회사명)
    • 예: Personal, Self-Study, Learning
  • Email Address
    • 개인 이메일 주소 사용 가능
  • Role
    • 예: Data Engineer, Data Analyst, Student 등
  • Intended Use
    • 학습(Learning) 또는 개인 프로젝트

모든 정보를 입력한 후:

  • Sign Up 버튼을 클릭합니다

3. Databricks Platform vs Community Edition

회원 가입 과정 중에 두 가지 옵션이 나타납니다.

Databricks Platform (유료)

  • Microsoft Azure 또는 AWS 기반
  • 멀티 노드 클러스터 사용 가능
  • 실무 및 대규모 데이터 처리에 적합

Databricks Community Edition (무료)

  • Single-node 클러스터
  • 제한된 리소스 제공
  • 학습 및 실습용으로 적합

이 강의에서는:

  • Community Edition을 사용합니다

따라서 Get Started 버튼을 클릭합니다.


4. 이메일 인증 및 비밀번호 설정

회원 가입이 완료되면 Databricks에서
이메일 인증 메일을 발송합니다.

다음 사항을 꼭 확인하세요:

  • 받은 편지함(Inbox)
  • 스팸 메일함(Spam)
  • 정크 메일함(Junk)

메일 안에 있는 링크를 클릭하면
비밀번호 설정 페이지로 이동합니다.


비밀번호 설정

비밀번호 설정 페이지에서:

  • 비밀번호 입력
  • 비밀번호 확인 입력
  • Reset Password 클릭

이제 Databricks 계정이 활성화됩니다.


5. Databricks Community Edition 환경 살펴보기

비밀번호 설정 후 로그인하면
Databricks 웹 기반 프로그래밍 환경에 접속하게 됩니다.

이 환경에서 할 수 있는 일:

  • Apache Spark 코드 작성
  • Notebook 생성
  • 클러스터 생성 및 관리

다만 Community Edition은 무료 서비스이기 때문에
강력한 클러스터를 생성할 수는 없습니다.


6. Community Edition에서 클러스터 생성하기

이제 Community Edition에서
Spark 클러스터를 직접 만들어 보겠습니다.

클러스터 생성 방법

  • 왼쪽 메뉴에서 Create Cluster 클릭

클러스터 이름 설정

클러스터를 구분하기 위한 이름을 입력합니다.

예시:

  • spark-community-cluster

Databricks Runtime Version 선택

다음으로 Databricks Runtime Version을 선택합니다.

기본 설정:

  • Apache Spark 3.x
  • Python 3.x

이 기본 설정은:

  • 이 강의의 모든 실습에 충분합니다
  • 따로 변경하지 않아도 됩니다

Community Edition의 리소스 제한

Azure Databricks와 비교하면
Community Edition은 설정 옵션이 매우 제한적입니다.

제공되는 리소스:

  • 메모리: 약 15GB
  • CPU: 2 Core
  • Worker Node: ❌ 없음

즉,

  • Spark Driver
  • Spark Executors

모두 하나의 머신에서 실행됩니다.

이 구조를 Single-node Cluster라고 합니다.


7. 클러스터 생성

모든 설정을 확인한 후:

  • Create Cluster 버튼 클릭

잠시 후 클러스터가 생성되고 실행됩니다.


8. 클러스터 상태 및 Spark UI 확인

생성된 클러스터를 클릭한 후:

  • Spark Cluster UI로 이동
  • Executors 탭 클릭

여기서 확인할 수 있는 내용:

  • 실행 중인 머신: 1대
  • Driver와 Executor가 동일한 인스턴스에서 실행 중

이는 Community Edition의 특징이며,
실제 멀티 노드 클러스터와의 가장 큰 차이점입니다.


9. Community Edition의 특징 정리

Databricks Community Edition의 특징을 정리하면 다음과 같습니다.

  • 무료 사용 가능
  • Single-node 클러스터
  • 제한된 메모리와 CPU
  • 학습 및 실습용으로 매우 적합
  • 실무 환경과는 구조적으로 차이가 있음

10. 마무리 및 다음 강의 예고

이제 Databricks Community Edition에서:

  • 계정을 생성하고
  • Spark 클러스터를 만드는 방법을 배웠습니다

다음 강의에서는:

  • 이 클러스터를 이용해
  • Apache Spark 코드를 직접 작성하고 실행해 보겠습니다

다음 영상에서 뵙겠습니다.