실습 데이터셋 및 Databricks 노트북 설치하기

1. 이 강의에서 할 일

이 강의에서는 앞으로의 모든 실습을 위해 필요한:

  • 📁 데이터셋(Data files)
  • 📓 Databricks 노트북(Notebooks)

을 Databricks 환경에 설치합니다.

이 과정이 제대로 되지 않으면
👉 이후 강의에서 제공하는 소스 코드가 정상적으로 실행되지 않기 때문에
반드시 차근차근 따라와 주세요.


2. 강의 자료 다운로드 (Zip 파일)

먼저 이 강의의 Resources(자료) 섹션으로 이동합니다.

여기에서 두 개의 zip 파일을 다운로드합니다.

  1. 📓 Notebooks zip 파일
    • 강의에서 사용할 Databricks 노트북들
  2. 📁 Dataset zip 파일
    • 실습에 사용할 데이터 파일들 (JSON, CSV 등)

두 파일 모두 로컬 PC에 다운로드 후 압축을 해제해 주세요.


3. Databricks에 데이터셋 업로드하기

이제 Databricks 환경으로 돌아가서
먼저 데이터 파일을 업로드하겠습니다.

3-1. Data 메뉴로 이동

Databricks 화면의 왼쪽 메뉴에서:

  • Data 클릭
  • Add Data 클릭

3-2. 업로드 폴더 생성 (중요)

파일을 업로드하기 전에
👉 반드시 새로운 폴더를 하나 생성해야 합니다.

이유:

  • 강의에서 제공하는 모든 노트북 코드는
  • 특정 경로를 기준으로 데이터를 읽도록 작성되어 있기 때문입니다

예시 폴더 이름:

  • datasets
  • spark-data
  • course-data

📌 이 폴더 이름은 절대 변경하지 않는 것을 추천합니다.


3-3. 데이터 파일 업로드

이제:

  • 앞에서 압축 해제한 데이터 파일 폴더로 이동
  • 모든 파일을 선택
  • Databricks 업로드 화면으로 드래그 앤 드롭

⚠️ 주의 사항:

  • 파일 업로드가 완료되기 전에 페이지를 닫지 마세요
  • 파일 크기에 따라 시간이 조금 걸릴 수 있습니다

업로드가 완료되면:

  • 각 파일 옆에 초록색 체크(✔) 표시가 나타납니다
  • 하단에 업로드 성공 메시지가 표시됩니다

이제 데이터 업로드는 완료되었습니다.


4. Databricks 노트북 업로드하기

다음으로 Databricks 노트북을 업로드하겠습니다.

4-1. Workspace 메뉴로 이동

왼쪽 메뉴에서:

  • Workspace 클릭

4-2. 노트북 Import

Workspace 화면에서:

  • Workspace 옆의 화살표(▶) 클릭
  • Import 클릭

4-3. 노트북 파일 업로드

이제:

  • 압축 해제한 Notebooks 폴더에서
  • 노트북 파일을 선택
  • Databricks 화면으로 드래그 앤 드롭
  • Import 클릭

이 작업을 하면:

  • Workspace 안에 새 폴더가 생성
  • 이 폴더 안에 강의에서 사용할 모든 노트북이 저장됩니다

5. 첫 번째 노트북 실행 및 확인

이제 모든 것이 제대로 설치되었는지 확인해 보겠습니다.

5-1. DataFrame Basic 노트북 열기

업로드된 노트북 중:

  • DataFrame Basic 노트북을 엽니다

이 노트북은:

  • 이후 강의에서 사용할 데이터의 기본 구조를 확인하는 용도입니다

5-2. 클러스터 연결

노트북 상단에서:

  • Attach to Cluster
  • 앞에서 생성한 클러스터 선택

5-3. 코드 실행 테스트

이제 노트북의 첫 번째 셀을 실행합니다.

이 코드는:

  • 앞에서 업로드한 customer.json 파일을 읽어서
  • Spark DataFrame을 생성합니다

만약:

  • DataFrame이 정상적으로 생성되고
  • 데이터가 출력된다면

👉 데이터와 노트북이 정상적으로 설치된 것입니다 🎉


6. 매우 중요한 주의 사항 (꼭 확인)

📌 데이터 경로는 반드시 동일해야 합니다

  • 데이터 파일을 다른 폴더에 업로드하면
  • 노트북에 작성된 경로와 달라져서
  • 코드가 실행되지 않습니다

따라서:

  • 강의에서 안내한 폴더 위치
  • 폴더 이름
  • 경로 구조

를 그대로 유지해 주세요.


7. 마무리

이제 다음이 모두 완료되었습니다.

✅ 데이터셋 업로드
✅ Databricks 노트북 업로드
✅ Spark DataFrame 정상 생성 확인

이제 실습을 위한 모든 준비가 끝났습니다.

다음 강의에서는:

  • Spark DataFrame을 이용한
  • 실제 데이터 처리와 변환 작업을 시작하겠습니다.

다음 강의에서 뵙겠습니다 😊