DATABRICKS-Certified-Developer-4
실습 데이터셋 및 Databricks 노트북 설치하기
1. 이 강의에서 할 일
이 강의에서는 앞으로의 모든 실습을 위해 필요한:
- 📁 데이터셋(Data files)
- 📓 Databricks 노트북(Notebooks)
을 Databricks 환경에 설치합니다.
이 과정이 제대로 되지 않으면
👉 이후 강의에서 제공하는 소스 코드가 정상적으로 실행되지 않기 때문에
반드시 차근차근 따라와 주세요.
2. 강의 자료 다운로드 (Zip 파일)
먼저 이 강의의 Resources(자료) 섹션으로 이동합니다.
여기에서 두 개의 zip 파일을 다운로드합니다.
- 📓 Notebooks zip 파일
- 강의에서 사용할 Databricks 노트북들
- 📁 Dataset zip 파일
- 실습에 사용할 데이터 파일들 (JSON, CSV 등)
두 파일 모두 로컬 PC에 다운로드 후 압축을 해제해 주세요.
3. Databricks에 데이터셋 업로드하기
이제 Databricks 환경으로 돌아가서
먼저 데이터 파일을 업로드하겠습니다.
3-1. Data 메뉴로 이동
Databricks 화면의 왼쪽 메뉴에서:
- Data 클릭
- Add Data 클릭
3-2. 업로드 폴더 생성 (중요)
파일을 업로드하기 전에
👉 반드시 새로운 폴더를 하나 생성해야 합니다.
이유:
- 강의에서 제공하는 모든 노트북 코드는
- 특정 경로를 기준으로 데이터를 읽도록 작성되어 있기 때문입니다
예시 폴더 이름:
datasetsspark-datacourse-data
📌 이 폴더 이름은 절대 변경하지 않는 것을 추천합니다.
3-3. 데이터 파일 업로드
이제:
- 앞에서 압축 해제한 데이터 파일 폴더로 이동
- 모든 파일을 선택
- Databricks 업로드 화면으로 드래그 앤 드롭
⚠️ 주의 사항:
- 파일 업로드가 완료되기 전에 페이지를 닫지 마세요
- 파일 크기에 따라 시간이 조금 걸릴 수 있습니다
업로드가 완료되면:
- 각 파일 옆에 초록색 체크(✔) 표시가 나타납니다
- 하단에 업로드 성공 메시지가 표시됩니다
이제 데이터 업로드는 완료되었습니다.
4. Databricks 노트북 업로드하기
다음으로 Databricks 노트북을 업로드하겠습니다.
4-1. Workspace 메뉴로 이동
왼쪽 메뉴에서:
- Workspace 클릭
4-2. 노트북 Import
Workspace 화면에서:
- Workspace 옆의 화살표(▶) 클릭
- Import 클릭
4-3. 노트북 파일 업로드
이제:
- 압축 해제한 Notebooks 폴더에서
- 노트북 파일을 선택
- Databricks 화면으로 드래그 앤 드롭
- Import 클릭
이 작업을 하면:
- Workspace 안에 새 폴더가 생성
- 이 폴더 안에 강의에서 사용할 모든 노트북이 저장됩니다
5. 첫 번째 노트북 실행 및 확인
이제 모든 것이 제대로 설치되었는지 확인해 보겠습니다.
5-1. DataFrame Basic 노트북 열기
업로드된 노트북 중:
- DataFrame Basic 노트북을 엽니다
이 노트북은:
- 이후 강의에서 사용할 데이터의 기본 구조를 확인하는 용도입니다
5-2. 클러스터 연결
노트북 상단에서:
- Attach to Cluster
- 앞에서 생성한 클러스터 선택
5-3. 코드 실행 테스트
이제 노트북의 첫 번째 셀을 실행합니다.
이 코드는:
- 앞에서 업로드한 customer.json 파일을 읽어서
- Spark DataFrame을 생성합니다
만약:
- DataFrame이 정상적으로 생성되고
- 데이터가 출력된다면
👉 데이터와 노트북이 정상적으로 설치된 것입니다 🎉
6. 매우 중요한 주의 사항 (꼭 확인)
📌 데이터 경로는 반드시 동일해야 합니다
- 데이터 파일을 다른 폴더에 업로드하면
- 노트북에 작성된 경로와 달라져서
- 코드가 실행되지 않습니다
따라서:
- 강의에서 안내한 폴더 위치
- 폴더 이름
- 경로 구조
를 그대로 유지해 주세요.
7. 마무리
이제 다음이 모두 완료되었습니다.
✅ 데이터셋 업로드
✅ Databricks 노트북 업로드
✅ Spark DataFrame 정상 생성 확인
이제 실습을 위한 모든 준비가 끝났습니다.
다음 강의에서는:
- Spark DataFrame을 이용한
- 실제 데이터 처리와 변환 작업을 시작하겠습니다.
다음 강의에서 뵙겠습니다 😊
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
