avatar
Articles
117
Tags
37
Categories
13
Home
About
Tech
Showcase
Resume
Danny's Blog
Home
About
Tech
Showcase
Resume

Danny's Blog

DATABRICKS-Certified-Developer-6
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
DataFrame Schema 정의 방법 이해하기DataFrame은 각 컬럼의 이름(Name) 과 데이터 타입(Data Type) 을 정의하는Schema를 가지고 있습니다. DataFrame의 Schema를 확인하려면 printSchema 메서드를 사용합니다. 1customerDF.printSchema() 이 명령을 실행하면 DataFrame의 Schema가사람이 읽기 쉬운 형태로 출력됩니다. 1. 왜 Schema를 직접 정의해야 할까?예를 들어, 데이터 파일을 보면 address_id 컬럼의 값은 크지 않습니다.하지만 Spark는 자동으로 이를 Long 타입으로 인식할 수 있습니다. 이 경우: Long 타입은 불필요하게 큰 타입이고 Integer 타입으로 충분한 상황입니다 따라서 Schema를 직접 정의하여 데이터 타입을 정확히 지정하는 것이 좋습니다. 2. Schema를 정의하는 첫 번째 방법: DDL 문자열 방식DataFrame Schema를 정의하는 첫 번째 방...
DATABRICKS-Certified-Developer-5
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
Spark DataFrame 기초 실습 시작하기1. 실습 시작 전 확인 사항 (매우 중요)본격적으로 실습을 시작하기 전에, 두 가지를 반드시 확인해야 합니다. ✅ 1) 데이터셋이 정상적으로 설치되었는지 확인Databricks 환경의 왼쪽 메뉴에서 다음 순서로 이동합니다. Data 클릭 Add Data DBFS (Databricks File System) FileStore Tables 이전 강의에서 생성한 데이터 폴더 이 경로에서: 이전 강의에서 업로드한 모든 데이터 파일이 보인다면👉 데이터셋은 정상적으로 설치된 것입니다. ✅ 2) 클러스터가 실행 중인지 확인Apache Spark는 클러스터 없이는 아무 작업도 할 수 없습니다. Community Edition에서는: 동시에 하나의 클러스터만 실행 가능합니다. 클러스터가 없다면: Create Cluster 클릭 클러스터 이름 입력 Create Cluster 클릭 자세한 클러스터 생성 방법은👉 이전 강의 영상을 ...
DATABRICKS-Certified-Developer-4
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
실습 데이터셋 및 Databricks 노트북 설치하기1. 이 강의에서 할 일이 강의에서는 앞으로의 모든 실습을 위해 필요한: 📁 데이터셋(Data files) 📓 Databricks 노트북(Notebooks) 을 Databricks 환경에 설치합니다. 이 과정이 제대로 되지 않으면👉 이후 강의에서 제공하는 소스 코드가 정상적으로 실행되지 않기 때문에반드시 차근차근 따라와 주세요. 2. 강의 자료 다운로드 (Zip 파일)먼저 이 강의의 Resources(자료) 섹션으로 이동합니다. 여기에서 두 개의 zip 파일을 다운로드합니다. 📓 Notebooks zip 파일 강의에서 사용할 Databricks 노트북들 📁 Dataset zip 파일 실습에 사용할 데이터 파일들 (JSON, CSV 등) 두 파일 모두 로컬 PC에 다운로드 후 압축을 해제해 주세요. 3. Databricks에 데이터셋 업로드하기이제 Databricks 환경으로 돌아가서먼저 데이터 파일을...
DATABRICKS-Certified-Developer-3
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
Databricks Community Edition 계정 생성 및 클러스터 만들기1. 이 강의에서 필요한 준비 사항이 강의에 포함된 모든 예제를 따라 하기 위해서는Databricks Community Edition 계정이 필요합니다. Databricks Community Edition은: 무료로 제공되는 Databricks 계정이며 Apache Spark를 학습하기에 충분한 환경을 제공합니다 실무에서 사용하는 대규모 클러스터는 아니지만,Spark의 핵심 개념과 동작 방식을 이해하기에는 충분합니다. 2. Databricks Community Edition 회원 가입먼저 웹 브라우저를 열고 다음 사이트로 이동합니다. 👉 https://databricks.com 메인 페이지에서: Try Databricks 버튼을 클릭합니다 그러면 회원 가입(Sign Up) 페이지가 나타납니다. 회원 가입 정보 입력다음과 같은 기본 정보를 입력합니다. Company Name (회사명) ...
DATABRICKS-Certified-Developer-2
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
Azure Databricks에서 Apache Spark 클러스터 생성하기1. 이 강의에서 배울 내용이 영상에서는 Apache Spark를 실행하기 위한 Databricks 클러스터를 생성하는 방법을 살펴보겠습니다.구체적으로는 다음 내용을 다룹니다. Azure Databricks 워크스페이스 생성 Databricks 환경 실행 Spark 클러스터 생성 클러스터 주요 설정 옵션 이해 클러스터 상태 및 Spark UI 확인 Spark는 클러스터 없이 실행될 수 없기 때문에,이 단계는 이후 모든 실습의 기초가 되는 매우 중요한 과정입니다. 2. Azure Databricks 워크스페이스 생성먼저 Azure Portal에서 시작합니다. 이미 Azure 계정이 있다면: Azure Portal에 로그인 상단 검색창에서 Databricks 검색 Azure Databricks 선택 만약 바로 보이지 않으면 검색창에Databricks 라고 입력하면 쉽게 찾을 수 있습니다. Azure ...
DATABRICKS-Certified-Developer-1
Created2025-12-18|CERTIFICATIONDATABRICKS_CERTIFIED_DEVELOPER
Apache Spark Cluster Architecture – Easy Explanation1. Computing on a Single Computer먼저, 하나의 컴퓨터에서 컴퓨팅이 어떻게 이루어지는지 살펴보겠습니다. 하나의 컴퓨터에는 다음과 같은 컴퓨팅 자원이 있습니다. CPU: 연산을 수행 Memory (RAM): 실행 중인 데이터 저장 GPU: 대규모 병렬 연산 (필요한 경우) 이 모든 자원은 운영체제(OS) 가 관리합니다. Operating System의 역할운영체제는 여러 애플리케이션이 동시에 실행될 때: CPU와 메모리를 어떻게 나눠 쓸지 결정하고 각 애플리케이션의 자원 사용을 스케줄링합니다 덕분에 여러 프로그램이 동시에 실행되어도 시스템이 안정적으로 동작합니다. 2. Why Single Computer Is Not Enough for Big Data빅데이터를 처리하려면 다음과 같은 문제가 발생합니다. 데이터 크기가 너무 큼 연산량이 많음 처리 시간이 ...
DATABRICKS-Fundamentals-5
Created2025-12-12|CERTIFICATIONDATABRICKS_FUNDAMENTALS
1. 오늘 강의에서 다룰 질문 3가지여러분, Databricks 워크스페이스를 만들면 “웹에서 접속하는 화면”은 바로 보이죠.그런데 수업을 하거나 실무에서 설명할 때는 아래 3가지 질문을 꼭 답할 수 있어야 합니다. Databricks는 Azure 어디에 설치되나요? 노트북/잡/클러스터/데이터는 각각 어디에 있나요? 왜 굳이 Control Plane / Data Plane으로 나누나요? 이 3가지를 이해하면, Databricks가 “그냥 웹앱”이 아니라 클라우드 네이티브 데이터 플랫폼이라는 게 보입니다. 2. 큰 그림: Control Plane vs Data Plane2.1 한 문장 요약 Control Plane(컨트롤 플레인): Databricks가 제공하는 “관리/제어” 영역 (UI, 노트북/잡/클러스터 설정 등) Data Plane(데이터 플레인): 고객(Azure 구독) 안에서 실제로 돈이 나가는 “실행...
DATABRICKS-Fundamentals-4
Created2025-12-12|CERTIFICATIONDATABRICKS_FUNDAMENTALS
1. Databricks Workspace란?Databricks Workspace는👉 Databricks 플랫폼을 사용하는 모든 작업의 출발점입니다. 코드 작성 (Notebook) 데이터 처리 (Spark / SQL) 클러스터 생성 및 관리 워크플로우(Job) 생성 데이터 거버넌스, ML, SQL 분석 👉 Databricks에서 하는 모든 작업은 Workspace에서 시작합니다. 2. Workspace 홈 화면 개요상단(Home) 영역 최근 사용한 항목 (Recent) 즐겨찾기 (Favorites) 빠른 시작용 바로가기 강의 팁👉 초반에는 거의 사용하지 않음👉 실제 작업은 왼쪽 메뉴가 핵심 3. 왼쪽 메뉴 (Left Navigation Bar)메뉴 확장/축소 기본은 축소 상태일 수 있음 마우스를 가져가면 자동 확장 ⚙️ 강의 시에는 항상 확장 상태 추천 4. Workspace 메뉴 (가장 중요 ⭐)역할👉 코드와 파일이 저장되는 공간 구...
DATABRICKS-Fundamentals-3
Created2025-12-12|CERTIFICATIONDATABRICKS_FUNDAMENTALS
1. Azure Free Account 생성Azure Free Account 혜택 💳 $200 크레딧 (30일) 🆓 인기 Azure 서비스 12개월 무료 🆓 40개 이상 Always Free 서비스 ⚠️ 주의$200 크레딧은 30일 후 소멸→ 실습은 가급적 한 달 내에 완료 권장 계정 생성 절차 요약 https://azure.microsoft.com 접속 Start free 클릭 Microsoft 계정 로그인 또는 신규 생성 이메일 + 휴대폰 인증 주소 입력 Visa / MasterCard 카드 등록 소액 인증만 발생 자동 과금 ❌ (수동 업그레이드 전까지) 2. Azure Portal 기본 사용법Azure Portal 접속 https://portal.azure.com 주요 구성 요소 🔍 Search Bar: 모든 Azure 서비스 검색 📁 Resource Group: 리소스 묶음 관리 💻 Cloud Shell: Browser 기반 Bash &...
DATABRICKS-Fundamentals-2
Created2025-12-12|CERTIFICATIONDATABRICKS_FUNDAMENTALS
Databricks 핵심 기능 정리1. Databricks란 무엇인가?Databricks는 Apache Spark 위에 구축된 엔터프라이즈급 Lakehouse 플랫폼이다.단순한 Spark 실행 환경이 아니라, 설계 · 개발 · 운영 · 보안 · 자동화까지 포함한 완성형 데이터 플랫폼이다. Data Lake + Data Warehouse = Lakehouse Medallion Architecture (Bronze / Silver / Gold) 지원 📌 시험 포인트 Databricks = Spark 기반 플랫폼 Spark 단독으로 부족한 기능을 보완 2. Databricks의 핵심 가치Databricks는 아래 질문에 대한 해답이다. “Spark로 엔터프라이즈 데이터 플랫폼을 만들려면 무엇이 더 필요한가?” 정답: ACID Metadata 관리 보안 클러스터 운영 성능 최적화 자동화 3. Databricks 주요 기능 (시험 ...
12…12
avatar
Danny Ki
A data engineer's journey in coding, analytics, and building real-world systems.
Articles
117
Tags
37
Categories
13
Follow Me
Announcement
This is my Blog
Recent Posts
DATABRICKS-Certified-Developer-62025-12-18
DATABRICKS-Certified-Developer-52025-12-18
DATABRICKS-Certified-Developer-42025-12-18
DATABRICKS-Certified-Developer-32025-12-18
DATABRICKS-Certified-Developer-22025-12-18
Categories
  • CERTIFICATION99
    • AWS_AI_PRACTITIONER41
    • AWS_AI_PRACTITIONER_KR41
    • AWS_ML_ASSOCIATE_KR6
    • DATABRICKS_CERTIFIED_DEVELOPER6
    • DATABRICKS_FUNDAMENTALS5
  • DEV7
    • ALGORITHM5
Tags
INTERVIEW NLP Machine Learning Computer Vision DATABRICKS_CERTIFIED_DEVELOPER KOREAN PostgreSQL Quick Sort Kaggle AWS DP Elasticsearch Deep Learning LEETCODE Apache_Flink Insertion Sort Python Grafana MLflow Databricks AWS_AI_PRACTITIONER TERADATA PYTHON DATABRICKS_FUNDAMENTALS OpenAI SQL Swift Kafka XGBoost Dynamic Programming Selection Sort Apache Spark Sorting AWS_ML_ASSOCIATE DATABRICKS Regression Bubble Sort
Archives
  • December 2025 15
  • September 2025 29
  • August 2025 66
  • July 2025 7
Website Info
Article Count :
117
Unique Visitors :
Page Views :
Last Update :
© 2025 By Danny KiFramework Hexo 7.3.0|Theme Butterfly 5.4.3