Interview_Q&A_1

나의 소개

Thank you for having me for an interview and my name is Sunghwan ki but you can go by Danny I work as Data Engineer with 6 years experience in building ETL process, especially in the financial industry. Currently I lead the projects that use the Kafka, Oracle, and Spark where I focus on near real-time data processing and optimization. I primarily use Python to build data pipelines, and recently, I completed on a project where I built a data warehouse using AWS Glue and Redshift. Before joining PNC, I spent roughly seven years working in data analytics, where I primarily used Tableau and MySql to analyze the data

To better performance, I completed the Master’s degree in Data Science last year and also I hold the AWS certifications and continue to pursue additional cloud-related credentials to further strengthen my expertise

내 소개 및 전반적인 질문

데이터 품질과 보안

기술 내용

행동 규정

ETL / 오케스트레이션

데이터 웨어하우스

파이썬/스파크/하둡

나의 소개

왜 이직하니?

보잉이란 그리고 지원동기

Recent project (최근 프로젝트)

이슈 - 데이터 볼륨증가 3~4TB

이슈 - 스키마 변경

데이터 웨어하우스 설계 (e.g. Amazon Redshift, Snowflake 사용경험)

데이터 웨어하우스 지연속도 문제 및 해결

데이터 정규화와 비정규화의 차이점

Star & Snowflake 스키마 (데이터 웨어하우스에서 스타 스키마 사용)

데이터 품질관리 - 여러포인트 검증 & good data

ETL (오케스트레이션) 설계 - CA7와 Glue 이용

기술 내용

Alteryx 사용기간 및 경험

테라데이터 사용기간 및 경험

테라데이터 문제해결

테라데이터가 높은 성능을 발휘할수 있는 이유

테라데이터의 Primary Index (PI) 역할

테라데이터 데이터 불균형을 어떻게 해결?

테라데이터의 Secondary Index 이란

Teradata 파티션

Alteryx와 Teradata 사용

Neo4J 관련해서

여러 민족 같이 근무 - sync 미팅, 미팅요약

다른 팀 협업 - 용어 통일

타이트한 스케줄 & 압박 - 일 나누고 대화, 트랙

품질과 보안 내용

데이터 품질관리 - 유닛테스트

품질 문제 - 통화단위 에러

보안과 규정 (AWS, Azure)

행동 면접 질문

매니저가 부재시 결정해야할 경우

팀원 의견 다름 - SLA 20분 지연 - 품질해결

상사 의견 다름 - refresh only 변경된 파티션만

다른 성향의 사람과 협동

팀동료 성공시키기

급한일과 중요한일의 우선순위 - 급한것 먼저

기술 문제 도전 - 1.5TB 처리

개선 사례 - 큰 데이터 처리 (위 동일)

생산 문제 - 커넥트 Stop

자발적 프로세스 개선 - 커넥트 Stop

Kafka 실시간 데이터에서 고려할 부분 - 커넥트 상태확인

실패,실수 - 컬럼검증X, 통화단위 에러

프로젝트 지연 - 스키마 변경

팀 리드 & 솔선 - 소스 입력 안됨

리더싶 사례 - data type mismatch

지시받지않은 일 - add load_date / 상사와 의견이 맞지 안음사례와 동일

고객이 마지막에 변경요청시 - 스키마변경

고객이 자주 변경사항을 요청할때 - 요청을 그룹핑함

비개발자에게 기술적인 내용을 쉽게 설명할 수 있나요?

이슈 - Spark memory 문제

ETL pipeline 최적화 - SLA 6시로 맞추기

AWS Glue 사용경험 - ETL services

현재 glue를 사용하지는 않는다.

Redshift 란?

Redshift Columnar Storage

스노우플레이크 장점 (zero-copy cloning and time travel)

Databricks 사용경험 - Anomaly detection

파티션 전략 (Spark, Redshift, Snowflake)

데이터 모델링 & Architecture - 오라클 range partitioning

Python, SQL, Spark, and PySpark

경험 - 스파크/하둡 데이터 ingestion

경험 - AWS 많이 사용했니?

장점과 단점

스트레스를 어떻게 풉니까?

삶의 모토는?

파워텍에서 머신러닝 모델 사용

마지막으로 하고 싶은 말

파이썬 타입비교