개발일기 정답찾기

AWS Glue 개념정리, Crawler - 유딩동 Tistory 본문

IT/cloud

AWS Glue 개념정리, Crawler - 유딩동 Tistory

유딩동 2021. 11. 17. 08:10

안녕하세요, 유딩동입니다.

* AWS Glue 란?
AWS Glue는 분석, 기계 학습 및 애플리케이션 개발을 위해 데이터를 쉽게 탐색, 준비, 그리고 조합할 수 있도록 지원하는 서버리스 데이터 통합 서비스

* AWS Glue 특징
- 서버리스 (구성, 관리할 리소스 없음)
- 통합 데이터 카탈로그 제공
- crawler 통한 자동 스키마 검색 (별도로 Description을 짤 필요 없음)
- Scala, Python 코드를 통한 ETL 작업 생성 및 탄력적인 스케줄러 실행

* AWS Glue의 주요 구성 요소
- 데이터 카탈로그(중앙 메타데이터 레포지토리)
- ETL 엔진(Scala, Python)
- 스케줄러

* AWS Glue 크롤러
1. AWS Glue 크롤러는 데이터 스토어에 연결
2. 데이터 스키마 및 기타 통계를 추출한 후, 해당 메타데이터로 Glue 데이터 카탈로그를 생성
3. 신규 데이터의 가용성과 기존 데이터에 대한 변경 사항, 신규 테이블, 기 테이블에 새로운 파티션, 새로운 테이블 정의 버전을 자동으로 추가

Comments