일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬 크롤링
- 서평
- 아비투스후기
- 쿵쿵나리
- 파이썬
- Mac 개발자도구
- webtob 설치
- Vue js v-bind:key
- JAVA JDK 다운로드
- 자바
- json
- 자바 툴 추천
- 맥북 사파리 개발자도구
- 웹투비제우스 연동
- 웹투비 설정
- Java
- 웰씽킹 서평
- 이선미
- 웹투비 제우스7
- Mac vue js 설치
- 로컬 세팅
- VUE js 에러
- 도리스 메르틴
- Jeus Webtob
- 제우스 웹투비 세팅
- 맥북 개발자도구 단축키
- Python
- JDK11 설치
- 맥북 vue.js 설치
- 아비투스서평
- Today
- Total
목록IT/cloud (3)
개발일기 정답찾기

Apache Spark란? 분산 클러스터 컴퓨팅 프레임 워크 대용량 데이터를 연산해야 하는 일이 있습니다. 이때 데이터를 여러대의 CPU가 나누어서 각자 맡은 분야를 parallel환경에서 연산하고 마지막에 merge하여 연산을 처리한다면 그 속도는 분산된 수만큼 빠르게 처리가 가능합니다. - Apache Spark는 빅 데이터 워크로드에 주로 사용되는 오픈 소스 분산 처리 시스템 - 빠른 성능을 위해 인 메모리 캐싱과 최적화된 실행을 사용 - 일반 배치 처리, 스트리밍 분석, 기계 학습, 그래프 데이터베이스 및 임시 쿼리를 지원 - 캘리포니아 대학교 버클리 에서 개발된 이후, Apache 재단에서 관리 Apache Spark 특징 1. 빠른 성능 - 데이터 변환에 대한 효율적인 쿼리 계획을 생성 - 입..

유딩동입니다. 프로젝트에서 AWS를 사용하고 있습니다. 매달 꽤나 많은 데이터를 처리해서인지 한달에 50만원 정도의 과금이 진행되고 있습니다. 현재 우리는 많은 데이터를 가지고 있고, 온프레미스(On-premise)에선 오라클로 row base DB를 사용합니다. AWS에서는 현재 column base DB를 사용하기 까지, 조금 정리해 보았습니다. Row Based VS Column Based Row Based : Oracle, PostGreSQL / 장:CRUD 쉬움 / 단:불필요한 데이터까지 모두 봐야함 Column Based : Redshift(Amazon), Cassandra, Hbase(Apache) / 장:필요한 데이터만 빠르게 볼 수 있음 / 단:입력 불편 OLTP VS OLAP Parqu..
안녕하세요, 유딩동입니다. * AWS Glue 란? AWS Glue는 분석, 기계 학습 및 애플리케이션 개발을 위해 데이터를 쉽게 탐색, 준비, 그리고 조합할 수 있도록 지원하는 서버리스 데이터 통합 서비스 * AWS Glue 특징 - 서버리스 (구성, 관리할 리소스 없음) - 통합 데이터 카탈로그 제공 - crawler 통한 자동 스키마 검색 (별도로 Description을 짤 필요 없음) - Scala, Python 코드를 통한 ETL 작업 생성 및 탄력적인 스케줄러 실행 * AWS Glue의 주요 구성 요소 - 데이터 카탈로그(중앙 메타데이터 레포지토리) - ETL 엔진(Scala, Python) - 스케줄러 * AWS Glue 크롤러 1. AWS Glue 크롤러는 데이터 스토어에 연결 2. 데이터..