데이터 적재 체크 리스트

데이터 엔지니어링의 시작은 데이터를 저장소에 저장하는 것으로 부터 출발한다. 일회성으로 데이터를 적재하는 것이 아니라 지속적으로 생성되는 데이터를 저장 관리해야 한다면 어떤 것들을 먼저 고려해야 할까?

데이터 활용 목적

적재 폴더/파일명 규칙
- 데이터의 기준 일자를 폴더, 파일명에 반영
- 하나의 파일 = 하나의 테이블 하나의 파일 = 당일 적재 분량 파일 용량이 너무 큰 경우에는 파일 분리, 같은 폴더에 저장
- 나머지는 비즈니스에 맞게 적용
파일 인코딩 (한글 사용 유의) : UTF-8
스키마 모델링 반영

데이터 타입 결정
- string, int, double, big decimal, timestamp …
- 우리 플랫폼이 수용할 수 있는 데이터인가?
데이터 포맷 결정
- 우리 플랫폼이 활용할 수 있는 데이터 형태인가?
- 일자(2015-01-15) –> Timezone 유의!
- 시간(14:21:30)
- 금액 표기법 (콤마 사용 여부)
Hive
- managed / external
- partition column
  - 데이터의 기준 일자 혹은 데이터의 분산 기준
- 데이터 재적재 주기/주체에 따라 partition column을 만들어야 함. partition이 재적재 시 Overwrite의 범위를 결정 지음.