RDD In Memory Immutable Dependency Narrow Wide Properties Partitions blocks, splits ...
installing beakerx
ipywidgets, QGrid, BeakerX 설치 ipywidgets: notebook에서 slider 같이 user input 받을 수 있는 widget QGrid: interactive한 grid view BeakerX: interactive한 grid view $ conda config --add channels conda-f...
installing jupyter lab on the ubuntu 16.04
Install Anaconda https://www.anaconda.com/download/#linux $ wget https://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.sh $ ./Anaconda3-5.3.0-Linux-x86_64.sh $ source ~/.bashrc Create a ...
nginx + uwsgi + flask로 rest api 개발 시 post method의 request body 유실 케이스
이슈 nginx + uwsgi + flask로 rest api 서버를 구성. spring webflux로 만든 다른 api 서버에서 flask로 post 요청을 보내면 flask app에서는 request body가 보이지 않음. nginx access로그에서는 보임. 특이한 것은 다른 client (예를 들어 postman)에서 같은 명령을 보내면 ...
좋은 TEST CASE를 만드는 법
이번 스프린트에서는 Test Case가 치밀하지 못한 덕에 테스트 및 버그 수정 기간이 예상보다 많이 늘어졌음 Acceptance Criteria를 100% 반영할 것 Exception Handling을 검증할 것 성능이 특히 중요한 경우, Benchmark할 수 있는 Test Case를 추가할 것 기능적으로 문제가 ...
APACHE FLUME VS. LOGSTASH
로그를 Tailing해서 Kafka로 전송하기 위해서 Apache Flume과 Logstash를 검토하다가 Logstash로 결정. 일단 요구사항은 다음과 같았다. Source 로그 파일을 Tailing 해야 함. (즉, 계속 Write하고 있는 파일을 읽어들여야 함) 특정 디렉토리 안에 있는 복수 개의 로그 파일...
데이터 적재 체크 리스트
데이터 엔지니어링의 시작은 데이터를 저장소에 저장하는 것으로 부터 출발한다. 일회성으로 데이터를 적재하는 것이 아니라 지속적으로 생성되는 데이터를 저장 관리해야 한다면 어떤 것들을 먼저 고려해야 할까? 데이터 활용 목적 무엇을 분석하기 위한 데이터인가에 따라 데이터 저장 형태(스키마), 저장 시스템, 관리 체계 등이 달라질 수 있다. 가장 ...
HIVE QUERY의 OUTPUT이 작은 파일로 쪼개지는 경우
MapReduce 처리에 있어서 Input 파일들이 Block 크기 이하로 잘게 쪼개져 있는 경우는 좋지 않다. MapReduce Job에서 Map Task의 개수는 Input의 Block 개수에 의해 결정이 되는데, Block 크기 이하의 파일들이 많으면 그만큼 많은 Mapper가 생성되고, 각 Mapper는 작은량의 데이터만 처리하게 되기 때문이...
FLUME KAFKASINK에서 KAFKA LOG의 PARTITIONING KEY 설정
Flume KafkaSink로 메시지를 Kafka에 쌓아 보았더니, 하나의 Partition에만 로그를 쌓다가 10분 간격으로 Partition이 변경되었다. 이렇게 된 이유는 Kafka에 로그를 쌓을 때 (KeyedMessage) Key를 명시하지 않으면 Kafka가 아래와 같이 Partitioning을 수행하기 때문이다. when the p...
오픈소스 분석 체크 리스트
왜? 어떤 문제를 해결하기 위한 기술인가? 기존 기술의 어떤 문제를 해결하기 위해 나왔는가? 어떻게? *문제를 어떻게 해결하는가? 기존에 유사한 시도는 없었는가? 기존의 유사한 시도가 가지고 있던 한계점은 어떤 것들이 있었나? ...