작년에 제안해서 준비해오던 프로젝트가 드디어 조금씩 진행되고 있다. 프로젝트의 방향성을 정하고 만들 data product의 세부적인 방향, 기준에 대해 정의하기 위해 10여명이 모여 4시간에 이르는 회의를 했다. 주어진 4시간 안에 원하는 결과를 도출하기 위해서는 회의를 효율적으로 의도대로 진행하는 것이 중요해보였다. “그냥 다 같이 이야기나 한 번...
100일 동안 매일 TIL commit 하기 회고
100일 동안 매일 TIL commit 하기 (시즌2)가 오늘로 끝난다. 시즌 1의 저조했던 출석률에 비하면 이번에는 50% 넘게 성공했으니, 2일에 한 번 꼴로는 무언가 그낭 공부한 것을 요약하여 git에 올린 셈이다. 이번 시즌에는 주로 “하이 퍼포먼스 스파크” 스터디 한 내용과 “Tour Of Scala” 예제 따라해본 것을 위주로 올렸다. 초...
principles for the unit test of data processing job
spark job 개발하다가 몇 가지 회고 결과물을 빨리 내겠다고 마음이 급해지니 제일 먼저 UnitTest 개발을 Skip 한다. 여기서부터 코드에서 나쁜 냄새가 나기 시작한다. 가능한한 연산의 과정, 과정을 method로 나누고 UnitTest를 만들자. 특히 numpy나 pandas로...
함께 자라기
책 ‘함께 자라기’를 읽고 제목: 함께 자라기 - 애자일로 가는 길 지은이: 김창준 출판사: 인사이트 자라기 경력과 전문성은 그다지 상관관계가 없다. 일을 오래했다고 해서 (연차가 높다고 해서) 실력이 늘지 않는다. 학습을 통한 성장을 이루어야 한다. 학습 프레임으로 사고하라. ...
type erasure
참고: https://www.baeldung.com/java-type-erasure http://toby.epril.com/?p=248 http://wonwoo.ml/index.php/post/1743 Type erasure can be explained as the process of enforcing type constraints ...
r tips
ggmap 설치 시 tips ggmap 설치에 애먹으시는 분들을 위해서 몇가지 정리합니다. ggmap이 우리를 힘들게 하는 이유 1) ggmap은 Google 지도 API를 쓰는데, Google이 과금을 시작했다. 2) 그래서 Google API에 가입을 하고 키를 발급 받아야 한다. 그럼 돈이 드나? 그건 아니다. Google API에 인증 Key를...
python tips
3rd party library를 패키징하여 사용하기 $ pip install -r requirements.txt -t ./libs $ cd ./libs && zip -r libs.zip . 이렇게 만든 libs.zip 파일을 python 코드에서 import sys sys.path.insert(0, 'libs.zip') 하면 모듈들...
spark tips
Spark UnitTest 공통 모듈 만들기 만들려는 것 로컬에서 하둡 클러스터 연결 없이 Spark core, Spark sql 모두 테스트 하기 File은 물론, Hive Table로 부터의 DataFrame 로드도 모두 로컬에서 가능하게 하기 Hive Table을 Samplin...
pyenv
pyenv https://github.com/pyenv/pyenv python version 및 virtual environment를 관리하기 위해서 사용 폴더별로 어떤 환경을 사용할 것인지 설정하면 자동으로 activate 되기 때문에 매우 편리 Install pyenv $ brew install pyenv $ brew install p...
aho-corasick algorithm
Aho-Corasick (아호-코라식) 참고 http://m.blog.naver.com/kks227/220992598966 https://www.slideshare.net/ssuser81b91b/ahocorasick-algorithm 아호 코라식 알고리즘(Aho–Corasick string matc...