좀 신기한 책이 나왔습니다.
데이터 전처리 대전
데이터 분석을 위한 파이썬, SQL, R 실천 기술
www.hanbit.co.kr/store/books/look.php?p_code=B1543811360
보통 SQL만 R만 Python만 다루는 책이 태반일 텐데, 일단 이 셋을 한번에 다루는 게 신기하면서도, 그동안 많이 다루지 않고 '전처리'라는 영역을 주제로 했다는 게 정말 특기할 만했습니다. 캐글 같은 경진대회에서 괜찮은 성적을 거둘 만한 역량이어도 현장 업무에서는 시작 단계에서 어려움을 겪을 때가 상당할 텐데, 이 책은 현실에서 맞붙게 될 상황에 대해 다양하게 풀어줍니다.
예를 들어 범주형 데이터를 dummy 변수로 만들기는 원래 그렇게 하는 것 아니냐고 반문할 수도 있는데, 통계로 시작하지 않고 업무를 개발자로 시작했다거나 하면 직관적으로 깨닫기 힘든 노하우일 수도 있습니다. 그래서 이 책이 가진 가장 큰 장점은 시야를 넓혀준다는 점입니다.
SQL로 시작한 사람은 R, Python의 패키지를 많이 알아둬야 하는 배경에 익숙하지 않습니다. SQL로 처리하지 못하는 영역이나 SQL로는 길게 코딩할 수 밖에 없는 상황은 곤혹스럽기만 할 겁니다.
Python은 덜 한 편인데(완전 소견/편견), R은 워낙 패키지들이 막강하니 뭐든 R로 끌어 와서 처리하는 게 가능합니다. 다만 대체로 PC 위에서만 R을 사용할 수 밖에 없으니 데이터가 조금만 커져도 운용하는 데에 무리가 있습니다. 때문에 SAS 같은 상용 솔루션은 In-database 기능을 제공하고 홍보했습니다. 전처리 상당 부분을 성능이 괜찮은 DB에서 처리하면 작업시간을 줄일 수 있을 텐데, 의외로 SQL을 생소해 하는 팀원을 만나 다소 의아했던 적이 기억납니다.
이 책은 데이터 처리에 있어 R. Python. SQL로 제 몫을 다 하게 되었지만 시야를 넓히며 더 효율적인 방법을 갈고 닦고자 하는 중수에게 특히 권하고 싶습니다. (특히 2부 후반이후부터.) 헤매는 시간을 줄이며 보다 다양한 영역을 눈으로 보게 해줍니다. 저런 방법이 있었구나 하는 깨달음을 향후 몇 년 간 업무경험을 풍요롭게 해줄 겁니다.
[1부 전처리 입문]
1장 전처리 개요
1.1 데이터
1.2 전처리의 역할
1.3 전처리의 흐름
1.4 세 가지 프로그래밍 언어
1.5 패키지/라이브러리
1.6 데이터셋
1.7 데이터 읽기
[2부 데이터 구조 전처리]
2장 추출
2.1 데이터 열을 지정한 추출
2.2 조건에 따른 데이터 행 추출
2.3 데이터 값을 고려하지 않는 샘플링
2.4 집약 ID에 기반한 샘플링
3장 집약
3.1 데이터와 종류의 개수 산출
3.2 합곗값 계산
3.3 최댓값, 최솟값, 대푯값 산출
3.4 분포 계산
3.5 최빈값 계산
3.6 순위 계산
4장 결합
4.1 마스터 테이블에서 정보 얻기
4.2 조건에 따라 결합할 마스터 테이블 변경하기
4.3 과거 데이터에서 정보 얻기
4.4 상호 결합
5장 분할
5.1 모델 검증을 위한 데이터 레코드 분할
5.2 모델 검증을 위한 시간 데이터 분할
6장 생성
6.1 언더샘플링으로 데이터 불균형 조정하기
6.2 오버샘플링으로 데이터 불균형 조정하기
7장 전개
7.1 가로 데이터로 변환
7.2 희소 행렬로의 변환
[3부 데이터 내용 전처리]
8장 수치형
8.1 수치형 데이터로 변환
8.2 대수화를 이용한 비선형 변화
8.3 범주화를 이용한 비선형 변화
8.4 정규화
8.5 예욋값 제거
8.6 주성분 분석을 이용한 차원 압축
8.7 수치의 보완
9장 범주형
9.1 범주형으로 변환
9.2 더미 변수화
9.3 범줏값의 집약
9.4 범줏값의 조합
9.5 범주형의 수치화
9.6 범주형의 보완
10장 일시형
10.1 일시형과 날짜형으로 변환
10.2 연, 월, 일, 시각, 분, 초, 요일로 변환
10.3 일시의 차이로 변환
10.4 일시형의 증감
10.5 계절로 변환
10.6 시간대로 변환
10.7 평일과 휴일로 변환
11장 문자형
11.1 형태소 분석을 이용한 분해
11.2 단어의 집합 데이터로 변환
11.3 TF-IDF로 단어의 중요도 조정
12장 위치 정보형
12.1 한국 측지계를 세계 측지계로 변환
12.2 두 지점 간 거리와 방향 계산
[4부 실천 전처리]
13장 연습 문제
13.1 집계 분석 전처리
13.2 추천 전처리
13.3 예측 모델링 전처리
부록 A 예제 환경 구성하기
A.1 SQL 환경 준비하기
A.2 R 환경 준비하기
A.3 파이썬 환경 준비하기
'BI' 카테고리의 다른 글
일단 시작하기 좋은 <몽고DB 완벽 가이드(3판)> (0) | 2021.04.19 |
---|---|
RPA까지 안내하는 <파이썬으로 웹 크롤러 만들기> (0) | 2020.10.25 |
절절함을 감춘 <데이터 읽기의 기술> (0) | 2020.02.25 |