본문 바로가기
BI

업계 선배가 알려주는 듯한 <데이터 전처리 대전>

by wizmusa 2020. 11. 23.

좀 신기한 책이 나왔습니다.

데이터 전처리 대전
데이터 분석을 위한 파이썬, SQL, R 실천 기술
www.hanbit.co.kr/store/books/look.php?p_code=B1543811360

 

데이터 전처리 대전 / 저자: 모토하시 도모미쓰 / 번역: 윤준 / 한빛미디어
SQL, R, Python을 같이 설명하는 책은 처음 보았습니다.

보통 SQL만 R만 Python만 다루는 책이 태반일 텐데, 일단 이 셋을 한번에 다루는 게 신기하면서도, 그동안 많이 다루지 않고 '전처리'라는 영역을 주제로 했다는 게 정말 특기할 만했습니다. 캐글 같은 경진대회에서 괜찮은 성적을 거둘 만한 역량이어도 현장 업무에서는 시작 단계에서 어려움을 겪을 때가 상당할 텐데, 이 책은 현실에서 맞붙게 될 상황에 대해 다양하게 풀어줍니다.

 

예를 들어 범주형 데이터를 dummy 변수로 만들기는 원래 그렇게 하는 것 아니냐고 반문할 수도 있는데, 통계로 시작하지 않고 업무를 개발자로 시작했다거나 하면 직관적으로 깨닫기 힘든 노하우일 수도 있습니다. 그래서 이 책이 가진 가장 큰 장점은 시야를 넓혀준다는 점입니다.

 

SQL로 시작한 사람은 R, Python의 패키지를 많이 알아둬야 하는 배경에 익숙하지 않습니다. SQL로 처리하지 못하는 영역이나 SQL로는 길게 코딩할 수 밖에 없는 상황은 곤혹스럽기만 할 겁니다.

 

Python은 덜 한 편인데(완전 소견/편견), R은 워낙 패키지들이 막강하니 뭐든 R로 끌어 와서 처리하는 게 가능합니다. 다만 대체로 PC 위에서만 R을 사용할 수 밖에 없으니 데이터가 조금만 커져도 운용하는 데에 무리가 있습니다. 때문에 SAS 같은 상용 솔루션은 In-database 기능을 제공하고 홍보했습니다. 전처리 상당 부분을 성능이 괜찮은 DB에서 처리하면 작업시간을 줄일 수 있을 텐데, 의외로 SQL을 생소해 하는 팀원을 만나 다소 의아했던 적이 기억납니다.

 

이 책은 데이터 처리에 있어 R. Python. SQL로 제 몫을 다 하게 되었지만 시야를 넓히며 더 효율적인 방법을 갈고 닦고자 하는 중수에게 특히 권하고 싶습니다. 헤매는 시간을 줄이며 보다 다양한 영역을 눈으로 보게 해줍니다. 저런 방법이 있었구나 하는 깨달음을 향후 몇 년 간 업무경험을 풍요롭게 해줄 겁니다.

반응형