본문 바로가기
BI/빅데이터

세세한 길잡이인 '실무로 통하는 인과추론 with 파이썬'

by wizmusa 2024. 3. 25.
실무로 통하는 인과추론 with 파이썬

실무로 통하는 인과추론 with 파이썬
데이터 분석에서 정책 수립까지, 이론과 사례 연구를 통한 실용적인 학습법
저자: 마테우스 파쿠레 / 번역: 신진수, 가짜연구소 인과추론팀, 박지용(감수) / 한빛미디어 / 2024-03-05
https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856

 
인과추론이라는 분야에 관심이 많아, 입문서에 속하는 '원인과 결과의 경제학'을 읽은 적이 있습니다. (https://wizmusa.tistory.com/1170964450) 방법론보다는 인과추론 자체에 대한 설명 등 제반사항에 집중한 책이라 아쉬웠습니다. 그러다 마침 한빛미디어에서 정말 상세하게 길잡이 노릇을 해주는 '실무로 통하는 인과추론 with 파이썬'을 내놓아서 반가웠습니다.

인과추론에 대해서는 디지털 마케팅 회사에 다니던 시기에 알게되었고 그 일을 잘 하고 싶었던 터라 관심을 갖게 되었습니다. 광고 배너에 대해 A/B test를 했을 때나 '그냥 직관으로' 했을 때 모두 현장에서 광고 성과가 나오기는 하지만 근거가 탄탄하지는 못했기 때문입니다. 예전 회사에 있을 때에 관여했던 상품 추천도 마찬가지였습니다. 상품이 잘 팔렸다고 해도 추천 덕인지 쿠폰 덕인지 알기 힘들었습니다. 현장에서는 분석을 거의 포기하다시피했습니다. 대체로 어려운 일이라는 얘기입니다.
 
이 책의 미덕은 인과추론에 필요한 통계 지식을 되짚어주며 머신러닝과 통계학 사이에 혼란스러운 요소를 곳곳에서 바로 잡아주는 구절입니다. 통계학 석사라면 무리 없이 볼 만하며 개발자로서 시작하여 데이터 과학자로 성장하는 이에게는 여러모로 도움이 될 만하다고 봅니다. 경험이 일천해서 A/B test 결과를 회귀분석으로 보정하여 판단하는 내용에 감탄했습니다. 이후에 책에서 다루는 수준은 꽤 높아서 제게는 좀 버거웠습니다. 통계에 익숙하지 않은 독자는 열심히 읽었을 때에 3~6개월 정도 걸릴 만한 분량과 수준이 아닐까 합니다.
 
마지막 장은 숙제입니다. 가끔 보이는 독특한 구성입니다. 내용이 전문적이다 보니 후속작으로서 나오기가 힘들어 보입니다. 독후감은 썼습니다만, 저는 이 책을 더 숙독하여 제 일에 녹여야 합니다. 쉽지 않은 터라 신이 나지는 않습니다.
 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


반응형

[PART 1 인과추론 기초]
 
1장 인과추론 소개
_1.1 인과추론의 개념
_1.2 인과추론의 목적 
_1.3 머신러닝과 인과추론 
_1.4 연관관계와 인과관계
_1.5 편향 
_1.6 인과효과 식별하기 
_1.7 요약
 
2장 무작위 실험 및 기초 통계 리뷰
_2.1 무작위 배정으로 독립성 확보하기 
_2.2 A/B 테스트 사례 
_2.3 이상적인 실험 
_2.4 가장 위험한 수식 
_2.5 추정값의 표준오차 
_2.6 신뢰구간 
_2.7 가설검정 
_2.8 p 값 
_2.9 검정력 
_2.10 표본 크기 계산 
_2.11 요약
 
3장 그래프 인과모델
_3.1 인과관계에 대해 생각해보기
_3.2 그래프 모델 집중 훈련 
_3.3 식별 재해석 
_3.4 조건부 독립성 가정과 보정 공식 
_3.5 양수성 가정 
_3.6 구체적인 식별 예제 
_3.7 교란편향 
_3.8 선택편향 
_3.9 요약
 
[PART 2 편향 보정]
 
4장 유용한 선형회귀
_4.1 선형회귀의 필요성 
_4.2 회귀분석 이론 
_4.3 프리슈-워-로벨 정리와 직교화 
_4.4 결과 모델로서의 회귀분석 
_4.5 양수성과 외삽 
_4.6 선형회귀에서의 비선형성 
_4.7 더미변수를 활용한 회귀분석 
_4.8 누락 변수 편향 
_4.9 중립 통제변수 
_4.10 요약
 
5장 성향점수
_5.1 관리자 교육의 효과 
_5.2 회귀분석과 보정 
_5.3 성향점수
_5.4 디자인 vs. 모델 기반 식별 
_5.5 이중 강건 추정 
_5.6 연속형 처치에서의 일반화 성향점수 
_5.7 요약
 
[PART 3 이질적 효과와 개인화]
 
6장 이질적 처치효과
_6.1 ATE에서 CATE로 
_6.2 예측이 답이 아닌 이유 
_6.3 회귀분석으로 CATE 구하기 
_6.4 CATE 예측 평가하기 
_6.5 모델 분위수에 따른 효과 
_6.6 누적 효과 곡선 
_6.7 누적 이득 곡선 
_6.8 목표 변환 
_6.9 예측 모델이 효과 정렬에 좋을 때 
_6.10 의사결정을 위한 CATE 
_6.11 요약
 
7장 메타러너
_7.1 이산형 처치 메타러너 
_7.2 연속형 처치 메타러너 
_7.3 요약
 
[PART 4 패널데이터]
 
8장 이중차분법
_8.1 패널데이터 
_8.2 표준 이중차분법 
_8.3 식별 가정 
_8.4 시간에 따른 효과 변동 
_8.5 이중차분법과 공변량 
_8.6 이중 강건 이중차분법 
_8.7 처치의 시차 도입 
_8.8 요약
 
9장 통제집단합성법
_9.1 온라인 마케팅 데이터셋 
_9.2 행렬 표현 
_9.3 통제집단합성법과 수평 회귀분석 
_9.4 표준 통제집단합성법 
_9.5 통제집단합성법과 공변량 
_9.6 통제집단합성법과 편향 제거 
_9.7 추론 
_9.8 합성 이중차분법 
_9.9 요약
 
[PART 5 대안적 실험 설계]
 
10장 지역 실험과 스위치백 실험
_10.1 지역 실험
_10.2 통제집단합성법 설계
_10.3 스위치백 실험 
_10.4 요약
 
11장 불응과 도구변수
_11.1 불응 
_11.2 잠재적 결과 확장
_11.3 도구변수 식별 가정 
_11.4 1단계 
_11.5 2단계 
_11.6 2단계 최소제곱법 
_11.7 표준오차 
_11.8 통제변수와 도구변수 추가 
_11.9 불연속 설계 
_11.10 요약
 
12장 더 배울 내용
_12.1 인과관계 발견 
_12.2 순차적 의사결정 
_12.3 인과적 강화학습 
_12.4 인과 예측 
_12.5 도메인 적응 
_12.6 요약
 
에필로그  실무에 인과추론 적용하기 
찾아보기

반응형