실무로 통하는 인과추론 with 파이썬
데이터 분석에서 정책 수립까지, 이론과 사례 연구를 통한 실용적인 학습법
저자: 마테우스 파쿠레 / 번역: 신진수, 가짜연구소 인과추론팀, 박지용(감수) / 한빛미디어 / 2024-03-05
https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856
인과추론이라는 분야에 관심이 많아, 입문서에 속하는 '원인과 결과의 경제학'을 읽은 적이 있습니다. (https://wizmusa.tistory.com/1170964450) 방법론보다는 인과추론 자체에 대한 설명 등 제반사항에 집중한 책이라 아쉬웠습니다. 그러다 마침 한빛미디어에서 정말 상세하게 길잡이 노릇을 해주는 '실무로 통하는 인과추론 with 파이썬'을 내놓아서 반가웠습니다.
인과추론에 대해서는 디지털 마케팅 회사에 다니던 시기에 알게되었고 그 일을 잘 하고 싶었던 터라 관심을 갖게 되었습니다. 광고 배너에 대해 A/B test를 했을 때나 '그냥 직관으로' 했을 때 모두 현장에서 광고 성과가 나오기는 하지만 근거가 탄탄하지는 못했기 때문입니다. 예전 회사에 있을 때에 관여했던 상품 추천도 마찬가지였습니다. 상품이 잘 팔렸다고 해도 추천 덕인지 쿠폰 덕인지 알기 힘들었습니다. 현장에서는 분석을 거의 포기하다시피했습니다. 대체로 어려운 일이라는 얘기입니다.
이 책의 미덕은 인과추론에 필요한 통계 지식을 되짚어주며 머신러닝과 통계학 사이에 혼란스러운 요소를 곳곳에서 바로 잡아주는 구절입니다. 통계학 석사라면 무리 없이 볼 만하며 개발자로서 시작하여 데이터 과학자로 성장하는 이에게는 여러모로 도움이 될 만하다고 봅니다. 경험이 일천해서 A/B test 결과를 회귀분석으로 보정하여 판단하는 내용에 감탄했습니다. 이후에 책에서 다루는 수준은 꽤 높아서 제게는 좀 버거웠습니다. 통계에 익숙하지 않은 독자는 열심히 읽었을 때에 3~6개월 정도 걸릴 만한 분량과 수준이 아닐까 합니다.
마지막 장은 숙제입니다. 가끔 보이는 독특한 구성입니다. 내용이 전문적이다 보니 후속작으로서 나오기가 힘들어 보입니다. 독후감은 썼습니다만, 저는 이 책을 더 숙독하여 제 일에 녹여야 합니다. 쉽지 않은 터라 신이 나지는 않습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
[PART 1 인과추론 기초]
1장 인과추론 소개
_1.1 인과추론의 개념
_1.2 인과추론의 목적
_1.3 머신러닝과 인과추론
_1.4 연관관계와 인과관계
_1.5 편향
_1.6 인과효과 식별하기
_1.7 요약
2장 무작위 실험 및 기초 통계 리뷰
_2.1 무작위 배정으로 독립성 확보하기
_2.2 A/B 테스트 사례
_2.3 이상적인 실험
_2.4 가장 위험한 수식
_2.5 추정값의 표준오차
_2.6 신뢰구간
_2.7 가설검정
_2.8 p 값
_2.9 검정력
_2.10 표본 크기 계산
_2.11 요약
3장 그래프 인과모델
_3.1 인과관계에 대해 생각해보기
_3.2 그래프 모델 집중 훈련
_3.3 식별 재해석
_3.4 조건부 독립성 가정과 보정 공식
_3.5 양수성 가정
_3.6 구체적인 식별 예제
_3.7 교란편향
_3.8 선택편향
_3.9 요약
[PART 2 편향 보정]
4장 유용한 선형회귀
_4.1 선형회귀의 필요성
_4.2 회귀분석 이론
_4.3 프리슈-워-로벨 정리와 직교화
_4.4 결과 모델로서의 회귀분석
_4.5 양수성과 외삽
_4.6 선형회귀에서의 비선형성
_4.7 더미변수를 활용한 회귀분석
_4.8 누락 변수 편향
_4.9 중립 통제변수
_4.10 요약
5장 성향점수
_5.1 관리자 교육의 효과
_5.2 회귀분석과 보정
_5.3 성향점수
_5.4 디자인 vs. 모델 기반 식별
_5.5 이중 강건 추정
_5.6 연속형 처치에서의 일반화 성향점수
_5.7 요약
[PART 3 이질적 효과와 개인화]
6장 이질적 처치효과
_6.1 ATE에서 CATE로
_6.2 예측이 답이 아닌 이유
_6.3 회귀분석으로 CATE 구하기
_6.4 CATE 예측 평가하기
_6.5 모델 분위수에 따른 효과
_6.6 누적 효과 곡선
_6.7 누적 이득 곡선
_6.8 목표 변환
_6.9 예측 모델이 효과 정렬에 좋을 때
_6.10 의사결정을 위한 CATE
_6.11 요약
7장 메타러너
_7.1 이산형 처치 메타러너
_7.2 연속형 처치 메타러너
_7.3 요약
[PART 4 패널데이터]
8장 이중차분법
_8.1 패널데이터
_8.2 표준 이중차분법
_8.3 식별 가정
_8.4 시간에 따른 효과 변동
_8.5 이중차분법과 공변량
_8.6 이중 강건 이중차분법
_8.7 처치의 시차 도입
_8.8 요약
9장 통제집단합성법
_9.1 온라인 마케팅 데이터셋
_9.2 행렬 표현
_9.3 통제집단합성법과 수평 회귀분석
_9.4 표준 통제집단합성법
_9.5 통제집단합성법과 공변량
_9.6 통제집단합성법과 편향 제거
_9.7 추론
_9.8 합성 이중차분법
_9.9 요약
[PART 5 대안적 실험 설계]
10장 지역 실험과 스위치백 실험
_10.1 지역 실험
_10.2 통제집단합성법 설계
_10.3 스위치백 실험
_10.4 요약
11장 불응과 도구변수
_11.1 불응
_11.2 잠재적 결과 확장
_11.3 도구변수 식별 가정
_11.4 1단계
_11.5 2단계
_11.6 2단계 최소제곱법
_11.7 표준오차
_11.8 통제변수와 도구변수 추가
_11.9 불연속 설계
_11.10 요약
12장 더 배울 내용
_12.1 인과관계 발견
_12.2 순차적 의사결정
_12.3 인과적 강화학습
_12.4 인과 예측
_12.5 도메인 적응
_12.6 요약
에필로그 실무에 인과추론 적용하기
찾아보기
'BI > 빅데이터' 카테고리의 다른 글
2024년 데이터 플랫폼이 지향하는 방향 (1) | 2024.11.09 |
---|---|
퍼포먼스 마케팅 효과를 극대화하길 (0) | 2023.07.25 |
A~Z가 다 나온 '데이터 품질의 비밀' (0) | 2023.05.23 |