본문 바로가기
BI/빅데이터

A~Z가 다 나온 '데이터 품질의 비밀'

by wizmusa 2023. 5. 23.

데이터 품질의 비밀 - 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

원제: Data Quality Fundamentals

지은이: 바 모세스, 라이어 개비쉬, 몰리 보르웨르크 / 옮긴이: 데이터야놀자 / 2023/04/10

https://www.decoding.co.kr/product/데이터-품질의-비밀/

 

IT 일을 하는 내내 데이터와 어울렁더울렁하며 살았기에 데이터 품질과 거버넌스라는 개념 자체에는 익숙합니다. 그럼에도 속시원하게 데이터 품질관리를 했거나 거버넌스를 실현했다고 감히 말하지 못합니다. 업무 관련 법규에 따라 강제로 DBMS 메타데이터 관리를 도입했던 조직은 필요한 데이터를 모두 DB에 넣지 못했고, 그런 관리 솔루션을 도입하지 못했던 조직은 뭐는 'T', 뭐는 '1', 뭐는 TRUE, 뭐는 'Y' 혹은 'y' 같은 식으로 이력을 모르면 분석할 엄두를 내지 못하는 지경이기도 했습니다. 2023년을 기준으로 '데이터 거버넌스'는 민망하거나 엄두가 나지 않아 꺼내기 힘든 어휘이기도 합니다. 전산실에서 일하던 때에는 어떻게든 데이터 거버넌스를 도입하고 싶어서 선두주자이지만 고가였던 전문 솔루션은 제치고 MS Data Quality Services(https://learn.microsoft.com/ko-kr/sql/data-quality-services/data-quality-services) 자료를 탐독하기도 했습니다. 그나마 도입 가능하다고 보았었지요.

 

빅데이터가 대세가 되자 데이터 거버넌스의 전 단계로 데이터 카탈로그 도입을 많이 거론했습니다. Hadoop 에코 시스템의 Atlas(https://atlas.apache.org/)는 일견 매력적이었으나 클라우드 시대를 맞아서는 들어맞지 않는 부분이 생겨서 개인적으로는 작별을 고했습니다. 그렇게 AI 열풍을 맞아 지내다 이 책을 만났습니다. 꽤 놀라웠습니다. 고민하고 살던 이슈 중 상당 부분을 이 책에서 거론하고 있었습니다. 저자들의 식견이 상당합니다. 데이터 웨어하우스, 데이터 레이크, 데이터 플랫폼, 데이터 거버넌스 등 데이터를 기술 관점만이 아니라 경영과 운영(Operation) 면에서도 수준 높게 다루고자 하는 이는 이 책을 가이드 삼아 action plan을 만들어도 좋겠습니다.

 

다만, 예시를 너무 자세히 보이거나 통계지표를 나열하다가 IT 아키텍처를 논하면서 나중에는 정책과 방향성을 다루는 이 책의 내용이 널뛰는 듯하게 느껴질 수도 있겠다는 우려가 들었습니다. 저자가 여럿이어서 그럴 만하긴 한데, IT 부서만 잘한다고 데이터 품질이 잘 관리되는 게 아니기 때문이기도 하겠습니다. 더불어 TO-BE 이미지를 명확히 제시하지는 않기에 IT 경험이 적은 독자는 두루뭉술하다고 오해하여 짜증이 날 수 있습니다. 이 사안은 조직문화와 직결하기에 정답이 나오지 못하다는 현실을 알아주길 바랍니다. 누가 뭐래도 데이터 업무 종사자라면 한 번 읽고 버릴 책은 아니라고 봅니다. 내가 뭘 빼먹고 있지는 않은가 가끔씩 살피기에 적당하겠습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


반응형

목차

CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유

1.1 데이터 품질이란?
1.2 데이터 품질의 현재
1.3 마치며

CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

2.1 운영 데이터와 분석 데이터의 차이
2.2 차이는 어떻게 만들어지는가?
2.3 데이터 웨어하우스 vs 데이터 레이크
2.4 데이터 품질 지표 수집
2.5 데이터 카탈로그 설계
2.6 데이터 카탈로그 구축
2.7 마치며

CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트

3.1 데이터 수집
3.2 데이터 정제
3.3 배치 처리 vs 실시간 처리
3.4 실시간 처리를 위한 데이터 품질
3.5 데이터 정규화
3.6 분석 데이터 변환 실행
3.7 테스트 및 경고 알람 시스템
3.8 아파치 에어플로를 활용한 데이터 품질 관리
3.9 마치며

CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지

4.1 알려진 미지와 알려지지 않은 미지
4.2 이상 탐지 알고리즘 구축
4.3 스키마 및 계보를 위한 모니터 구축
4.4 파이썬과 머신러닝으로 이상 탐지 확장
4.5 이상 탐지의 심화 과정: 기타 유용한 접근법
4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크
4.7 마치며

CHAPTER 5 데이터 신뢰성을 위한 아키텍처

5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지
5.2 파이프라인에서 높은 데이터 품질 측정 및 유지
5.3 데이터 품질 다운스트림
5.4 데이터 플랫폼 구축
5.5 데이터 신뢰 구축
5.6 [사례 연구] 블링키스트
5.7 마치며

CHAPTER 6 대규모 데이터 품질 문제 해결

6.1 소프트웨어 개발 시 품질 문제 조정
6.2 데이터 사고 관리
6.3 사고 대응 및 완화
6.4 [사례 연구] 페이저듀티의 데이터 사고 관리
6.5 마치며

CHAPTER 7 엔드 투 엔드 데이터 계보 구축

7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축
7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처
7.3 마치며

CHAPTER 8 데이터 품질 민주화

8.1 데이터를 프로덕트로 다루는 시각
8.2 데이터를 프로덕트로 다루는 사례
8.3 데이터 플랫폼을 향한 신뢰 축적
8.4 데이터 품질 책임 할당
8.5 데이터 품질 보장을 위한 책임감 조성
8.6 데이터 접근성과 신뢰 간 균형
8.7 데이터 인증
8.8 데이터 인증 프로그램 실행 7단계
8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정
8.10 데이터 리터러시 함양
8.11 데이터 거버넌스와 컴플라이언스
8.12 데이터 품질 전략 수립
8.13 마치며

CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구

9.1 데이터 품질 향상을 위한 데이터 메시 구축
9.2 왜 데이터 메시인가?
9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할
9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정
9.5 비즈니스에 메타데이터 활용
9.6 데이터 검색에서 얻는 메타데이터의 가치
9.7 데이터 품질 관리 시기 결정
9.8 마치며

CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척

10.1 사후 대응이 아닌 사전 예방적 대응
10.2 데이터 품질 및 신뢰성의 미래 예측
10.3 이제부터 우리는 무엇을 해야 할까?

찾아보기
반응형

'BI > 빅데이터' 카테고리의 다른 글

퍼포먼스 마케팅 효과를 극대화하길  (0) 2023.07.25
몽고DB 6.0 출시 감상  (0) 2022.08.20
빅데이터 뉴스 레터 2022년 1분기  (0) 2022.04.28