대규모 머신러닝 시스템 디자인 패턴
14가지 패턴으로 분산 머신러닝 파이프라인 구축하기
저자: 위안 탕, 번역: 정민정 / 한빛미디어 / 2024-11-29
https://www.hanbit.co.kr/store/books/look.php?p_code=B3893502217
MLOps 엔지니어를 꿈꾸거나 경력 관리 차원에서 검토했다면 필독서입니다. Python으로 예시 모델을 학습할 줄 알고 쿠버네티스를 사용해 봤어야 이 책을 이해하기 녹록합니다. 실습을 다룬 장은 뒤에 몰려 있습니다. 패턴 개념 설명과 실습을 교대하는 구성이었다면 어땠을까 하는 아쉬움이 있습니다. 이렇게 생각한 이유는 제 경력이 개발자보다는 BI 개발자와 데이터 엔지니어에 치우쳐서일 수 있습니다. 개발 디자인 패턴에 익숙한 개발자는 이 책의 구성에 친숙하여 이해가 빠를 수도 있겠습니다. Vision AI 분야에서 아주 많이 사용하는 PyTorch와 NVIDIA 기술을 다루지 않아서 아쉽기도 했습니다.
그럼에도 분산 학습을 다룬 책이 워낙 드문 상황에, 작은 인프라에서도 실습할 수 있는 환경을 안내하므로 앞서 말했듯이 MLOps 경력을 염두에 둔다면 필독서입니다. 2024년 한국인에게는 다른 대안이 별로 없습니다. 더불어 분산학습 분야에 입문하기에는 적당한 면이 많습니다.
[PART 1 분산 머신러닝 시스템의 배경지식]
CHAPTER 01 분산 머신러닝 시스템 소개
_1.1 대규모 머신러닝
_1.2 분산 시스템
_1.3 분산 머신러닝 시스템
요약
[PART 2 분산 머신러닝 시스템의 설계 패턴]
CHAPTER 02 데이터 수집 패턴
_2.1 데이터 수집이란?
_2.2 Fashion-MNIST 데이터셋
_2.3 배치 처리 패턴: 제한된 메모리로 무거운 연산 실행하기
_2.4 샤딩 패턴: 매우 큰 데이터셋을 여러 워커에 분산시키기
_2.5 캐싱 패턴: 효율적인 학습을 위해 데이터 재활용하기
요약
CHAPTER 03 분산 학습 패턴
_3.1 분산 학습이란?
_3.2 파라미터 서버 패턴: 8백만 개의 유튜브 영상에 태그 달기
_3.3 집합 통신 패턴: 파라미터 서버가 병목이 되지 않도록 개선하기
_3.4 탄력성 및 내결함성 패턴: 제한된 연산 자원으로 인한 실패 대응하기
요약
CHAPTER 04 모델 서빙 패턴
_4.1 모델 서빙이란?
_4.2 레플리카 서버 패턴: 늘어나는 요청량 처리하기
_4.3 서비스 샤딩 패턴: 고해상도 영상을 처리하는 대규모 모델 서빙 다루기
_4.4 이벤트 기반 처리 패턴: 이벤트 기반으로 모델 서빙하기
요약
CHAPTER 05 워크플로 패턴
_5.1 워크플로란?
_5.2 팬인 및 팬아웃 패턴: 복잡한 머신러닝 워크플로 체계화
_5.3 동기 및 비동기 패턴: 병렬성으로 더 빠르게 처리하기
_5.4 스텝 메모이제이션 패턴: 반복되는 작업 생략하기
요약
CHAPTER 06 운영 패턴
_6.1 머신러닝 시스템 운영하기
_6.2 스케줄링 패턴: 공유 클러스터 자원을 효과적으로 할당하기
_6.3 메타데이터 패턴: 실패를 적절히 처리하는 방법
요약
[PART 03 분산 머신러닝 시스템 구축]
CHAPTER 07 실습 프로젝트 둘러보기
_7.1 프로젝트 개요
_7.2 데이터 수집 단계
_7.3 모델 학습 단계
_7.4 모델 서빙 단계
_7.5 전체 워크플로 구조
요약
CHAPTER 08 실습 관련 기술 둘러보기
_8.1 텐서플로: 머신러닝 프레임워크
_8.2 쿠버네티스: 분산 컨테이너 관리 시스템
_8.3 쿠브플로: 쿠버네티스 머신러닝 워크로드 관리 시스템
_8.4 아르고 워크플로: 컨테이너 기반 워크플로 엔진
요약
CHAPTER 09 실습 프로젝트
_9.1 데이터 수집
_9.2 모델 학습
_9.3 모델 서빙
_9.4 전체 워크플로
요약
'BI > 인공지능' 카테고리의 다른 글
인공지능은 예술을 할 수 있는가 (1) | 2024.11.27 |
---|---|
ChatGPT는 무슨 자리를 차지하고픈 걸까? (0) | 2024.11.26 |
2024년은 예상보다 훨씬 더 AI 발전 초기일지 모릅니다 (1) | 2024.11.24 |