- 'AI > Machine learning > Data science > Analytics'는 같은 플랫폼에서 구동해야 한다. + 보안 + 거버넌스
분석/예측 업무를 꼭 같은 플랫폼 위에서 운용해야 하지는 않지만,
① 개발자 범주를 벗어나면 여러 가지 플랫폼을 한번에 쓰는 사람이 드물고 대개는 버거워하며,
② 보안 등 관리적인 면에서도 단일 플랫폼일 때에 일단 저렴하다.
→ 그러나, 인사가 만사이므로 하둡 플랫폼을 대대적으로 쓰기 힘든 조직은 당장 쓸 수 있는 도구를 택해야 영속할 가능성이 높아진다. 인프라 역시 기술 부채가 많이 쌓이는 게 좋지 않긴 해도 일단 비즈니스 구현이 먼저다.
- 문제 해결은 case by case이지만 pattern은 존재한다.
- Journey
Discover: usecase 도출 → Initiate → Prove(Pilot) → Scale 확장 →Transform (※최종결과물 아님) [→ 반복]
- Journey
- Petabyte 세계
(예: HIPAA 준수 → 의료 데이터 8PB 발생) - HDFS 바깥 세계로 확장: Impala → AWS S3, MS ADLS 저장소도 지원한다. (엔터프라이즈 기능 제공)
- Edge management
- Federated learning: Edge device에서 학습용 데이터를 중앙에 전송할 필요 없이 train 모델만 공유한다.
- Active learning: Limited labeled data로 학습한다.
- 거버넌스: 오픈소스를 쓸 때에 가장 문제
- Cloudera Hadoop은 audit 데이터를 생성한다.
- Lineage(≒ Data pipeline)를 가시화한다.
반응형
'BI > 빅데이터' 카테고리의 다른 글
빅데이터 모범사례 CERN (0) | 2021.12.11 |
---|---|
빅데이터는 여우의 신포도가 아닙니다. (1) | 2020.01.14 |
빅데이터 세계에서 하둡은 선택지 중 하나일 뿐 (1) | 2019.10.14 |