본문 바로가기
BI/빅데이터

Cloudera Hadoop 조언 memo

by wizmusa 2021. 5. 16.
  • 'AI > Machine learning > Data science > Analytics'는 같은 플랫폼에서 구동해야 한다. + 보안 + 거버넌스
    분석/예측 업무를 꼭 같은 플랫폼 위에서 운용해야 하지는 않지만,
    ① 개발자 범주를 벗어나면 여러 가지 플랫폼을 한번에 쓰는 사람이 드물고 대개는 버거워하며,
    ② 보안 등 관리적인 면에서도 단일 플랫폼일 때에 일단 저렴하다.
    → 그러나, 인사가 만사이므로 하둡 플랫폼을 대대적으로 쓰기 힘든 조직은 당장 쓸 수 있는 도구를 택해야 영속할 가능성이 높아진다. 인프라 역시 기술 부채가 많이 쌓이는 게 좋지 않긴 해도 일단 비즈니스 구현이 먼저다.
  • 문제 해결은 case by case이지만 pattern은 존재한다.
    • Journey
      Discover: usecase 도출 → Initiate → Prove(Pilot) → Scale 확장 →Transform (※최종결과물 아님) [→ 반복]
  • Petabyte 세계
    (예: HIPAA 준수 → 의료 데이터 8PB 발생)
  • HDFS 바깥 세계로 확장: Impala → AWS S3, MS ADLS 저장소도 지원한다. (엔터프라이즈 기능 제공)
  • Edge management
    • Federated learning: Edge device에서 학습용 데이터를 중앙에 전송할 필요 없이 train 모델만 공유한다.
    • Active learning: Limited labeled data로 학습한다.
  • 거버넌스: 오픈소스를 쓸 때에 가장 문제
    • Cloudera Hadoop은 audit 데이터를 생성한다.
    • Lineage(≒ Data pipeline)를 가시화한다.
반응형