본문 바로가기
BI/빅데이터

빅데이터 세계에서 하둡은 선택지 중 하나일 뿐

by wizmusa 2019. 10. 14.

하둡 프로젝트에 참여하고 운영을 하다 다시 본사에 돌아왔습니다. 제가 속한 조직은 꽤 큰 편인데 여전히 인공지능은 물론 하둡에 정서적으로 거리를 두었으며, 불가피하게 쓸 때에는 전적으로 협력업체에 의존했습니다. 빅데이터 니즈가 없지는 않았을 텐데 어떻게 하고 있는지 둘러 봤더니 Elastic Search와 Splunk를 쓰는 부서가 나왔습니다. 오라클 DB를 쓰듯 솔루션 개념으로 빅데이터 도구를 도입한 셈이었습니다. 별 수 없다는 생각이 들었습니다. Hadoop과 특히 Hive에 애착이 많았습니다만 우리 회사에서는 안 되겠구나 저 혼자 결론을 지었습니다. 인사가 만사여서이기도 하되, Hadoop이 없으면 안 될 두드러진 비즈니스 니즈가 없었기 때문이기도 합니다.

다행스럽게도 제가 빅데이터 일을 시작한 이래, Public Cloud도 크게 발전하여 Hadoop 위주의 빅데이터 처리 개념이 크게 바뀌어 왔습니다. 2019년을 기준으로 어지간한 규모로 IT가 낯설지 않은 기업은 AWS S3에도 친숙하며 자연스럽게 S3를 주축으로 데이터 레이크를 구축합니다. 그래서 저도 하둡을 배제한 오픈소스 기반 빅데이터 아키텍처를 구축했습니다. AWS에서는 S3, On-Premise에서는 상용 Object Storage를 기반으로 데이터 ETL, 시각화, 머신러닝 CI/CD, 형상관리 등 솔루션 체계를 꾸렸습니다. 대용량 데이터 처리가 필요하다면 Apache Spark Clustering을 구성합니다. 이미 Netflix가 잘 쓰기로 유명한 방법입니다. 물론 넷플릭스는 하둡도 잘 씁니다. 하둡 사용여부는 조직 취향에 맞춰 의사결정하면 됩니다.

저는 일단 배제했습니다만 하둡에는 미덕이 많습니다. Spark를 극한까지 쓸 때에는 여전히 Hadoop Yarn이 안정적입니다. Hadoop이 없으면 안 될 비즈니스 니즈를 만난다면 제가 참여를 하든 안 하든 못 하든 기쁠 듯합니다. 주력 아키텍처에서 크게 달라지지 않기 때문이기도 합니다. 😉 어찌 됐든 팀원에게는 기본소양으로 하둡을 설치하고 실습하게 하는 중입니다.

문서화를 마치고 회사 내에 공유하고 나면 어떤 오픈소스 솔루션을 추렸는지 공개하겠습니다. 보편적인 구성입니다만, 독학하는 이에게는 도움이 되지 않을까 합니다.

반응형