입자가속기로 유명한 CERN은 2017년에 scale out이 곤란한 Oracle DB를 포기하고 Apache Spark로 전환한 모양입니다.
https://db-blog.web.cern.ch/blog/luca-canali/2017-08-apache-spark-and-cern-open-data-example
2TB/일 증가하고, 1PB/second로 처리하는 니즈이니 오라클 DB로는 비용을 감당하기 힘들었겠습니다.
그렇다고 해서 CERN이 오라클을 완전히 버리지는 않았습니다. 어찌된 셈인지 오라클 클라우드에서 Apache Spark를 운용하는 체제로 바뀌었습니다. (2019년) 위 링크에는 CERN이 빅데이터와 머신러닝을 쓰는 방식을 설명한 문서가 있으니 참고하길 바랍니다.
오픈소스 기반으로 대용량 데이터를 운용하는 곳으로 CERN은 둘째가라면 서러울 듯합니다. 엘라스틱 서치로 알람을 만드는 프로젝트도 벤치마킹해보고 싶습니다. 쿠버네티스를 적극적으로 활용하는 모습이나 아래 Github 프로젝트들이 상당히 전문적(!)으로 보입니다. 단기간에 따라 하기는 힘들어 보이긴 해도 워낙 대용량 데이터를 다루는 조직이라 꾸준히 배워 나갈 가치가 있겠습니다.
반응형
'BI > 빅데이터' 카테고리의 다른 글
디지털 마케팅까지 다루는 '고객을 끌어오는 구글 애널리틱스4' (0) | 2022.04.01 |
---|---|
Cloudera Hadoop 조언 memo (0) | 2021.05.16 |
빅데이터는 여우의 신포도가 아닙니다. (1) | 2020.01.14 |